亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜自動化構建的探索與挑戰(zhàn)

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-09-05 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

知識圖譜自動化構建的探索與挑戰(zhàn)|論文分享

達觀數(shù)據(jù)

知識圖譜的自動化構建是知識圖譜中具有極強挑戰(zhàn)性且巨大應用價值的技術方向。就實體抽取技術,達觀數(shù)據(jù)副總裁、上海市人工智能技術標準委員會委員王文廣提到“狹義的實體抽取,即命名實體識別(NER)技術發(fā)展至今已較為成熟,能夠很好地抽取出人名、地名、機構名等少數(shù)類型的實體。但在知識圖譜實際應用中,則需要抽取出各式各樣各不相同的廣義實體,比如金融業(yè)中的產品名稱、品牌名、業(yè)務名、風險提示、觀點等,制造業(yè)中的失效模式、失效現(xiàn)象、工藝、設備、零部件、物料、方法、故障原因、改善措施等,商業(yè)中的產品、功能、特點、適合人群、搭配方法等等。抽取出這些廣義實體的挑戰(zhàn)巨大?!标P系抽取技術也同樣問題多挑戰(zhàn)大,已有關系抽取大多基于實體對之間共現(xiàn),而現(xiàn)實復雜的場景中,實體對共現(xiàn)既可能不存在任何關系,可能存在萬千種的關系,這就造成了關系抽取的難題。此外,在知識圖譜構建中,還涉及實體消歧、實體融合等方面的技術要求。

除了技術發(fā)展本身并不成熟之外,在實際場景中還遇到樣本少的問題。在真實落地的項目或產品中, 往往存在標注樣本少的問題,其原因即可能是標注成本高導致樣本少,也可能是本身樣本就少,無法獲得大規(guī)模的標注樣本。這方面王文廣深有體會,他提到“在很多場景下,總的文檔數(shù)量有幾千或幾萬份,對于具體某些類型的實體或關系來說則文檔數(shù)量更少。在這種情況下要做好知識圖譜的構建,是極大的挑戰(zhàn),也是在實際落地中必須綜合使用十八般武器,逢山開路遇水搭橋,使用最新的技術結合業(yè)務經(jīng)驗、專家規(guī)則等來解決這些問題?!?/p>

為了促進知識圖譜自動化構建技術的進一步發(fā)展,達觀數(shù)據(jù)在CCKS2020(2020全國知識圖譜與語義計算大會)組織了金融研報知識圖譜的自動化構建的算法競賽。競賽選擇了樣本豐富但復雜度較高的金融研報文檔作為知識的來源,根據(jù)金融投研領域常見的需求,設計了簡化版的知識圖譜模式,并標注了大規(guī)模的金融研報知識圖譜數(shù)據(jù)集FR2KG。競賽任務從預定義的知識圖譜模式和少量的種子知識圖譜開始,從非結構化的金融研報文本中抽取出符合知識圖譜模式的實體、關系和屬性值, 并進行適當?shù)膶嶓w消歧和實體融合,構建出知識圖譜,并使用FR2KG來評估競賽參賽隊伍所提交的結果。

金融研報是各類金融研究結構對宏觀經(jīng)濟、金融、行業(yè)、產業(yè)鏈以及公司的研究報告,是金融行業(yè)中最為復雜、多樣的文檔。報告通常是專業(yè)人員撰寫,對宏觀、行業(yè)和公司的數(shù)據(jù)信息搜集全面、研究深入,質量高,內容可靠。報告內容往往包含產業(yè)、經(jīng)濟、金融、政策、社會等多領域的數(shù)據(jù)與知識,是構建行業(yè)知識圖譜非常關鍵的數(shù)據(jù)來源。另一方面,由于研報本身所容納的數(shù)據(jù)與知識涉及面廣泛,專業(yè)知識眾多,不同的研究結構和專業(yè)認識對相同的內容的表達方式也會略有差異。這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。同時所構建的圖譜在大金融行業(yè)、監(jiān)管部門、政府、行業(yè)研究機構和行業(yè)公司等應用非常廣泛,如風險監(jiān)測、智能投研、智能監(jiān)管、智能風控等,具有巨大的學術價值和產業(yè)價值。

數(shù)據(jù)集

達觀數(shù)據(jù)所構建的大規(guī)模金融研報知識圖譜數(shù)據(jù)集FR2KG是用于評測知識圖譜自動化構建技術的專業(yè)數(shù)據(jù)集,是當前最大規(guī)模的中文金融研報知識圖譜。下圖是數(shù)據(jù)集構建過程示意圖

poYBAGMVUqSAB5vHAABSE5RNWVM330.jpg

FR2KG的知識圖譜模式包含10個實體類型,19個關系類型和6種屬性,如下圖所示。

pYYBAGMVUqWAUzxnAACkend7yiE077.jpg

構建好的金融研報知識圖譜數(shù)據(jù)集FR2KG包含17,799實體,26,798關系三元組,1,328屬性三元組,SeedKG和EvaluationKG的數(shù)據(jù)情況如下圖所示。

下圖是數(shù)據(jù)集的樣例,使用達觀數(shù)據(jù)淵海知識圖譜平臺可視化:

poYBAGMVUqWAU6wsAADVO-16R-c247.jpg

目前數(shù)據(jù)集已經(jīng)發(fā)布在SCIDB和OpenKG上,歡迎大家前往下載。在使用數(shù)據(jù)集進行研究時請引用本論文。

文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph

作者:王文廣,徐永林、杜春輝、陳運文、王逸捷、文輝

引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108

競賽技術回顧

本次評測一共有740個隊伍報名,其中F1分數(shù)最高的18支隊伍中,有3支隊伍來自企業(yè),10支隊伍來自高校,3支隊伍高校和企業(yè)的組合,另外2支隊伍未透露相關信息。本次評測的top5隊伍都梳理并提交了他們所使用的方法的簡要說明,下文對這些方法和說明進行分析總結。

所有隊伍都使用了規(guī)則或者labelling function來生產訓練樣本,只有一個隊伍在自動生成樣本之外,又額外人工標注了20份的研報來作為補充和驗證的訓練樣本。

所有隊伍在實體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規(guī)則的方法來對特定的實體類型進行補充。

在關系和屬性抽取方面,所有的隊伍都使用了基于共現(xiàn)的方法,共現(xiàn)是遠程監(jiān)督的基本假設,也就是說,當兩個實體共同出現(xiàn)在一個較短的一段文本時,即可假設它們存在符合相應的關系。在基于共現(xiàn)的假設之上,三支隊伍使用了規(guī)則來判斷是否真正存在這種關系,另外兩只隊伍使用了基于BERT的模型來對關系進行分類。

其中一支隊伍使用了聚類的方法來將相似或相同主題的研報給聚在一起,對研報進行了預處理。

知識圖譜自動化構建的挑戰(zhàn)

從本次基于知識圖譜模式的自動化構建知識圖譜評測的結果來看,單純使用算法來構建完全自動化地構建知識圖譜,尚存在較多挑戰(zhàn),這里總結了一些具有相當挑戰(zhàn)性的課題和研究方向:

在給定知識圖譜模式和種子知識圖譜來自動化的構建知識圖譜上,現(xiàn)有的方法效果都不太好,如何實現(xiàn)端到端或者多步的框架實現(xiàn)知識圖譜的完全自動化構建是值得繼續(xù)探索的。

通過知識圖譜及其對應的Schema如何實現(xiàn)自動化標注語料是一個值得研究的課題,能夠實現(xiàn)高精度的自動化標注語料可以帶來更好的抽取模型。此外,自動化標注語料方面的評測也是一件非常有意義的事情。

實體抽取方面,評測的優(yōu)秀選手都使用了基于BERT的模型,再加上基于規(guī)則的方法來實現(xiàn),在這種真實的場景且計算力資源受限的情況下,如何在少量語料的情況下實現(xiàn)高精度的抽取。

關系和屬性抽取與識別上,目前集中在采用短文本內共現(xiàn)并過濾的方法來實現(xiàn),這極大的依賴于實體抽取的F1分數(shù),高precision和高recall的實體抽取決定了關系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實現(xiàn)好的關系和屬性抽?。?/p>

本次評測沒有看到使用端到端的實現(xiàn)實體和關系聯(lián)合抽取的模型,可能的原因是實體和關系類型較多且沒有大量的語料,那么在這種情況下如何開發(fā)出端到端的模型也是非常具有挑戰(zhàn)性的課題。

當Schema的規(guī)模進一步擴大時,比如50種實體類型,數(shù)百種的實體屬性和實體間的關系,對這樣的知識圖譜研究其自動化構建是一個兼具挑戰(zhàn)性與現(xiàn)實意義的課題。

多語言的知識圖譜自動化構建技術的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實體融合的情況。但在真實場景下,多語言語料以及構建多語言圖譜是非常重要的。這涉及了多方面的內容,包括多語言的實體、關系和屬性的抽取,多語言之間實體的融合等等方面技術的研究。同時,組織多語言知識圖譜自動化構建方面的評測也是非常有意義的事情。

本次評測中隱含著少量實體的消歧與融合,這塊沒有顯性的進行評測,未來可以將這塊明確的表達出來,以促進相關領域的研究。

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5857

    瀏覽量

    88588
  • 數(shù)據(jù)集

    關注

    4

    文章

    1229

    瀏覽量

    25998
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    8233
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    工業(yè)遠程自動化控制系統(tǒng)功能圖譜:50 + 細分功能的協(xié)同運作

    組合,構建起覆蓋“感知-傳輸-分析-控制-優(yōu)化”全流程的自動化體系。這些功能既相互獨立又緊密關聯(lián),共同支撐起遠程工業(yè)控制的高效性、安全性與智能,其數(shù)量與深度直接決定了系統(tǒng)對復雜工業(yè)場景的適配能力。 一、數(shù)據(jù)采集與處理
    的頭像 發(fā)表于 08-19 17:44 ?534次閱讀

    自動化計算機的功能與用途

    工業(yè)自動化是指利用自動化計算機來控制工業(yè)環(huán)境中的流程、機器人和機械,以制造產品或其部件。工業(yè)自動化的目的是提高生產率、增加靈活性,并提升制造過程的質量。工業(yè)自動化在汽車制造中體現(xiàn)得最為
    的頭像 發(fā)表于 07-15 16:32 ?427次閱讀
    <b class='flag-5'>自動化</b>計算機的功能與用途

    AG32 SDK 最新版本V1.7.7 :實現(xiàn)構建自動化功能及更新HyperRAM的RGB例程

    等。 AG32 的管腳可以靈活定義,引腳與STM32。并且內置2KLE FPGA, 非常適合MCU + FPGA/CPLD的應用場景。 AG32 SDK 最新版本V1.7.7 :實現(xiàn)構建自動化功能
    發(fā)表于 06-05 14:41

    機器人和自動化的未來(2)

    、無人駕駛等概念,正在逐步成為現(xiàn)實。與此同時,機器人和自動化技術的廣泛應用,也帶來了倫理和法律方面的新挑戰(zhàn)。3.1智慧工廠與工業(yè)4.0智慧工廠是未來制造業(yè)的發(fā)展方向之一。
    的頭像 發(fā)表于 04-26 08:33 ?517次閱讀
    機器人和<b class='flag-5'>自動化</b>的未來(2)

    HFSS 自動化建模工具

    因工作需求,自己寫的HFSS參數(shù)自動化建模工具,目前只實現(xiàn)了常用的四種模型,可定制,如需可聯(lián)系 qq:1300038043 附件下載鏈接:https://pan.baidu.com/s/1TVeTTFiJw-pxSyT1AT8IQA 提取碼: kxup
    發(fā)表于 02-27 17:44

    清華大學自動化系學子走進華礪智行研學交流

    近日,清華大學自動化系的11名學子走進華礪智行研學交流,開展科技前沿探索的社會實踐活動。
    的頭像 發(fā)表于 02-13 10:03 ?641次閱讀

    環(huán)球儀器Uflex靈活自動化平臺概述

    在生產廠房全面走向自動化之際,最令廠家頭痛的莫過于生產線上一些難以自動化的組裝工序。若以功能單一的自動化平臺來解決,投資可能沒有保障。環(huán)球儀器的Uflex靈活自動化平臺提供一個完美的解
    的頭像 發(fā)表于 02-08 09:13 ?895次閱讀
    環(huán)球儀器Uflex靈活<b class='flag-5'>自動化</b>平臺概述

    基于 Docker 與 Jenkins 實現(xiàn)自動化部署

    優(yōu)化,為 Docker 容器應用與 Jenkins 自動化流水線提供了理想的運行環(huán)境。無論是快速構建、測試還是部署,F(xiàn)lexus X 都能確保流程順暢無阻,大幅提升軟件開發(fā)與交付效率。立即擁抱華為云
    的頭像 發(fā)表于 01-07 17:25 ?774次閱讀
    基于 Docker 與 Jenkins 實現(xiàn)<b class='flag-5'>自動化</b>部署

    探索儲能電池組自動化設備的創(chuàng)新與發(fā)展

    隨著新能源產業(yè)的蓬勃發(fā)展和電動汽車市場的日益擴大,儲能電池組作為其核心部件,其生產效率與質量直接關系到整個產業(yè)鏈的穩(wěn)定與競爭力。在這一背景下,儲能電池組自動化設備應運而生,以其高效、精準的生產能力
    的頭像 發(fā)表于 12-25 16:30 ?709次閱讀

    自動化創(chuàng)建UI并解析數(shù)據(jù)

    *附件:32960_auto.rar備注:Main.vi是ui自動化2.1.vi,配置文件為32960.B.ini。 目前可以實現(xiàn)根據(jù)配置文件自動化創(chuàng)建控件并布局,且可以自動解析接收到的數(shù)據(jù)內容寫入
    發(fā)表于 12-10 08:41

    Rinaldi代表團到訪SPEA總部:探索全球頂尖自動化測試技術

    自動化測試的廣闊領域中,SPEA憑借飛針測試儀、功率半導體測試設備、MEMS測試系統(tǒng)等一系列創(chuàng)新產品,不斷為前沿科技產業(yè)注入強勁動力,已然成為支撐汽車產業(yè)向電動、智能發(fā)展的重要推手。正因如此
    的頭像 發(fā)表于 12-06 01:05 ?1015次閱讀
    Rinaldi代表團到訪SPEA總部:<b class='flag-5'>探索</b>全球頂尖<b class='flag-5'>自動化</b>測試技術

    自動化創(chuàng)建UI并解析數(shù)據(jù)

    Labview實現(xiàn)動態(tài)增加控件效果 - *附件:32960_auto.rar 備注:Main.vi是ui自動化2.1.vi,配置文件為32960.B.ini。 目前可以實現(xiàn)根據(jù)配置文件自動化創(chuàng)建控件
    發(fā)表于 11-29 11:26

    工業(yè)自動化的發(fā)展歷程與未來趨勢

    工業(yè)自動化(Industrial Automation)的發(fā)展旨在提升生產效率、降低成本并減少人力依賴,這一過程涵蓋了多種技術的應用與進步。工業(yè)自動化的核心在于將工廠中的機械設備、控制系統(tǒng)及信息技術
    的頭像 發(fā)表于 11-21 15:36 ?2145次閱讀

    e絡盟社區(qū)攜手恩智浦發(fā)起智能空間樓宇自動化挑戰(zhàn)

    安富利旗下全球電子元器件產品與解決方案分銷商e絡盟社區(qū)與恩智浦聯(lián)合發(fā)起圍繞智能空間樓宇自動化設計的全新挑戰(zhàn)賽。本次挑戰(zhàn)賽邀請工程師和技術愛好者利用恩智浦FRDM MCX A 系列(A15X)開發(fā)套件,開發(fā)創(chuàng)新的解決方案。
    的頭像 發(fā)表于 11-14 10:44 ?796次閱讀
    e絡盟社區(qū)攜手恩智浦發(fā)起智能空間樓宇<b class='flag-5'>自動化</b><b class='flag-5'>挑戰(zhàn)</b>賽

    三星自主研發(fā)知識圖譜技術,強化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術,旨在進一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強用戶數(shù)據(jù)的隱私保護。
    的頭像 發(fā)表于 11-07 15:19 ?1642次閱讀