亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌重磅發(fā)布自然問題數(shù)據(jù)集,包含30萬個(gè)自然發(fā)生的問題和人工注釋的答案

DPVg_AI_era ? 來源:lq ? 2019-01-25 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天,谷歌重磅發(fā)布自然問題數(shù)據(jù)集(Natural Questions),包含30萬個(gè)自然發(fā)生的問題和人工注釋的答案,16000個(gè)示例,并發(fā)起基于此數(shù)據(jù)集的問答系統(tǒng)挑戰(zhàn)賽。有望成為自然語言理解領(lǐng)域的SQuAD!

開放領(lǐng)域問題回答(QA)是自然語言理解(NLU)中的一項(xiàng)基準(zhǔn)任務(wù),它的目的是模擬人類如何查找信息,通過閱讀和理解整個(gè)文檔來找到問題的答案。

比如,給定一個(gè)用自然語言表達(dá)的問題“為什么天空是藍(lán)色的?”("Why is the sky blue?”),QA系統(tǒng)應(yīng)該能夠閱讀網(wǎng)頁(例如“天空漫射”的維基百科頁面)并返回正確的答案,即使答案有些復(fù)雜和冗長(zhǎng)。

然而,目前還沒有可以用于訓(xùn)練和評(píng)估QA模型的大型、公開的自然發(fā)生問題(即由尋求信息的人提出的問題)和答案數(shù)據(jù)集。

這是因?yàn)闃?gòu)建用于QA任務(wù)的高質(zhì)量數(shù)據(jù)集需要大量的真實(shí)問題來源,并且需要大量人力來為這些問題尋找正確答案。

為了促進(jìn)QA領(lǐng)域的研究進(jìn)展,谷歌今天發(fā)布自然問題數(shù)據(jù)集(Natural Questions, NQ),這是一個(gè)用于訓(xùn)練和評(píng)估開放領(lǐng)域問答系統(tǒng)的新的、大規(guī)模語料庫,也是第一個(gè)復(fù)制人類查找問題答案的端到端流程的語料庫。

Natural Questions數(shù)據(jù)集

NQ的規(guī)模非常龐大,包含30萬個(gè)自然發(fā)生的問題,以及來自Wikipedia頁面的人工注釋答案,用于訓(xùn)練QA系統(tǒng)。

此外,NQ語料庫還包含16000個(gè)示例,每個(gè)示例都由5位不同的注釋人提供答案(針對(duì)相同的問題),這對(duì)于評(píng)估所學(xué)習(xí)的QA系統(tǒng)的性能非常有用。

Natural Questions數(shù)據(jù)集中的示例

由于回答NQ中的問題比回答瑣碎問題(這些問題對(duì)計(jì)算機(jī)來說已經(jīng)很容易解決)需要有更深入的理解,谷歌還發(fā)起了一項(xiàng)基于此數(shù)據(jù)集的挑戰(zhàn)賽,以幫助提高計(jì)算機(jī)對(duì)自然語言的理解。

NQ挑戰(zhàn)賽排行榜

NQ數(shù)據(jù)集包含307K訓(xùn)練示例、8K開發(fā)示例和8K測(cè)試示例。

目前,NQ挑戰(zhàn)賽排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成績(jī)。在論文中,谷歌證明在長(zhǎng)答案選擇任務(wù)上的人類的最優(yōu)成績(jī)?yōu)?7% F1,在短答案選擇任務(wù)上人類的最優(yōu)成績(jī)?yōu)?6%。

來自谷歌搜索的真實(shí)問題

NQ是第一個(gè)使用自然發(fā)生的查詢創(chuàng)建的數(shù)據(jù)集,并專注于通過閱讀整個(gè)頁面來查找答案,而不是從一個(gè)短段落中提取答案。

為了創(chuàng)建NQ,我們從用戶提交給Google搜索引擎的真實(shí)、匿名、聚合的查詢開始。

然后,我們要求注釋者通過通讀整個(gè)維基百科頁面來找到答案,就好像這個(gè)問題是他們自己提出的一樣。注釋者需要找到一個(gè)長(zhǎng)答案和一個(gè)短答案,長(zhǎng)答案涵蓋推斷問題所需的所有信息,短答案需要用一個(gè)或多個(gè)實(shí)體的名稱簡(jiǎn)潔地回答問題。

對(duì)NQ語料庫的注釋質(zhì)量進(jìn)行評(píng)估,顯示準(zhǔn)確率達(dá)到90%。

注釋包含一個(gè)長(zhǎng)答案和一個(gè)短答案

研究人員在論文《自然問題:?jiǎn)柎鹧芯康幕鶞?zhǔn)》(Natural Questions: a Benchmark for Question Answering Research)中對(duì)數(shù)據(jù)收集的過程進(jìn)行了全面描述,論文已發(fā)表在《計(jì)算語言學(xué)協(xié)會(huì)會(huì)刊》(Transactions of the Association for computing Linguistics)。大家也可以在NQ網(wǎng)站上查看更多來自數(shù)據(jù)集的示例。

自然語言理解挑戰(zhàn)

NQ的目的是使QA系統(tǒng)能夠閱讀和理解完整的維基百科文章,其中可能包含問題的答案,也可能不包含問題的答案。

系統(tǒng)首先需要確定這個(gè)問題的定義是否足夠充分,是否可以回答——許多問題本身基于錯(cuò)誤的假設(shè),或者過于模糊,無法簡(jiǎn)明扼要地回答。

然后,系統(tǒng)需要確定維基百科頁面中是否包含推斷答案所需的所有信息。我們認(rèn)為,相比在知道長(zhǎng)答案后在尋找短答案,長(zhǎng)答案識(shí)別任務(wù)——找到推斷答案所需的所有信息——需要更深層次的語言理解。

我們希望NQ的發(fā)布以及相關(guān)的挑戰(zhàn)賽將有助于推動(dòng)更有效、更強(qiáng)大的QA系統(tǒng)的開發(fā)。我們鼓勵(lì)NLU社區(qū)參與進(jìn)來,并幫助縮小目前最先進(jìn)方法的性能與人類上限之間的巨大差距。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6241

    瀏覽量

    110091
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    25998
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13885

原文標(biāo)題:NLP新基準(zhǔn)!谷歌重磅發(fā)布開放問答數(shù)據(jù)集,30萬自然提問+人工注釋答案

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    SGS為TCL華星自然光MNT顯示頒發(fā)高自然光相似度 Performance Tested Mark

    廣州2025年10月17日?/美通社/ -- 2025年10月15日,第138屆中國(guó)進(jìn)出口商品交易會(huì)(又稱"廣交會(huì)")的全屋智能家電專場(chǎng)新產(chǎn)品發(fā)布會(huì)現(xiàn)場(chǎng),國(guó)際公認(rèn)的測(cè)試、檢驗(yàn)和認(rèn)證機(jī)構(gòu)SGS為TCL
    的頭像 發(fā)表于 10-19 20:26 ?184次閱讀
    SGS為TCL華星<b class='flag-5'>自然</b>光MNT顯示頒發(fā)高<b class='flag-5'>自然</b>光相似度 Performance Tested Mark

    激光與自然光的根本區(qū)別是什么?

    的,能夠照準(zhǔn)在一個(gè)焦點(diǎn)。即使在遠(yuǎn)處,光線激光的光線也能夠照準(zhǔn)在一個(gè)焦點(diǎn)上。而自然日光的光線是分散的,所以光線是比較弱。 激光主要的特性之一便是可以產(chǎn)生高得出奇的亮度,或者說具有高的發(fā)光強(qiáng)度。地球上任何一種已知材料,無論
    的頭像 發(fā)表于 09-24 08:08 ?103次閱讀

    北斗生態(tài)環(huán)境監(jiān)測(cè)站:讀懂自然的 “語言”

    北斗生態(tài)環(huán)境監(jiān)測(cè)站:讀懂自然的 “語言”柏峰【BF-BDQX】當(dāng)生態(tài)監(jiān)測(cè)遇上北斗技術(shù),一場(chǎng)關(guān)于 “精準(zhǔn)守護(hù)自然” 的變革正悄然發(fā)生 ——北斗生態(tài)環(huán)境監(jiān)測(cè)站以北斗定位導(dǎo)航系統(tǒng)為核心
    的頭像 發(fā)表于 09-04 10:59 ?270次閱讀
    北斗生態(tài)環(huán)境監(jiān)測(cè)站:讀懂<b class='flag-5'>自然</b>的 “語言”

    航天宏圖筑牢自然災(zāi)害安全防線

    自然災(zāi)害頻發(fā)的今天,每一秒的數(shù)據(jù)滯后都可能意味著生命與財(cái)產(chǎn)的巨大損失。如何讓防災(zāi)減災(zāi)的決策從“經(jīng)驗(yàn)驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)智能”?航天宏圖用一套“常普常新”的科技解決方案,給出了答案。
    的頭像 發(fā)表于 07-14 14:31 ?437次閱讀

    無法將自定義COCO數(shù)據(jù)導(dǎo)入到OpenVINO? DL Workbench怎么解決?

    JSON包含以下格式注釋的文件:{ \"images\": [], \"annotations\": [] } 創(chuàng)建自定義 COCO 數(shù)據(jù)。 無法將自定義 COCO
    發(fā)表于 03-05 06:02

    如何優(yōu)化自然語言處理模型的性能

    優(yōu)化自然語言處理(NLP)模型的性能是一個(gè)多方面的任務(wù),涉及數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型調(diào)參、模型集成與融合等多個(gè)環(huán)節(jié)。以下是一些具體的優(yōu)化策略: 一、數(shù)據(jù)預(yù)處理優(yōu)化 文本清洗
    的頭像 發(fā)表于 12-05 15:30 ?2254次閱讀

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理(NLP)分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過程,涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程,幫助你理解如何使用NLP來分析文本數(shù)據(jù)
    的頭像 發(fā)表于 12-05 15:27 ?2210次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡(jiǎn)稱ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因?yàn)闄C(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具,用于從大
    的頭像 發(fā)表于 12-05 15:21 ?2441次閱讀

    語音識(shí)別與自然語言處理的關(guān)系

    人工智能的快速發(fā)展中,語音識(shí)別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語音,而自然語言處理則讓機(jī)器能夠理解、解釋和生成人類語言。這兩項(xiàng)技術(shù)
    的頭像 發(fā)表于 11-26 09:21 ?2040次閱讀

    自然答案超級(jí)植物工廠獲超千萬元天使輪融資

    光合未來旗下子公司“自然答案超級(jí)植物工廠”近日宣布,已完成折合總計(jì)超千萬元的天使輪融資。本輪融資由“燕趙園林”主導(dǎo)投資,將主要用于啟動(dòng)光合未來300畝產(chǎn)業(yè)園區(qū)一期的建設(shè)。這也是光合未來體系內(nèi)的第五次
    的頭像 發(fā)表于 11-22 13:59 ?930次閱讀

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型(LLM)的出現(xiàn),標(biāo)志著我們對(duì)語言理解能力的一次飛躍。LLM通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,使得機(jī)器能夠以前
    的頭像 發(fā)表于 11-19 15:32 ?4304次閱讀

    ASR與自然語言處理的結(jié)合

    ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)與自然語言處理(NLP)是人工智能領(lǐng)域的兩個(gè)重要分支,它們?cè)谠S多應(yīng)用中緊密結(jié)合,共同構(gòu)成了自然語言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1370次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    自然語言處理是人工智能領(lǐng)域的一個(gè)重要分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)作為一種強(qiáng)大的模型,在圖像識(shí)別和語音處理等領(lǐng)域取得了顯著成果
    的頭像 發(fā)表于 11-15 14:58 ?1105次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的區(qū)別

    人工智能的快速發(fā)展中,自然語言處理(NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語言處理(NLP) 定義:
    的頭像 發(fā)表于 11-11 10:35 ?1974次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。大型語言模型(LLM)是NLP領(lǐng)域的一項(xiàng)重要技術(shù),它們通過深度學(xué)習(xí)和大量的數(shù)據(jù)訓(xùn)練
    的頭像 發(fā)表于 11-08 09:27 ?3515次閱讀