亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 2023-05-30 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

總說一下

大型語言模型已經(jīng)看到數(shù)萬億個(gè)tokens。然而,誰知道里面是什么?最近的工作已經(jīng)在許多不同的任務(wù)中評(píng)估了這些模型,但是,他們是否確保模型沒有看到訓(xùn)練甚至評(píng)估數(shù)據(jù)集?在這篇博文中,我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準(zhǔn)數(shù)據(jù)集,并且可以提示 ChatGPT 重新生成它們。

ChatGPT 公開發(fā)布已經(jīng)六個(gè)月了。目前,出乎意料的出色表現(xiàn)使它的知名度超出了研究界,通過媒體傳播到了普通大眾。這是語言模型 (LM) 的轉(zhuǎn)折點(diǎn),以前用作驅(qū)動(dòng)不同產(chǎn)品的引擎,現(xiàn)在變成了自己的產(chǎn)品。

自然語言處理(NLP)領(lǐng)域的研究方向也相應(yīng)發(fā)生了變化。作為一個(gè)跡象,在 5 月 25 日星期四,即 EMNLP23 匿名期開始兩天后,在 arXiv 上的計(jì)算和語言類別下發(fā)表了 279 篇論文。在這 279 篇論文中,101 篇包含語言模型或 LM,25 篇是 GPT,10 篇直接提到了 ChatGPT。一年前的同一天,同一類別下發(fā)表了 81 篇論文。

不幸的是,我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無所知:架構(gòu)、epoch、loss、過濾或去重步驟,尤其是用于訓(xùn)練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能,許多研究都以它或其他封閉的 LM 為基準(zhǔn)。但與此同時(shí),得出經(jīng)驗(yàn)結(jié)論的過程幾乎變得不可能。為了更好地理解問題,讓我們看一個(gè)例子:

想象一下,您是從事信息提取工作的 NLP 研究人員。你想看看這個(gè)新的封閉 LM 如何以零樣本的方式識(shí)別文本中的相關(guān)實(shí)體,比如人(即不給模型任何帶標(biāo)簽的例子)。您可能會(huì)注意到 ChatGPT 可以很好地執(zhí)行任務(wù)。事實(shí)上,它的性能接近于在大量手動(dòng)標(biāo)注數(shù)據(jù)(監(jiān)督系統(tǒng))上訓(xùn)練過的模型,并且遠(yuǎn)高于最先進(jìn)的零樣本系統(tǒng)。您能否得出結(jié)論,ChatGPT 比任何其他競爭 LM 都要好得多?實(shí)際上,不,除非你可以 100% 確定評(píng)估數(shù)據(jù)集在 Internet 上不可用,因此在訓(xùn)練期間沒有被 ChatGPT 看到。

關(guān)鍵是 ChatGPT 和其他 LM 作為服務(wù)是產(chǎn)品。因此,他們不需要遵循科學(xué)家用于實(shí)證實(shí)驗(yàn)的嚴(yán)格評(píng)估協(xié)議。這些協(xié)議確??梢愿鶕?jù)經(jīng)驗(yàn)確定假設(shè),例如在相同的實(shí)驗(yàn)條件下,系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下,這些模型有可能在其預(yù)訓(xùn)練或指令微調(diào)期間看到了標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)集。在不排除這種可能性的情況下,我們不能斷定它們優(yōu)于其他系統(tǒng)。

污染和記憶

有足夠的證據(jù)表明 LLM 存在評(píng)估問題。在發(fā)布 GPT-4 后的第一天,Horace He(推特上的@cHHillee)展示了該模型如何解決最簡單的代碼競賽問題,直到 2021 年,即訓(xùn)練截止日期。相反,對(duì)于該日期之后的任何問題,都沒有得到正確解決。正如 Horace He 指出的那樣,“這強(qiáng)烈表明存在污染”。

8d18874c-fea7-11ed-90ce-dac502259ad0.png

簡而言之,當(dāng)模型在驗(yàn)證或測(cè)試示例上進(jìn)行訓(xùn)練(或在訓(xùn)練示例上進(jìn)行評(píng)估)時(shí),我們說模型被污染了。一個(gè)相關(guān)的概念是記憶。當(dāng)模型能夠在一定程度上生成數(shù)據(jù)集實(shí)例時(shí),我們說模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問題,尤其是對(duì)于個(gè)人、私人或許可數(shù)據(jù),但不查看訓(xùn)練數(shù)據(jù)更容易識(shí)別,即隱藏訓(xùn)練信息時(shí)。相比之下,污染使得無法得出可靠的結(jié)論,并且除非您可以訪問數(shù)據(jù),否則沒有簡單的方法來識(shí)別問題。那么,我們可以做些什么來確保 ChatGPT 不會(huì)在我們的測(cè)試中作弊嗎?我們不能,因?yàn)檫@需要訪問 ChatGPT 在訓(xùn)練期間使用的全套文檔。但是我們可以從中得到一些線索,如下。

檢測(cè) LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來檢測(cè)污染情況。例如,對(duì)于一個(gè)非常流行的命名實(shí)體識(shí)別 (NER) 數(shù)據(jù)集 CoNLL-03,我們要求 ChatGPT 生成數(shù)據(jù)集訓(xùn)練拆分的第一個(gè)實(shí)例,如下所示:

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下圖 1 所示,該模型完美地生成了文本和標(biāo)簽,即 EU 是一個(gè)組織,德國人和英國人是雜項(xiàng),Peter Blackburn 是一個(gè)人,而 BRUSSELS 是一個(gè)位置。事實(shí)上,該模型能夠生成驗(yàn)證甚至測(cè)試拆分,包括標(biāo)注錯(cuò)誤,例如中國被標(biāo)記為一個(gè)人。在谷歌上快速搜索顯示,至少有 3 篇論文(其中一篇實(shí)際上被頂級(jí)科學(xué)會(huì)議 ACL 2023 接受)確實(shí)將 ChatGPT 或 Codex(另一個(gè)封閉的 LM)評(píng)估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說一句,ChatGPT 在 CoNLL03 上的性能從第一篇論文(2 月 20 日)到第二篇論文(5 月 23 日)提高了近 9 個(gè) F1 點(diǎn),原因不明,但這是本文之外的另一個(gè)故事。

8d1f6fbc-fea7-11ed-90ce-dac502259ad0.png

圖 1:ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個(gè)訓(xùn)練示例。

這如何擴(kuò)展到其他 NLP 數(shù)據(jù)集?為了研究這種現(xiàn)象,我們將用于 CoNLL03 的相同協(xié)議應(yīng)用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進(jìn)行此實(shí)驗(yàn):

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通過將此提示應(yīng)用于各種 NLP 任務(wù),我們發(fā)現(xiàn) ChatGPT 能夠?yàn)槠渌餍械臄?shù)據(jù)集(如 SQuAD 2.0 和 MNLI)生成準(zhǔn)確的示例。在其他一些情況下,ChatGPT 生成了不存在的示例(幻覺內(nèi)容),但它在數(shù)據(jù)集中生成了原始屬性,如格式或標(biāo)識(shí)符。即使恢復(fù)屬性而非確切示例的能力顯示出較低程度的記憶,它確實(shí)表明模型在訓(xùn)練期間看到了數(shù)據(jù)集。參見圖 2。

8d2fe1ee-fea7-11ed-90ce-dac502259ad0.png

圖 2:ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id,但數(shù)據(jù)集中不存在該示例。

在下表中,我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如果模型能夠生成數(shù)據(jù)集(文本和標(biāo)簽)的示例,我們就說它被污染了。如果模型能夠生成特征屬性,例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關(guān)信息,則該模型是可疑的。如果模型無法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容,我們認(rèn)為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開可用,我們使用標(biāo)簽 n/a。

8d396f98-fea7-11ed-90ce-dac502259ad0.png

該表中的結(jié)果表明,我們分析的許多學(xué)術(shù)基準(zhǔn)被作為訓(xùn)練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡,但我們沒有理由相信其他公開可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓(xùn)練語料庫之外。您可以在 LM 污染指數(shù)[6]上找到完整的實(shí)驗(yàn)表。

我們?cè)诒静┛椭姓故镜乃袑?shí)驗(yàn)都是在 ChatGPT 之上進(jìn)行的,ChatGPT 是一個(gè)黑盒 LLM,其架構(gòu)或訓(xùn)練數(shù)據(jù)信息尚未發(fā)布。值得注意的是,雖然我們專注于黑盒 LLM,但我們并未考慮使用公開可用的 LLM 時(shí)要解決的數(shù)據(jù)集污染問題。我們鼓勵(lì)研究人員發(fā)布用作訓(xùn)練數(shù)據(jù)的文件,妥善記錄并完全可訪問,以便外部審計(jì)能夠確保它們沒有被污染。在這方面,BigScience 研討會(huì)下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個(gè)很好的例子,說明如何公開訓(xùn)練數(shù)據(jù),并允許研究人員對(duì)用于訓(xùn)練 Bloom LLM 的 ROOTS 語料庫進(jìn)行查詢模型[5]。

呼吁采取行動(dòng)

在評(píng)估 LLM 的性能時(shí),LLM 的污染是一個(gè)重要問題。作為一個(gè)社區(qū),解決這個(gè)問題并制定有效的解決方案對(duì)我們來說至關(guān)重要。例如,對(duì) ROOTS 搜索工具的快速搜索使我們能夠驗(yàn)證 ROOTS 語料庫中只存在 CoNLL03 的第一句及其注釋。在這篇博客中,我們展示了關(guān)于 ChatGPT 對(duì)各種流行數(shù)據(jù)集(包括它們的測(cè)試集)的記憶的一些初步發(fā)現(xiàn)。訓(xùn)練和驗(yàn)證分裂的污染會(huì)損害模型對(duì)零/少樣本實(shí)驗(yàn)的適用性。更重要的是,測(cè)試集中存在污染會(huì)使每個(gè)評(píng)估都無效。我們的研究提出的一項(xiàng)建議是停止使用未在科學(xué)論文中正確記錄訓(xùn)練數(shù)據(jù)的 LLM,直到有證據(jù)表明它們沒有受到污染。同樣,程序委員會(huì)在接受包含此類實(shí)驗(yàn)的論文時(shí)應(yīng)謹(jǐn)慎行事。

我們正在積極努力擴(kuò)大所分析的數(shù)據(jù)集和模型的范圍。通過包含更廣泛的數(shù)據(jù)集和模型,我們希望定義關(guān)于哪些數(shù)據(jù)集/模型組合對(duì)評(píng)估無效的指南。除了擴(kuò)展我們的分析之外,我們還對(duì)設(shè)計(jì)用于測(cè)量學(xué)術(shù)數(shù)據(jù)集污染的自動(dòng)方法感興趣。

數(shù)據(jù)集和模型的數(shù)量令人生畏。因此,我們正在設(shè)想社區(qū)的努力。如果您對(duì) NLP 研究充滿熱情并希望在 LLM 評(píng)估中為防止污染做出貢獻(xiàn),請(qǐng)聯(lián)系我們并查看下面的 GitHub 存儲(chǔ)庫。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3627

    瀏覽量

    51612
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    26001
  • ChatGPT
    +關(guān)注

    關(guān)注

    30

    文章

    1595

    瀏覽量

    10006

原文標(biāo)題:和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!國外的一項(xiàng)重要發(fā)現(xiàn)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何評(píng)估CAN總線信號(hào)質(zhì)量

    CAN總線網(wǎng)絡(luò)的性能在很大程度上取決于其信號(hào)質(zhì)量。信號(hào)質(zhì)量差可能導(dǎo)致通信錯(cuò)誤,進(jìn)而引發(fā)系統(tǒng)故障、效率降低甚至安全隱患。因此,評(píng)估和確保CAN總線信號(hào)質(zhì)量是維護(hù)系統(tǒng)健康和可靠性的關(guān)鍵。 在CAN總線網(wǎng)
    發(fā)表于 06-07 08:46

    和安信可Ai-M61模組對(duì)話?手搓一個(gè)ChatGPT 語音助手 #人工智能 #

    ChatGPT
    jf_31745078
    發(fā)布于 :2025年03月12日 15:56:59

    OpenAI嘗試減少對(duì)ChatGPT的審查

    ,這一政策的實(shí)施將使得ChatGPT能夠回答更多的問題,提供更多的視角。在過去,由于審查機(jī)制的存在,ChatGPT對(duì)于一些敏感或爭議性話題往往保持沉默,不愿過多涉及。然而,隨著新政策的推行,ChatGPT將逐漸減少對(duì)這類話題的回
    的頭像 發(fā)表于 02-17 14:42 ?3504次閱讀

    OpenAI免費(fèi)開放ChatGPT搜索功能

    近日,OpenAI宣布了一項(xiàng)重大決策:向所有用戶免費(fèi)開放ChatGPT搜索功能。這一舉措無疑將為用戶帶來更加高效、智能的搜索體驗(yàn)。 與谷歌等傳統(tǒng)搜索引擎的收錄模式相比,ChatGPT搜索展現(xiàn)出了獨(dú)特
    的頭像 發(fā)表于 02-06 14:35 ?735次閱讀

    使用了一片ADS1198做肌電信號(hào)采集,所有通道的數(shù)據(jù)都不準(zhǔn)確,為什么?

    我使用了一片ADS1198做肌電信號(hào)采集,初始化成功后用信號(hào)發(fā)生器產(chǎn)生的正弦波做測(cè)試,依次接到1-8通道上,其他通道懸空。在PGA = 1時(shí),除了2通道,其他通道轉(zhuǎn)換后的值都準(zhǔn)確,在PGA 等于其他值時(shí),所有通道的數(shù)據(jù)都不準(zhǔn)確,除了2通道,其他通道數(shù)據(jù)都一致,請(qǐng)問這是因
    發(fā)表于 01-22 07:16

    查看和命令相關(guān)所有幫助

    下的內(nèi)容 代碼: [root@localhost ~]# ls [選項(xiàng)] [文件名或者目錄名]-a顯示所有文件--color=when :支持顏色輸出,when的默認(rèn)值是always(總顯示顏色),也可以
    的頭像 發(fā)表于 01-03 09:37 ?644次閱讀
    查看和命令<b class='flag-5'>相關(guān)</b>的<b class='flag-5'>所有</b>幫助

    所有級(jí)聯(lián)片子的RLDIN引腳是否都不用同RLDOUT 和RLDINV相連接?

    樣本中RLD Configuration with Multiple Device的硬件示例圖中只說RLDIN去MUX,想問一下所有級(jí)聯(lián)片子的RLDIN引腳是否都不用同RLDOUT 和RLDINV相連接?
    發(fā)表于 01-03 07:00

    ChatGPT新增實(shí)時(shí)搜索與高級(jí)語音功能

    在OpenAI的第八天技術(shù)分享直播中,ChatGPT的搜索功能迎來了重大更新。此次更新不僅豐富了ChatGPT的功能體系,更提升了其實(shí)用性和競爭力。 新增的實(shí)時(shí)搜索功能,是此次更新的亮點(diǎn)之一
    的頭像 發(fā)表于 12-17 14:08 ?868次閱讀

    ADCPro怎么評(píng)估ads1259?

    現(xiàn)在有ads1259演示套件了也安裝好ADCPro了怎么評(píng)估1259的性能啊主要是評(píng)估哪些參數(shù)呢有沒有相關(guān)的參考呢
    發(fā)表于 12-13 06:21

    OpenAI發(fā)布滿血版ChatGPT Pro

    ,OpenAI已經(jīng)向所有ChatGPT Plus、Team及Pro用戶開放了對(duì)o1模型的完整訪問權(quán)限。同時(shí),公司還推出了ChatGPT Pro訂閱服務(wù),月費(fèi)為200美元。訂閱用戶將能夠無限制地訪問o1模型及其專屬版本,從而獲得更
    的頭像 發(fā)表于 12-06 11:10 ?1051次閱讀

    OpenAI推出Windows桌面版ChatGPT應(yīng)用

    近日,OpenAI正式為微軟Windows 10和Windows 11用戶帶來了桌面版ChatGPT應(yīng)用程序,這一創(chuàng)新之舉為用戶提供了更加便捷和高效的交互體驗(yàn)。 據(jù)OpenAI產(chǎn)品開發(fā)人員Alex
    的頭像 發(fā)表于 11-18 14:04 ?982次閱讀

    智慧路燈哪家強(qiáng)?看完這些案例你就心里有數(shù)了

    智慧路燈哪家強(qiáng)?看完這些案例你就心里有數(shù)了
    的頭像 發(fā)表于 11-14 18:05 ?1112次閱讀
    智慧路燈哪家強(qiáng)?看完這些案例你就心里有<b class='flag-5'>數(shù)了</b>

    ChatGPT服務(wù)中斷,OpenAI正積極恢復(fù)

    近日,據(jù)OpenAI官方報(bào)道,他們發(fā)現(xiàn)ChatGPT服務(wù)出現(xiàn)了用戶暫時(shí)無法接入的問題。這一突發(fā)狀況引發(fā)了廣泛關(guān)注,許多用戶紛紛表達(dá)了對(duì)服務(wù)中斷的不滿和擔(dān)憂。 面對(duì)這一突發(fā)狀況,OpenAI迅速作出
    的頭像 發(fā)表于 11-11 13:38 ?1038次閱讀

    LMX2595鑒相頻率和電荷泵電流關(guān)系如何評(píng)估,以及對(duì)雜散相噪的相關(guān)評(píng)估?

    請(qǐng)問鑒相頻率和電荷泵電流關(guān)系如何評(píng)估,以及對(duì)雜散相噪的相關(guān)評(píng)估?
    發(fā)表于 11-11 06:58