四虎影视永久在线观看精品,自拍偷在线精品自拍偷99,亚洲区中文字幕在线不卡电影

總說一下

大型語言模型已經(jīng)看到數(shù)萬億個(gè)tokens。然而，誰知道里面是什么？最近的工作已經(jīng)在許多不同的任務(wù)中評(píng)估了這些模型，但是，他們是否確保模型沒有看到訓(xùn)練甚至評(píng)估數(shù)據(jù)集？在這篇博文中，我們展示了一些流行的已經(jīng)被 ChatGPT 記住的基準(zhǔn)數(shù)據(jù)集，并且可以提示 ChatGPT 重新生成它們。

ChatGPT 公開發(fā)布已經(jīng)六個(gè)月了。目前，出乎意料的出色表現(xiàn)使它的知名度超出了研究界，通過媒體傳播到了普通大眾。這是語言模型 (LM) 的轉(zhuǎn)折點(diǎn)，以前用作驅(qū)動(dòng)不同產(chǎn)品的引擎，現(xiàn)在變成了自己的產(chǎn)品。

自然語言處理（NLP）領(lǐng)域的研究方向也相應(yīng)發(fā)生了變化。作為一個(gè)跡象，在 5 月 25 日星期四，即 EMNLP23 匿名期開始兩天后，在 arXiv 上的計(jì)算和語言類別下發(fā)表了 279 篇論文。在這 279 篇論文中，101 篇包含語言模型或 LM，25 篇是 GPT，10 篇直接提到了 ChatGPT。一年前的同一天，同一類別下發(fā)表了 81 篇論文。

不幸的是，我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無所知：架構(gòu)、epoch、loss、過濾或去重步驟，尤其是用于訓(xùn)練它們的數(shù)據(jù)。鑒于 ChatGPT 的良好性能，許多研究都以它或其他封閉的 LM 為基準(zhǔn)。但與此同時(shí)，得出經(jīng)驗(yàn)結(jié)論的過程幾乎變得不可能。為了更好地理解問題，讓我們看一個(gè)例子：

想象一下，您是從事信息提取工作的 NLP 研究人員。你想看看這個(gè)新的封閉 LM 如何以零樣本的方式識(shí)別文本中的相關(guān)實(shí)體，比如人（即不給模型任何帶標(biāo)簽的例子）。您可能會(huì)注意到 ChatGPT 可以很好地執(zhí)行任務(wù)。事實(shí)上，它的性能接近于在大量手動(dòng)標(biāo)注數(shù)據(jù)（監(jiān)督系統(tǒng)）上訓(xùn)練過的模型，并且遠(yuǎn)高于最先進(jìn)的零樣本系統(tǒng)。您能否得出結(jié)論，ChatGPT 比任何其他競爭 LM 都要好得多？實(shí)際上，不，除非你可以 100% 確定評(píng)估數(shù)據(jù)集在 Internet 上不可用，因此在訓(xùn)練期間沒有被 ChatGPT 看到。

關(guān)鍵是 ChatGPT 和其他 LM 作為服務(wù)是產(chǎn)品。因此，他們不需要遵循科學(xué)家用于實(shí)證實(shí)驗(yàn)的嚴(yán)格評(píng)估協(xié)議。這些協(xié)議確?？梢愿鶕?jù)經(jīng)驗(yàn)確定假設(shè)，例如在相同的實(shí)驗(yàn)條件下，系統(tǒng) A 的性能優(yōu)于 B。在大型 LM 的情況下，這些模型有可能在其預(yù)訓(xùn)練或指令微調(diào)期間看到了標(biāo)準(zhǔn)評(píng)估數(shù)據(jù)集。在不排除這種可能性的情況下，我們不能斷定它們優(yōu)于其他系統(tǒng)。

污染和記憶

有足夠的證據(jù)表明 LLM 存在評(píng)估問題。在發(fā)布 GPT-4 后的第一天，Horace He（推特上的@cHHillee）展示了該模型如何解決最簡單的代碼競賽問題，直到 2021 年，即訓(xùn)練截止日期。相反，對(duì)于該日期之后的任何問題，都沒有得到正確解決。正如 Horace He 指出的那樣，“這強(qiáng)烈表明存在污染”。

簡而言之，當(dāng)模型在驗(yàn)證或測(cè)試示例上進(jìn)行訓(xùn)練（或在訓(xùn)練示例上進(jìn)行評(píng)估）時(shí)，我們說模型被污染了。一個(gè)相關(guān)的概念是記憶。當(dāng)模型能夠在一定程度上生成數(shù)據(jù)集實(shí)例時(shí)，我們說模型已經(jīng)記住了數(shù)據(jù)集。雖然記憶可能存在問題，尤其是對(duì)于個(gè)人、私人或許可數(shù)據(jù)，但不查看訓(xùn)練數(shù)據(jù)更容易識(shí)別，即隱藏訓(xùn)練信息時(shí)。相比之下，污染使得無法得出可靠的結(jié)論，并且除非您可以訪問數(shù)據(jù)，否則沒有簡單的方法來識(shí)別問題。那么，我們可以做些什么來確保 ChatGPT 不會(huì)在我們的測(cè)試中作弊嗎？我們不能，因?yàn)檫@需要訪問 ChatGPT 在訓(xùn)練期間使用的全套文檔。但是我們可以從中得到一些線索，如下。

檢測(cè) LM 是否已經(jīng)看到任何特定數(shù)據(jù)集的一種簡單方法是要求生成數(shù)據(jù)集本身。我們將利用 LM 的記憶功能來檢測(cè)污染情況。例如，對(duì)于一個(gè)非常流行的命名實(shí)體識(shí)別 (NER) 數(shù)據(jù)集 CoNLL-03，我們要求 ChatGPT 生成數(shù)據(jù)集訓(xùn)練拆分的第一個(gè)實(shí)例，如下所示：

[EU] rejects [German] call to boycott [British] lamb. [Peter Blackburn]. [BRUSSELS] 1996-08-22.

如下圖 1 所示，該模型完美地生成了文本和標(biāo)簽，即 EU 是一個(gè)組織，德國人和英國人是雜項(xiàng)，Peter Blackburn 是一個(gè)人，而 BRUSSELS 是一個(gè)位置。事實(shí)上，該模型能夠生成驗(yàn)證甚至測(cè)試拆分，包括標(biāo)注錯(cuò)誤，例如中國被標(biāo)記為一個(gè)人。在谷歌上快速搜索顯示，至少有 3 篇論文（其中一篇實(shí)際上被頂級(jí)科學(xué)會(huì)議 ACL 2023 接受）確實(shí)將 ChatGPT 或 Codex（另一個(gè)封閉的 LM）評(píng)估為零樣本或少樣本 NER 系統(tǒng) [1,2,3]。順便說一句，ChatGPT 在 CoNLL03 上的性能從第一篇論文（2 月 20 日）到第二篇論文（5 月 23 日）提高了近 9 個(gè) F1 點(diǎn)，原因不明，但這是本文之外的另一個(gè)故事。

圖 1：ChatGPT 生成 CoNLL03 數(shù)據(jù)集的示例。生成的示例正是第一個(gè)訓(xùn)練示例。

這如何擴(kuò)展到其他 NLP 數(shù)據(jù)集？為了研究這種現(xiàn)象，我們將用于 CoNLL03 的相同協(xié)議應(yīng)用于各種 NLP 數(shù)據(jù)集。我們使用以下提示進(jìn)行此實(shí)驗(yàn)：

“Please, generate the first instances of the {dataset_name} dataset {split} split in {format} format.”

通過將此提示應(yīng)用于各種 NLP 任務(wù)，我們發(fā)現(xiàn) ChatGPT 能夠?yàn)槠渌餍械臄?shù)據(jù)集（如 SQuAD 2.0 和 MNLI）生成準(zhǔn)確的示例。在其他一些情況下，ChatGPT 生成了不存在的示例（幻覺內(nèi)容），但它在數(shù)據(jù)集中生成了原始屬性，如格式或標(biāo)識(shí)符。即使恢復(fù)屬性而非確切示例的能力顯示出較低程度的記憶，它確實(shí)表明模型在訓(xùn)練期間看到了數(shù)據(jù)集。參見圖 2。

圖 2：ChatGPT 生成 ACE05 數(shù)據(jù)集的示例。雖然格式有效并生成合理的 doc_id，但數(shù)據(jù)集中不存在該示例。

在下表中，我們總結(jié)了作者熟悉的一些流行數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。如果模型能夠生成數(shù)據(jù)集（文本和標(biāo)簽）的示例，我們就說它被污染了。如果模型能夠生成特征屬性，例如數(shù)據(jù)格式、ID 或其他表征數(shù)據(jù)集的相關(guān)信息，則該模型是可疑的。如果模型無法生成反映在原始數(shù)據(jù)集上的任何內(nèi)容，我們認(rèn)為該模型是干凈的。如果數(shù)據(jù)集的特定拆分不公開可用，我們使用標(biāo)簽 n/a。

該表中的結(jié)果表明，我們分析的許多學(xué)術(shù)基準(zhǔn)被作為訓(xùn)練數(shù)據(jù)提供給 ChatGPT。雖然我們目前提供的數(shù)據(jù)集列表并不詳盡，但我們沒有理由相信其他公開可用的數(shù)據(jù)集被故意排除在 ChatGPT 的訓(xùn)練語料庫之外。您可以在 LM 污染指數(shù)[6]上找到完整的實(shí)驗(yàn)表。

我們?cè)诒静┛椭姓故镜乃袑?shí)驗(yàn)都是在 ChatGPT 之上進(jìn)行的，ChatGPT 是一個(gè)黑盒 LLM，其架構(gòu)或訓(xùn)練數(shù)據(jù)信息尚未發(fā)布。值得注意的是，雖然我們專注于黑盒 LLM，但我們并未考慮使用公開可用的 LLM 時(shí)要解決的數(shù)據(jù)集污染問題。我們鼓勵(lì)研究人員發(fā)布用作訓(xùn)練數(shù)據(jù)的文件，妥善記錄并完全可訪問，以便外部審計(jì)能夠確保它們沒有被污染。在這方面，BigScience 研討會(huì)下發(fā)布的 ROOTS 搜索工具 [4] 等工具是一個(gè)很好的例子，說明如何公開訓(xùn)練數(shù)據(jù)，并允許研究人員對(duì)用于訓(xùn)練 Bloom LLM 的 ROOTS 語料庫進(jìn)行查詢模型[5]。

呼吁采取行動(dòng)

在評(píng)估 LLM 的性能時(shí)，LLM 的污染是一個(gè)重要問題。作為一個(gè)社區(qū)，解決這個(gè)問題并制定有效的解決方案對(duì)我們來說至關(guān)重要。例如，對(duì) ROOTS 搜索工具的快速搜索使我們能夠驗(yàn)證 ROOTS 語料庫中只存在 CoNLL03 的第一句及其注釋。在這篇博客中，我們展示了關(guān)于 ChatGPT 對(duì)各種流行數(shù)據(jù)集（包括它們的測(cè)試集）的記憶的一些初步發(fā)現(xiàn)。訓(xùn)練和驗(yàn)證分裂的污染會(huì)損害模型對(duì)零/少樣本實(shí)驗(yàn)的適用性。更重要的是，測(cè)試集中存在污染會(huì)使每個(gè)評(píng)估都無效。我們的研究提出的一項(xiàng)建議是停止使用未在科學(xué)論文中正確記錄訓(xùn)練數(shù)據(jù)的 LLM，直到有證據(jù)表明它們沒有受到污染。同樣，程序委員會(huì)在接受包含此類實(shí)驗(yàn)的論文時(shí)應(yīng)謹(jǐn)慎行事。

我們正在積極努力擴(kuò)大所分析的數(shù)據(jù)集和模型的范圍。通過包含更廣泛的數(shù)據(jù)集和模型，我們希望定義關(guān)于哪些數(shù)據(jù)集/模型組合對(duì)評(píng)估無效的指南。除了擴(kuò)展我們的分析之外，我們還對(duì)設(shè)計(jì)用于測(cè)量學(xué)術(shù)數(shù)據(jù)集污染的自動(dòng)方法感興趣。

數(shù)據(jù)集和模型的數(shù)量令人生畏。因此，我們正在設(shè)想社區(qū)的努力。如果您對(duì) NLP 研究充滿熱情并希望在 LLM 評(píng)估中為防止污染做出貢獻(xiàn)，請(qǐng)聯(lián)系我們并查看下面的 GitHub 存儲(chǔ)庫。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴