亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

迄今最大模型?OpenAI發(fā)布參數(shù)量高達15億的通用語言模型GPT-2

電子工程師 ? 來源:工程師李察 ? 2019-02-16 08:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

幾個月前谷歌推出的語言模型BERT引發(fā)了業(yè)內的廣泛關注,其 3 億參數(shù)量刷新 11 項紀錄的成績讓人不禁贊嘆。昨天,OpenAI 推出了一種更為強大的算法,這一次模型達到了 15 億參數(shù)。

代碼地址:https://github.com/openai/gpt-2

這種機器學習算法不僅在很多任務上達到了業(yè)內最佳水平,還可以根據(jù)一小段話自動「腦補」出大段連貫的文本,如有需要,人們可以通過一些調整讓計算機模擬不同的寫作風格。看起來可以用來自動生成「假新聞」。對此,OpenAI 甚至表示:「出于對模型可能遭惡意應用的擔憂,我們本次并沒有發(fā)布所有預訓練權重?!?/p>

如此強大的模型卻不公開所有代碼?Kyunghyun Cho 并不滿意:「要是這樣,為了人類我不得不刪除迄今為止自己公開的所有模型權重了?!筜ann LeCun 表示贊同。

OpenAI 訓練了一個大型無監(jiān)督語言模型,能夠生產(chǎn)連貫的文本段落,在許多語言建?;鶞噬先〉昧?SOTA 表現(xiàn)。而且該模型在沒有任務特定訓練的情況下,能夠做到初步的閱讀理解、機器翻譯、問答和自動摘要。

該模型名為 GPT-2(GPT二代)。訓練 GPT-2 是為了預測 40GB 互聯(lián)網(wǎng)文本中的下一個單詞??紤]到可能存在的對該技術的惡意使用,OpenAI 沒有發(fā)布訓練模型,而是發(fā)布了一個較小模型供研究、實驗使用,同時 OpenAI 也公布了相關技術論文(見文后)。

GPT-2 是基于 transformer 的大型語言模型,包含 15 億參數(shù)、在一個 800 萬網(wǎng)頁數(shù)據(jù)集上訓練而成。訓練 GPT-2 有一個簡單的目標:給定一個文本中前面的所有單詞,預測下一個單詞。數(shù)據(jù)集的多樣性使得這一簡單目標包含不同領域不同任務的自然事件演示。GPT-2 是對 GPT 模型的直接擴展,在超出 10 倍的數(shù)據(jù)量上進行訓練,參數(shù)量也多出了 10 倍。

15 億的參數(shù)量已經(jīng)是非常非常多了,例如我們認為龐大的 BERT 也就 3.3 億的參數(shù)量,我們認為視覺中參數(shù)量巨大的 VGG-19 也不過 1.44 億參數(shù)量(VGG-16 為 1.38 億),而 1001 層的 ResNet 不過 0.102 億的參數(shù)量。所以根據(jù)小編的有偏估計,除了 bug 級的大規(guī)模集成模型以外,說不定 GPT-2 就是當前最大的模型~

GPT-2 展示了一系列普適而強大的能力,包括生成當前最佳質量的條件合成文本,其中我們可以將輸入饋送到模型并生成非常長的連貫文本。此外,GPT-2 優(yōu)于在特定領域(如維基百科、新聞或書籍)上訓練的其它語言模型,而且還不需要使用這些特定領域的訓練數(shù)據(jù)。在知識問答、閱讀理解、自動摘要和翻譯等任務上,GPT-2 可以從原始文本開始學習,無需特定任務的訓練數(shù)據(jù)。雖然目前這些下游任務還遠不能達到當前最優(yōu)水平,但 GPT-2 表明如果有足夠的(未標注)數(shù)據(jù)和計算力,各種下游任務都可以從無監(jiān)督技術中獲益。

Zero-shot

GPT-2 在多個領域特定的語言建模任務上實現(xiàn)了當前最佳性能。該模型沒有在這些任務的特定數(shù)據(jù)上進行訓練,只是最終測試時在這些數(shù)據(jù)上進行了評估。這被稱為「zero-shot」設置。在這些數(shù)據(jù)集上進行評估時,GPT-2 的表現(xiàn)要優(yōu)于那些在領域特定數(shù)據(jù)集(如維基百科、新聞、書籍)上訓練的模型。下圖展示了在 zero-shot 設定下 GPT-2 的所有當前最佳結果。

(+)表示該領域得分越高越好,(-)表示得分越低越好。

迄今最大模型?OpenAI發(fā)布參數(shù)量高達15億的通用語言模型GPT-2

迄今最大模型?OpenAI發(fā)布參數(shù)量高達15億的通用語言模型GPT-2

GPT-2 在 Winograd Schema、LAMBADA 和其他語言建模任務中達到了當前最佳性能。

在問答、閱讀理解、自動摘要、翻譯等其他語言任務中,無需對 GPT-2 模型做任何微調,只需以正確的方式增強模型,就能取得令人驚艷的結果,雖然其結果仍遜于專門系統(tǒng)。

OpenAI 假設,既然這些任務是通用語言建模的子集,那么增加計算量和數(shù)據(jù)就能獲得進一步的性能提升?!禠earning and Evaluating General Linguistic Intelligence》等其他研究也有類似假設。OpenAI 還預期微調能夠對下游任務的性能提升有所幫助,盡管還沒有全面的實驗能證明這一點。

策略建議

大型通用語言模型可能產(chǎn)生巨大的社會影響以及一些近期應用。OpenAI 預期 GPT-2 這樣的系統(tǒng)可用于創(chuàng)建:

AI 寫作助手

更強大的對話機器人

無監(jiān)督語言翻譯

更好的語音識別系統(tǒng)

此外,OpenAI 還設想了此類模型有可能用于惡意目的,比如:

生成誤導性新聞

網(wǎng)上假扮他人

自動生產(chǎn)惡意或偽造內容,并發(fā)表在社交媒體上

自動生產(chǎn)垃圾/釣魚郵件

這些研究成果與合成圖像和音視頻方面的早期研究結果表明,技術正在降低生產(chǎn)偽造內容、進行虛假信息活動的成本。公眾將需要對在線文本內容具備更強的批判性,就像「deep fakes」導致人們對圖像持懷疑態(tài)度一樣。

今天,惡意活動參與者(其中一些是政治性的)已經(jīng)開始瞄準共享網(wǎng)絡社區(qū),他們使用「機器人工具、偽造賬號和專門團隊等,對個人施加惡意評論或誹謗,致使大眾不敢發(fā)言,或很難被別人傾聽或信任」。OpenAI 認為,我們應該意識到,合成圖像、視頻、音頻和文本生成等方面研究的結合有可能進一步解鎖這些惡意參與者的能力,使之達到前所未有的高度,因此研究者應當尋求創(chuàng)建更好的技術和非技術應對措施。此外,這些系統(tǒng)的底層技術創(chuàng)新是基礎人工智能研究的核心,因此控制這些領域的研究必將拖慢 AI 領域的整體發(fā)展。

因此,OpenAI 對這一新研究成果的發(fā)布策略是:「僅發(fā)布 GPT-2 的較小版本和示例代碼,不發(fā)布數(shù)據(jù)集、訓練代碼和 GPT-2 模型權重」。

論文:Large Language Models are Unsupervised Multitask Learners

論文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

摘要:問答、機器翻譯、閱讀理解、自動摘要這樣的自然語言處理任務的典型方法是在任務特定數(shù)據(jù)集上進行監(jiān)督式學習。我們證明,在包含數(shù)百萬網(wǎng)頁的全新數(shù)據(jù)集 WebText 上訓練時,語言模型開始在沒有任何明確監(jiān)督的情況下學習這些任務。計算條件概率并生成條件樣本是語言模型在大量任務上取得良好結果(且無需精調)所必需的能力。當以文檔+問題為條件時,在沒有使用 127000 多個訓練樣本中任何一個樣本的情況下,語言模型生成的答案在 CoQA 數(shù)據(jù)集上達到 55F1,媲美于或者超越了 4 個基線系統(tǒng)中的 3 個。語言模型的容量對 zero-shot 任務的成功遷移非常重要,且增加模型的容量能夠以對數(shù)線性的方式在多任務中改進模型性能。我們最大的模型 GPT-2 是一個包含 15 億參數(shù)的 Transformer,在 zero-shot 設定下,該模型在 8 個測試語言建模數(shù)據(jù)集中的 7 個數(shù)據(jù)集上取得了 SOTA 結果,但仍舊欠擬合 WebText 數(shù)據(jù)集。來自該模型的樣本反映了這些改進且包含連貫的文本段落。這些發(fā)現(xiàn)展示了一種構建語言處理系統(tǒng)的潛在方式,即根據(jù)自然發(fā)生的演示學習執(zhí)行任務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    30398

    瀏覽量

    218784
  • AI
    AI
    +關注

    關注

    89

    文章

    37531

    瀏覽量

    293232
  • 機器翻譯
    +關注

    關注

    0

    文章

    141

    瀏覽量

    15437

原文標題:迄今最大模型?OpenAI發(fā)布參數(shù)量高達15億的通用語言模型GPT-2

文章出處:【微信號:aicapital,微信公眾號:全球人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執(zhí)行官山姆·奧特曼在發(fā)布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關鍵里程碑。” ? ?
    的頭像 發(fā)表于 08-09 07:44 ?9682次閱讀
    <b class='flag-5'>GPT</b>-5震撼<b class='flag-5'>發(fā)布</b>:AI領域的重大飛躍

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    ? 自 2016 年推出 NVIDIA DGX 以來,NVIDIA 與 OpenAI 便開始共同推動 AI 技術的邊界。此次 OpenAI gpt-oss-20b 和 gpt-oss-
    的頭像 發(fā)表于 08-15 20:34 ?1828次閱讀
    NVIDIA從云到邊緣加速<b class='flag-5'>OpenAI</b> <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS推理

    訊飛星辰MaaS平臺率先上線OpenAI最新開源模型

    8月6日凌晨,OpenAI 時隔六年再次回歸開源,發(fā)布兩款全新的大語言模型gpt-oss-120b和g
    的頭像 發(fā)表于 08-13 16:43 ?1042次閱讀

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或將發(fā)布。據(jù)外媒的報道,GPT-5很可能在
    的頭像 發(fā)表于 08-07 14:13 ?6738次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源了兩款高性能權重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI
    的頭像 發(fā)表于 08-06 14:25 ?825次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數(shù)據(jù),以便提升訓練效果。 ChatGPT發(fā)布后,當代大語言
    的頭像 發(fā)表于 03-21 18:24 ?3541次閱讀
    用PaddleNLP為<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>制作FineWeb二進制預訓練數(shù)據(jù)集

    用PaddleNLP在4060單卡上實踐大模型預訓練技術

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAIGPT-2模型的預訓練。GPT-2的預訓練關鍵技術與流程與GPT-
    的頭像 發(fā)表于 02-19 16:10 ?1949次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b>預訓練技術

    OpenAI簡化大模型選擇:薩姆·奧特曼制定路線圖

    OpenAI的首席執(zhí)行官薩姆·奧特曼(Sam Altman)近期為公司的GPT-4.5和GPT-5大模型開發(fā)制定了一項重要的路線圖,旨在極大地簡化和優(yōu)化用戶及開發(fā)人員在選擇AI
    的頭像 發(fā)表于 02-18 09:12 ?685次閱讀

    OpenAI即將發(fā)布GPT-4.5與GPT-5

    ,GPT-4.5將在未來幾周內率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術上進行了諸多優(yōu)化和升級,旨在為用戶提
    的頭像 發(fā)表于 02-13 13:43 ?943次閱讀

    今日看點丨OpenAI發(fā)布新的GPT-4.5模型;三星西安工廠將升級286層NAND閃存工藝

    1. OpenAI發(fā)布新的GPT-4.5 模型 ? OpenAI首席執(zhí)行官阿爾特曼周三表示,該公司內部稱為Orion的
    發(fā)表于 02-13 11:22 ?649次閱讀

    OpenAI即將推出GPT-5模型

    OpenAI首席執(zhí)行官奧爾特曼近日宣布了一項重要消息:OpenAI將在今年未來幾個月內推出全新的GPT-5模型。這一消息引起了業(yè)界的廣泛關注和期待。 據(jù)了解,
    的頭像 發(fā)表于 02-13 11:21 ?845次閱讀

    OpenAI發(fā)布更智能GPT模型及AI智能體工具

    OpenAI近日透露了其未來發(fā)展的重要動向。據(jù)OpenAI首席產(chǎn)品官凱文·維爾(Kevin Weil)介紹,公司計劃推出更智能的GPT o3模型,并首次亮相AI智能體工具,這將使Cha
    的頭像 發(fā)表于 01-24 13:54 ?728次閱讀

    OpenAI報告GPT-4o及4o-mini模型性能下降,正緊急調查

    近日,全球領先的AI研究機構OpenAI發(fā)布了一份事故報告,引起了業(yè)界的廣泛關注。報告中指出,OpenAI目前正面臨GPT-4o和4o-mini這兩款重要
    的頭像 發(fā)表于 01-23 10:22 ?1052次閱讀

    OpenAIGPT-4o及4o-mini模型性能下降,正展開調查

    ,并承諾將盡快發(fā)布最新的調查結果和解決方案。這一事件不僅對OpenAI自身的技術聲譽產(chǎn)生了影響,也引發(fā)了業(yè)界對于大型語言模型穩(wěn)定性和可靠性的擔憂。
    的頭像 發(fā)表于 01-21 10:34 ?872次閱讀

    OpenAI GPT-5開發(fā)滯后:訓練成本高昂

    已經(jīng)對GPT-5進行了至少兩輪大規(guī)模訓練,希望通過海量數(shù)據(jù)資源來優(yōu)化模型效能。然而,首次訓練的實際運行結果并未達到預期標準,導致更大規(guī)模的訓練嘗試變得耗時且成本更高。據(jù)估計,GPT-5的訓練成本已經(jīng)
    的頭像 發(fā)表于 12-23 11:04 ?1338次閱讀