亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌Gemini自曝用文心一言訓(xùn)練,字節(jié)被OpenAI封號(hào),大模型互薅羊毛是常態(tài)?

Felix分析 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:吳子鵬 ? 2023-12-20 09:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近兩天,原本就火熱的人工智能大模型再度被澆上了一桶油,話題熱度更勝?gòu)那啊2贿^,這一次大家探討的并不是大模型前景和算力這些,而是大模型之間互薅羊毛的問題。根據(jù)微博知名博主@闌夕爆料,對(duì)谷歌Gemini進(jìn)行測(cè)試時(shí),如果用中文詢問Gemini的身份,其回答竟然是百度文心一言。


更讓人大跌眼鏡的是,測(cè)試人員可以使用“小愛同學(xué)”“小度”等提示詞喚醒Gemini。并且,Gemini還能夠告訴測(cè)試人員,自己是如何獲取到百度的訓(xùn)練數(shù)據(jù)的。

wKgaomWCPZSARWi_AAqz1hoQeXg429.png
網(wǎng)傳對(duì)話場(chǎng)景

wKgZomWCPZyAdfAvAAdFcaCzsrM909.png
網(wǎng)傳對(duì)話場(chǎng)景


不過,此則消息應(yīng)該是很快就引起了谷歌技術(shù)人員的關(guān)注,在消息曝光不久后,Gemini應(yīng)對(duì)上述提示詞和問題的方式就發(fā)生了改變。通過“小愛同學(xué)”“小度”等提示詞無法再喚醒Gemini,且對(duì)于相關(guān)問題的闡述也發(fā)生了變化,顯然谷歌技術(shù)人員很快修復(fù)了一些bug。

谷歌Gemini飽受質(zhì)疑

當(dāng)?shù)貢r(shí)間12月6日,谷歌宣布推出“最大、最強(qiáng)、最通用”的新大型語言模型Gemini,我們對(duì)此也進(jìn)行了專門的報(bào)道。在發(fā)布會(huì)上谷歌聲稱,在32項(xiàng)廣泛使用的基準(zhǔn)測(cè)試中,Gemini Ultra獲得了30個(gè)SOTA(State of the art,特指領(lǐng)先水平的大模型)。這也就意味著,Gemini 1.0版本在文本、代碼、音頻、圖像和視頻處理能力方面,以及推理、數(shù)學(xué)、代碼等方面都吊打GPT-4。

同時(shí),在發(fā)布會(huì)上谷歌還展示了Gemini相關(guān)的能力。比如,Gemini可以非常高效地從數(shù)十萬份文件中獲取對(duì)科學(xué)家有用的數(shù)據(jù),并創(chuàng)建數(shù)據(jù)集;Gemini可以在世界上最受歡迎的編程語言(如Python、Java、C++和Go)中理解、解釋和生成高質(zhì)量的代碼。

不過,谷歌是通過視頻展示的Gemini的相關(guān)能力,而不是通過現(xiàn)場(chǎng)實(shí)操。于是乎,就在谷歌發(fā)布會(huì)的次日,有視頻制作人員質(zhì)疑稱,谷歌的演示視頻并不是實(shí)錄,而是剪輯的。隨后,谷歌在博客文章中解釋了多模態(tài)交互過程,并提到了視頻演示中的猜拳,谷歌承認(rèn),不同于視頻中對(duì)于猜拳手勢(shì)的快速反應(yīng),只有在向Gemini同時(shí)展示這三個(gè)手勢(shì)并提示其這是游戲時(shí),Gemini才會(huì)得出猜拳游戲的結(jié)論。

wKgaomWCPayAPXQiAAQ_VvMV5QM780.png
圖源:谷歌博文


因此,現(xiàn)在很多人都認(rèn)為谷歌夸大了Gemini的能力,只有使用靜態(tài)圖片和多段提示詞拼湊,Gemini才能夠顯示出多模態(tài)的能力,這和谷歌宣稱的實(shí)時(shí)多模態(tài)反應(yīng)明顯是不相符的。

大模型之間互薅羊毛

除了性能質(zhì)疑之外,此次事件則揭露了大模型發(fā)展另一個(gè)規(guī)則——互薅羊毛。實(shí)際上,在Gemini自曝是百度文心一言之前,國(guó)內(nèi)字節(jié)跳動(dòng)就發(fā)生了相關(guān)問題。

近日,有外媒報(bào)道稱,字節(jié)跳動(dòng)在使用OpenAI技術(shù)開發(fā)自己的大語言模型,違反了OpenAI服務(wù)條款,導(dǎo)致賬戶被暫停。對(duì)此,字節(jié)跳動(dòng)相關(guān)負(fù)責(zé)人向記者回應(yīng)稱:今年年初,當(dāng)技術(shù)團(tuán)隊(duì)剛開始進(jìn)行大模型的初期探索時(shí),有部分工程師將GPT的API服務(wù)應(yīng)用于較小模型的實(shí)驗(yàn)性項(xiàng)目研究中。該模型僅為測(cè)試,沒有計(jì)劃上線,也從未對(duì)外使用。4月公司引入GPT API調(diào)用規(guī)范檢查后,這種做法已經(jīng)停止。字節(jié)跳動(dòng)稱,后續(xù)會(huì)嚴(yán)格遵守OpenAI的使用協(xié)議。

從Gemini調(diào)整之后的回復(fù)來看,其在訓(xùn)練過程中確實(shí)使用了百度文心一言的訓(xùn)練數(shù)據(jù),這其實(shí)也無可厚非。百度文心一言在中文理解及相關(guān)的多模態(tài)生成能力方面確實(shí)處于領(lǐng)先的位置,那么背后的原因定然是因?yàn)榘俣日莆罩|(zhì)量相對(duì)更好的中文訓(xùn)練數(shù)據(jù)集,因此其他大模型如果想要在中文對(duì)話方面取得進(jìn)展,使用文心一言的訓(xùn)練數(shù)據(jù)確實(shí)是最高效的方式。

另外,除了字節(jié)跳動(dòng),此前谷歌也被質(zhì)疑使用OpenAI數(shù)據(jù)來訓(xùn)練Bard,最終谷歌的回應(yīng)是Bard沒有使用ShareGPT或是ChatGPT的任何數(shù)據(jù)來進(jìn)行訓(xùn)練。另外,國(guó)內(nèi)也有很多公司被質(zhì)疑是采用OpenAI數(shù)據(jù)來完善自己的大模型。不過,這種行為大都見不得光,因此都被否認(rèn)了。

為什么其他大模型頻傳借用OpenAI數(shù)據(jù)來訓(xùn)練呢,重要原因在于GPT-4性能領(lǐng)先一個(gè)重要的原因就是數(shù)據(jù)集質(zhì)量更高。根據(jù)semianalysis發(fā)布的《GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE》文章,GPT-4是一個(gè)使用1.8萬億巨量參數(shù)訓(xùn)練的模型框架,而GPT-3只有約1750億個(gè)參數(shù),另外GPT-4擁有16個(gè)專家模型,每個(gè)MLP專家大約有1110億個(gè)參數(shù)。這就是為什么在展示Gemini Ultra的MMLU訓(xùn)練時(shí),谷歌將“CoT@32”進(jìn)行小字注釋,代表Gemini Ultra的MMLU測(cè)試使用了思維鏈提示技巧,嘗試了32次并從中選擇最好結(jié)果。與之對(duì)比,GPT-4無提示詞技巧給5個(gè)示例。就這樣,GPT-4的成績(jī)?yōu)?6.4%,依然高于Gemini Ultra的83.7%。

另外,OpenAI用13萬億的token訓(xùn)出了GPT-4。因?yàn)闆]有高質(zhì)量的token,這個(gè)數(shù)據(jù)集還包含了許多個(gè)epoch。

綜上所述,雖然GPT-4的訓(xùn)練數(shù)據(jù)規(guī)模沒有官方說明,但是semianalysis文章可信度很高,這個(gè)規(guī)模比Gemini Ultra宣稱的萬億似乎更強(qiáng),也不怪大家都想用GPT調(diào)優(yōu)自己的模型。

當(dāng)然,每一個(gè)模型都有自己擅長(zhǎng)的地方,尤其是那些垂直的行業(yè)模型,在行業(yè)數(shù)據(jù)方面肯定是優(yōu)于一般多模態(tài)大模型的,因此被薅羊毛的概率也很大,但是這大都不會(huì)被公開。

大模型數(shù)據(jù)集背后的產(chǎn)業(yè)鏈

為了讓GPT-4具有領(lǐng)先的性能,OpenAI的研發(fā)團(tuán)隊(duì)在模型優(yōu)化、數(shù)據(jù)選擇和硬件投入等方面做了大量工作。相信谷歌的Gemini Ultra和百度文心一言等大模型也是如此。對(duì)于大模型來說,預(yù)訓(xùn)練數(shù)據(jù)集是一個(gè)非常關(guān)鍵的元素,很大程度上決定了大模型最終的性能水平。

在這個(gè)大背景下,隨著大模型產(chǎn)業(yè)發(fā)展,訓(xùn)練數(shù)據(jù)也逐漸成為一種產(chǎn)業(yè)。比如國(guó)內(nèi)的云測(cè)數(shù)據(jù),云測(cè)創(chuàng)立于2011年,是一家以人工智能技術(shù)驅(qū)動(dòng)的企業(yè)服務(wù)平臺(tái),為全球超過百萬的企業(yè)及開發(fā)者提供云測(cè)試服務(wù)、AI訓(xùn)練數(shù)據(jù)服務(wù)、安全服務(wù)。該公司的云測(cè)數(shù)據(jù)入選“北京市人工智能行業(yè)賦能典型案例(2023)”,在垂直大模型訓(xùn)練數(shù)據(jù)服務(wù)方面很有造詣。

再比如,海天瑞聲作為國(guó)內(nèi)領(lǐng)先基礎(chǔ)數(shù)據(jù)服務(wù)商,是國(guó)內(nèi)首家且是目前唯一一家A股上市的人工智能訓(xùn)練數(shù)據(jù)服務(wù)企業(yè),為阿里巴巴、Meta、騰訊、百度、字節(jié)跳動(dòng)等公司提供數(shù)據(jù)服務(wù)。

北京郵電大學(xué)科學(xué)技術(shù)研究院副院長(zhǎng)曾雪云教授此前在受訪時(shí)表示,“互聯(lián)網(wǎng)上生成的這些數(shù)據(jù),它是非結(jié)構(gòu)化的數(shù)據(jù),也是非標(biāo)準(zhǔn)化的數(shù)據(jù)。這樣的數(shù)據(jù)就是一種原始的、比較雜亂的、沒有規(guī)范的數(shù)據(jù),它就需要在計(jì)算前進(jìn)行顆粒度上的清洗,所以高質(zhì)量數(shù)據(jù)通常都有從非結(jié)構(gòu)化到結(jié)構(gòu)化這樣的一個(gè)加工過程。”

“現(xiàn)在從對(duì)數(shù)據(jù)科學(xué)的研究、國(guó)家對(duì)數(shù)據(jù)的治理,到學(xué)術(shù)界對(duì)數(shù)據(jù)的研究、產(chǎn)業(yè)界對(duì)數(shù)據(jù)的利用都是一個(gè)藍(lán)海,都是一個(gè)剛開始的狀態(tài)?!痹┰平淌谔岬?。

當(dāng)然不僅國(guó)內(nèi)關(guān)注到這一塊的產(chǎn)業(yè)價(jià)值,作為頭部企業(yè),OpenAI希望與機(jī)構(gòu)合作建立新的人工智能訓(xùn)練數(shù)據(jù)集。OpenAI為此創(chuàng)立了“數(shù)據(jù)伙伴關(guān)系”(Data Partnerships)計(jì)劃,該計(jì)劃旨在與第三方機(jī)構(gòu)合作,建立用于人工智能模型訓(xùn)練的公共和私有數(shù)據(jù)集。OpenAI 在一篇博文中表示,數(shù)據(jù)合作伙伴關(guān)系旨在“讓更多組織能夠幫助引導(dǎo)人工智能的未來”,并“從更有用的模型中獲益”。

結(jié)語

人工智能大模型其實(shí)是大數(shù)據(jù)時(shí)代的典型產(chǎn)物,那么也就無法脫離對(duì)大數(shù)據(jù)的依賴。大模型的火爆讓高質(zhì)量訓(xùn)練數(shù)據(jù)成為高價(jià)值、緊俏的資源,而這些數(shù)據(jù)往往掌握在頭部企業(yè)手里,這就是為什么大模型企業(yè)之間互相會(huì)薅羊毛。不過,相較于互聯(lián)網(wǎng)海量的數(shù)據(jù),目前科技巨頭的訓(xùn)練數(shù)據(jù)集還只是九牛一毛,如何從海量互聯(lián)網(wǎng)數(shù)據(jù)提取有價(jià)值的訓(xùn)練數(shù)據(jù)集,已經(jīng)逐漸成為一個(gè)產(chǎn)業(yè)鏈。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6241

    瀏覽量

    110076
  • 字節(jié)跳動(dòng)
    +關(guān)注

    關(guān)注

    0

    文章

    348

    瀏覽量

    9834
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1235

    瀏覽量

    9728
  • 文心一言
    +關(guān)注

    關(guān)注

    0

    文章

    133

    瀏覽量

    2061
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3387

    瀏覽量

    4855
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    谷歌AI霸主歸來!多線反擊OpenAI,開啟安卓Gemini時(shí)代

    電子發(fā)燒友網(wǎng)報(bào)道(/莫婷婷)北京時(shí)間5月21日,谷歌2025 Google I/O開發(fā)者大會(huì)正式召開,從其發(fā)布的新品來看,這可以說是場(chǎng)AI盛會(huì)。 在AI大模型方面,發(fā)布了
    的頭像 發(fā)表于 05-22 09:01 ?5992次閱讀
    <b class='flag-5'>谷歌</b>AI霸主歸來!多線反擊<b class='flag-5'>OpenAI</b>,開啟安卓<b class='flag-5'>Gemini</b>時(shí)代

    寧暢與與百度模型展開深度技術(shù)合作

    與部署。 憑借覆蓋訓(xùn)練、推理、微調(diào)全流程的AI?服務(wù)器產(chǎn)品矩陣,寧暢幫助企業(yè)在大模型時(shí)代鍵打通算力與應(yīng)用“任督二脈”,顯著縮短模型落地周期。 在已啟動(dòng)的深度技術(shù)合作中,雙方將基于
    的頭像 發(fā)表于 07-07 16:26 ?535次閱讀

    黑芝麻智能與模型技術(shù)合作升級(jí)

    近日,模型正式開源,黑芝麻智能即日起快速啟動(dòng)與模型技術(shù)合作。
    的頭像 發(fā)表于 07-04 17:24 ?891次閱讀
    黑芝麻智能與<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技術(shù)合作升級(jí)

    deepseek和文一言兩者有什么區(qū)別?哪個(gè)跟合適您使用呢?

    (DeepSeek)公司開發(fā),該公司專注于開發(fā)低成本、高性能的AI模型,致力于通過技術(shù)創(chuàng)新推動(dòng)人工智能技術(shù)的普惠化。DeepSeek可能基于獨(dú)特的技術(shù)架構(gòu)和算法,如混合專家(MoE)架構(gòu)和多頭潛在注意力(MLA)機(jī)制。 ◆
    的頭像 發(fā)表于 02-23 09:37 ?3597次閱讀

    百度下模型正式開源

    隨著模型的迭代升級(jí)和成本不斷下降,一言將于4月1日0時(shí)起全面免費(fèi),所有PC端和APP端
    的頭像 發(fā)表于 02-17 13:44 ?748次閱讀

    OpenAI與百度開啟大模型5.0競(jìng)賽,并宣布全面免費(fèi)

    近日,百度一言在官網(wǎng)上宣布了項(xiàng)重大決策:4月1日0時(shí)起,心系列
    的頭像 發(fā)表于 02-14 09:38 ?686次閱讀

    百度模型4月1日起全面免費(fèi)開放

    列最新的模型功能。 百度表示,模型的此次升級(jí)不僅帶來了更加豐富的功能,還致力于提升用戶體驗(yàn)。與此同時(shí),百度還透露,
    的頭像 發(fā)表于 02-14 09:19 ?637次閱讀

    百度宣布一言將全面免費(fèi)

    隨著模型的迭代升級(jí)和成本不斷下降,一言將于4月1日零時(shí)起,全面免費(fèi),所有PC端和APP
    的頭像 發(fā)表于 02-13 10:46 ?592次閱讀

    谷歌 Gemini 2.0 Flash 系列 AI 模型上新

    谷歌旗下 AI 大模型 Gemini 系列全面上新,正式版 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite 以
    的頭像 發(fā)表于 02-07 15:07 ?998次閱讀

    機(jī)械革命無界X系列輕薄本將預(yù)裝一言

    提供了多樣化的選擇。機(jī)械革命將為無界X系列輕薄本預(yù)裝百度一言,為用戶帶來更加智能、便捷的使用體驗(yàn)。用戶可以通過語音或文字與筆記本進(jìn)行交互,獲取所需的信息,服務(wù)增強(qiáng)使用體驗(yàn)以及推動(dòng)AI普及。
    的頭像 發(fā)表于 01-20 17:26 ?1077次閱讀

    AI智能眼鏡定制_AI眼鏡硬件主板國(guó)產(chǎn)展銳W517方案

    AI眼鏡是款高度集成的智能設(shè)備,內(nèi)部包含了芯片、存儲(chǔ)、麥克風(fēng)、聲學(xué)組件、攝像頭、電池及傳感器等多種硬件。它承載了多個(gè)先進(jìn)的人工智能大模型,包括谷歌Gemini、百度的
    的頭像 發(fā)表于 01-06 20:07 ?2159次閱讀
    AI智能眼鏡定制_AI眼鏡硬件主板國(guó)產(chǎn)展銳W517方案

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    在快速發(fā)展的生成式 AI 領(lǐng)域,結(jié)合不同模型的優(yōu)勢(shì)可以帶來顯著的成果。通過利用谷歌Gemini 模型來制作詳細(xì)且富有創(chuàng)意的提示,然后使用 Imagen 3
    的頭像 發(fā)表于 01-03 10:38 ?1247次閱讀
    借助<b class='flag-5'>谷歌</b><b class='flag-5'>Gemini</b>和Imagen<b class='flag-5'>模型</b>生成高質(zhì)量圖像

    說清楚什么是AI大模型

    生成能力強(qiáng),部分版本支持多模態(tài)輸入(如圖像理解) 一言 百度 針對(duì)中文優(yōu)化,適合國(guó)內(nèi)應(yīng)用場(chǎng)景 LLa
    的頭像 發(fā)表于 01-02 09:53 ?3648次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>說清楚什么是AI大<b class='flag-5'>模型</b>

    谷歌發(fā)布Gemini 2.0 AI模型

    谷歌近日正式推出了新代AI模型——Gemini 2.0。此次更新引入了名為“深度研究”的新特性,旨在為用戶提供更加全面和深入的復(fù)雜主題探索與報(bào)告撰寫輔助。
    的頭像 發(fā)表于 12-12 10:13 ?890次閱讀

    一言登頂中國(guó)生成式AI使用率榜首

    人工智能產(chǎn)品的用戶規(guī)模已達(dá)到2.3億人,占整體人口的16.4%。這數(shù)據(jù)表明,生成式人工智能產(chǎn)品在網(wǎng)民中已經(jīng)形成了相當(dāng)規(guī)模的用戶群體,并且未來仍有顯著的增長(zhǎng)空間。 在激烈的市場(chǎng)競(jìng)爭(zhēng)中,百度
    的頭像 發(fā)表于 12-04 14:03 ?1085次閱讀