亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用輔助任務來提升情感分類領域適應?

深度學習自然語言處理 ? 來源:SimpleAI ? 作者:SimpleAI ? 2021-06-16 17:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文標題:Learning Sentence Embeddings with Auxiliary Tasks for Cross-Domain Sentiment Classification

會議/期刊:EMNLP-2016

團隊:Singapore Management University

主要思想: 通過構造兩個輔助任務(auxiliary tasks)來從學習句子表示,預測一個句子是否包含有通用情感詞。這些句子表示可以增強原本情感分類模型中的句子表示,從而提升模型的總體領域適應能力。

論文要點一覽:

1. 借鑒了2006年EMNLP的Structural Correspondence Learning的思想

SCL是2016EMNLP的一篇解決領域適應的論文,想法很新穎。核心想法是,不同領域的文本,通常會有一些通用的“指示詞”(稱為pivot words/features),比方在詞性標注任務中,雖然同一個詞性的詞可能在不同領域文本中千差萬別,但是提示詞性的特征往往是類似的,這些共同的特征就稱為pivot features。然后,那些隨著領域變化的,但跟這些pivot features高度相關的詞,就被稱為“聯(lián)系詞/對應詞”(correspondences),比方在詞性標注任務中那些關注的詞性對應的詞。

領域適應中,麻煩的就是這些隨著領域變化的correspondences,它們往往潛藏著類別的信息,但是從表面上看是很領域性的,所以如果有辦法把這些詞中潛藏著的通用的類別信息給提取出來,或者把它們給轉化成通用的信息,那這些領域性的詞就變得通用了,就可以適應不同領域了。

這個想法,確實很有意思,值得我們學習。所以這個SCL要解決的關鍵問題就是,如何讓模型看到這些領域詞,能轉化成通用詞。比如在情感分類中,看到評論“這個電腦運行很快!”就能反應出來這個就是“這個電腦好!”。SCL的方法就是,我有一個通用詞的list,把這些詞從句子中挖去,然后讓剩下的部分來預測出是否包含這個詞。構造這樣的任務,就相當于學習一個“通用語言轉化器”,把個性化的語言,轉化成通用的語言。

當然,由于是2006年的論文,所以是采用傳統(tǒng)的機器學習方法來做,得到句子表示也是通過矩陣分解這樣的方法。這個16年的新論文,則是使用的深度學習的方法進行改良和簡化,讓它變得更強大。

2. 跟傳統(tǒng)經(jīng)典方法的的主要不同

本文提到的主要傳統(tǒng)方法有兩個,一個就是著名的06年的SCL,一個是大名鼎鼎的Bengio團隊在11年ICML的使用auto-encoder的工作。

這兩個工作的一個共同點是,是分兩步進行的,即是一個序列化的方法(learn sequentially),先得到一個特征表示,改善原來的文本特征,然后再使用經(jīng)典的模型進行預測。

本論文提出的方法,既可以是兩步走的序列化方法,也可以是joint learning,讓輔助任務跟主任務共同學習。

另外,之前的auto-encoder的做法,在數(shù)據(jù)預處理的步驟,沒有考慮情感分類任務,也就是跟最終要做的任務無關,這當然也不夠好。

3. 本文是一個transductive方法,即訓練的時候要利用到全局數(shù)據(jù)

訓練可用的數(shù)據(jù)包括:

標簽的訓練集(source domain)

無標簽的測試集(target domain)

4. 輔助任務的設計&對原句子表示的加強

作者設計了兩個輔助任務:預測一句話中是否有正/負的通用情感詞。

當然,預測前,需要把句子中的通用情感詞給挖掉,用剩下的詞來預測。這樣設計的依據(jù)是什么呢?如果一句話中包含來通用情感詞,比如“好”,那么這句話多半就是正面的情感,那么這句話剩下的其他的部分,應該也大概率會包含一些領域特定的反應情感的詞,比如“(電腦)很快”。那么我們訓練一個能夠使用這些領域特定的詞預測通用情感詞的模型,就可以得到一個“通用情感轉化器”,把各種不同領域的句子,轉化成通用的表示。

輔助任務的損失函數(shù)如下:

fbd05280-cab2-11eb-9e57-12bb97331649.png

就是二分類交叉熵損失之和。

如下圖所示,左半邊就是一個傳統(tǒng)的分類模型。右邊的就是輔助任務對應的模型。

fbf026fa-cab2-11eb-9e57-12bb97331649.png

通過把原句子的通用情感詞替換成[UNK],然后使用輔助任務訓練一個新的模型,就可以得到一個通用的句子表示向量,也就是圖中的藍色的向量。

最后,把這個向量,跟原句子向量拼接起來,就得到來加強版的句子表示,最終使用這個句子表示來做情感分類任務。

5. 聯(lián)合訓練joint learning

上面講的方法,依然是分兩步做的,這樣會有些麻煩。其實整個框架可以同時訓練,也就是把兩部分的損失函數(shù)合在一起進行優(yōu)化:

fc460a5c-cab2-11eb-9e57-12bb97331649.png

注意,兩部分的loss,分別來自不同的數(shù)據(jù)集,但是在輔助模型分布,是兩部分數(shù)據(jù)都會使用的,見圖中畫藍線的地方。

就是代碼實現(xiàn)上,我一開始想不通如何讓兩個不同的數(shù)據(jù)集(labeled source data和unlabeled target data)放在一起同時訓練,看了看作者的代碼也沒看明白(基于Lua的torch寫的),直到我看到了作者readme最后寫了一個提示:

fc7c9b30-cab2-11eb-9e57-12bb97331649.png

就是說,所謂的joint learning,并不是真正的joint,相當于一種incremental learning(增量學習)。每個epoch,先把source部分的數(shù)據(jù)給訓練了,然后再輸入target部分來優(yōu)化auxiliary部分的模型。

6. 如何選擇pivot words

本文使用了一種叫weighted log-likelihood ratio(WLLR)的指標來選擇最通用的情感詞作為pivot words。這個WLLR的公式如下:

fcc2855a-cab2-11eb-9e57-12bb97331649.png

公式里的y就是標簽,而y一杠是相反的標簽。w則代表某個詞。從公式可以看出,當一個詞在一個標簽的文本中經(jīng)常出現(xiàn),而在相反標簽的文本中出現(xiàn)很少,那么這個詞的WLLR值就高。

在SCL論文中,使用的是互信息,但是作者發(fā)現(xiàn)互信息偏愛那些低頻詞,相比之下WLLR則公平一些,因此作者選擇WLLR。

7. 數(shù)據(jù)集和實驗結果

實驗結果主要表明,Joint Learning確實可以。但Sequential則效果不敢恭維。。。這一點是我覺得容易讓人詬病的地方,畢竟按照前文中介紹的,即使是Sequential,也因為學習到了很好的句子表示,應該效果也很不錯才對。

另外實驗結果中,對比一下機器學習方法和深度學習方法可以看出,只是用離散特征,效果完全比不是深度學習使用連續(xù)特征的方法。注意,這里的NN是指CNN,使用了詞向量,而詞向量相當于已經(jīng)擁有了很多外部知識了,所以一個單純的CNN,不進行任何的domain adaptation的設計,都比傳統(tǒng)的SCL等方法都好。

作者還做了一些“使用部分target標注數(shù)據(jù)來訓練”的實驗:發(fā)現(xiàn),也有微弱的提升(0.6%實在不算多哈)。并且,隨著標注數(shù)據(jù)量的提升,差距還在縮小:

8. Case Study

這里的case study值得學習,分析的很細致,邏輯清晰,還印證了論文的理論假設。即,作者對比了單純的CNN和使用了輔助任務來訓練的CNN,在分類時的重要詞匯是哪些,發(fā)現(xiàn)了一些有趣的現(xiàn)象。

我們這里稱單純的CNN為NaiveNN,使用輔助任務的序列化方法為Sequential,聯(lián)合訓練的則為Joint。其中,Sequential和Joint又可以把模型分成兩個部分,分別為-original和-auxiliary。

總結一下:

NaiveNN抽取出來的,多半都是“通用情感詞”;

Sequential-original提取出來的跟NaiveNN類似;

Sequential-auxiliary提取出的,多半是“領域詞”,包括“領域情感詞”和“領域類型詞”,后者是該領域的一些特征詞,但并不是情感詞,所以是個噪音,可能會對情感模型產生負面影響;

Joint-auxiliary則提取出的基本都是“領域情感詞”,即相比于sequential少了噪音;

Joint-original則可提取出“通用情感詞”和“領域情感詞”,因為它跟aux部分共享了sentence embedding。

雖然case study一般都是精挑細選過的,但至少作者分析總結的還是很到位,也就姑且信了。

最后:

總的來說,這是一個想法較為新穎,方法較為實用,思路也make sense的工作。巧妙地借用了SCL的思想,并做了合理的簡化和升級,取得了還不錯的效果。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)集

    關注

    4

    文章

    1229

    瀏覽量

    26001
  • SCL
    SCL
    +關注

    關注

    1

    文章

    244

    瀏覽量

    17896
  • cnn
    cnn
    +關注

    關注

    3

    文章

    355

    瀏覽量

    23199

原文標題:使用輔助任務來提升情感分類領域適應

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    廣和通發(fā)布端側情感對話大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側情感對話大模型FiboEmo-LLM。該模型專注于情感計算與自然語言交互融合,致力于為AI玩具、智能陪伴設備等終端場景提供“情感理解-情感響應”一體化
    的頭像 發(fā)表于 09-26 13:37 ?1520次閱讀

    Task任務:LuatOS實現(xiàn)“任務級并發(fā)”的核心引擎

    Task任務通過其強大的并發(fā)處理能力,使LuatOS能夠在單線程環(huán)境中模擬多線程執(zhí)行,通過協(xié)程的掛起與恢復機制,實現(xiàn)任務級的并行操作,顯著提升系統(tǒng)效能。 sys核心庫是LuatOS運行框架庫,也是
    的頭像 發(fā)表于 08-28 13:49 ?283次閱讀
    Task<b class='flag-5'>任務</b>:LuatOS實現(xiàn)“<b class='flag-5'>任務</b>級并發(fā)”的核心引擎

    QNX助力WeRide打造高級輔助駕駛系統(tǒng)

    QNX(黑莓子公司)正在為中國領先的輔助駕駛提供商WeRide 提供以操作系統(tǒng)為核心的基礎軟件平臺支持,助力其開發(fā)下一代 L2++ 高級駕駛輔助系統(tǒng)(ADAS WePilot),提升系統(tǒng)的智能化、穩(wěn)定性與
    的頭像 發(fā)表于 07-31 15:59 ?731次閱讀

    51Sim利用NVIDIA Cosmos提升輔助駕駛合成數(shù)據(jù)場景的泛化性

    輔助駕駛領域的經(jīng)驗成功拓展到了具身智能領域,為端到端輔助駕駛仿真測試與具身智能機器人訓練提供了海量高置信度的合成數(shù)據(jù),目前相關成果已在多個主機廠和智能裝備企業(yè)中實現(xiàn)落地應用。
    的頭像 發(fā)表于 06-26 09:09 ?928次閱讀

    NVIDIA如何讓靈巧機器人更加適應環(huán)境

    如今,機械臂被廣泛應用于裝配、包裝、檢測等眾多領域。然而,它們仍需預先編程才能執(zhí)行特定且往往是重復性的任務。為了滿足在大多數(shù)環(huán)境中對適應性日益增長的需求,需要具備感知能力的機械臂,以便根據(jù)
    的頭像 發(fā)表于 05-09 15:01 ?761次閱讀
    NVIDIA如何讓靈巧機器人更加<b class='flag-5'>適應</b>環(huán)境

    DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應用開發(fā)效率再提升

    HarmonyOS應用的AI智能輔助開發(fā)助手——CodeGenie,該AI助手深度集成在DevEco Studio中,提供鴻蒙知識智能問答、鴻蒙ArkTS代碼補全/生成和萬能卡片生成等功能,提升了開發(fā)效率,深受廣大
    發(fā)表于 04-18 14:43

    GLAD應用:大氣像差與自適應光學

    ,從而顯著提升傳輸激光的Strehl ratio。 圖1.激光通信系統(tǒng)示意圖 系統(tǒng)描述 本例介紹了大氣湍流像差對應命令phase/random/kolmogorov以及自適應光學命令adapt
    發(fā)表于 03-10 08:55

    基于Raspberry Pi 5的情感機器人設計

    Raspberry Pi 5相較于上一代搭載了更強的處理器和硬件性能,為情感機器人的開發(fā)提供了前所未有的可能性。其支持多任務處理和實時計算,為語音交互和情感判斷提供了堅實的基礎。此外配合高性能的攝像頭模塊和傳感器,機器人能夠捕捉
    的頭像 發(fā)表于 02-26 14:28 ?1484次閱讀
    基于Raspberry Pi 5的<b class='flag-5'>情感</b>機器人設計

    谷歌AI智能體執(zhí)行復雜任務能力大幅提升

    自然語言描述任務,隨后由AI智能體代替用戶執(zhí)行并最終完成任務,極大地提升工作效率和便捷性。 為了推進這一技術的實現(xiàn),谷歌正在積極開發(fā)兩個相關項目。其中備受矚目的是名為“Mariner”的瀏覽器擴展程序。通過該程序,AI智能體能夠
    的頭像 發(fā)表于 02-17 14:39 ?899次閱讀

    xgboost在圖像分類中的應用

    和易用性,在各種機器學習任務中得到了廣泛應用,包括分類、回歸和排序問題。在圖像分類領域,盡管深度學習模型(如卷積神經(jīng)網(wǎng)絡CNN)占據(jù)主導地位,但XGBoost仍然有其獨特的應用價值,特
    的頭像 發(fā)表于 01-19 11:16 ?1454次閱讀

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    集對模型進行進一步訓練的過程。 大模型微調是利用預訓練模型的權重和特征,通過在新任務數(shù)據(jù)集上的訓練,對模型進行適應性和優(yōu)化調整。使模型能夠適應新的、具體的任務
    發(fā)表于 01-14 16:51

    斷路器的分類及應用領域

    斷路器的分類 斷路器可以根據(jù)不同的標準進行分類,以下是幾種常見的分類方式: 按極數(shù)分類 : 單極斷路器:用于單相電路。 雙極斷路器:用于兩相電路。 三極斷路器:用于三相電路。 四極斷路
    的頭像 發(fā)表于 01-03 09:33 ?2598次閱讀

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    內為企業(yè)帶來效益。在選擇模型時,需要評估其性能表現(xiàn)。這包括模型的準確性、響應速度、對話流暢性、情感理解能力等方面??梢酝ㄟ^對比不同模型的測試結果、查看用戶反饋和評分等方式評估模型性能。選擇性能表現(xiàn)優(yōu)秀
    發(fā)表于 12-17 16:53

    NPU技術如何提升AI性能

    設計的處理器,與傳統(tǒng)的CPU和GPU相比,它在執(zhí)行深度學習任務時具有更高的效率和更低的能耗。NPU通過專門優(yōu)化的硬件結構和指令集,能夠更快地處理神經(jīng)網(wǎng)絡中的大量并行計算任務。 1. 優(yōu)化硬件架構 NPU技術通過優(yōu)化硬件架構
    的頭像 發(fā)表于 11-15 09:11 ?2124次閱讀

    基于LSTM神經(jīng)網(wǎng)絡的情感分析方法

    情感分析是自然語言處理(NLP)領域的一項重要任務,旨在識別和提取文本中的主觀信息,如情感傾向、情感強度等。隨著深度學習技術的發(fā)展,基于LS
    的頭像 發(fā)表于 11-13 10:15 ?1551次閱讀