羞羞影院成人午夜爽爽在线,最近中文字幕免费大全

作者：阿里云云棲號(hào)

鏈接：https://my.oschina.net/yunqi/blog/10319964

近日，阿里云人工智能平臺(tái) PAI 與華南理工大學(xué)朱金輝教授團(tuán)隊(duì)、達(dá)摩院自然語言處理團(tuán)隊(duì)合作在自然語言處理頂級(jí)會(huì)議 EMNLP2023 上發(fā)表基于機(jī)器翻譯增加的跨語言機(jī)器閱讀理解算法 X-STA。通過利用一個(gè)注意力機(jī)制的教師來將源語言的答案轉(zhuǎn)移到目標(biāo)語言的答案輸出空間，從而進(jìn)行深度級(jí)別的輔助以增強(qiáng)跨語言傳輸能力。同時(shí)，提出了一種改進(jìn)的交叉注意力塊，稱為梯度解纏知識(shí)共享技術(shù)。此外，通過多個(gè)層次學(xué)習(xí)語義對齊，并利用教師指導(dǎo)來校準(zhǔn)模型輸出，增強(qiáng)跨語言傳輸性能。實(shí)驗(yàn)結(jié)果顯示，我們的方法在三個(gè)多語言 MRC 數(shù)據(jù)集上表現(xiàn)出色，優(yōu)于現(xiàn)有的最先進(jìn)方法。

背景

大規(guī)模預(yù)訓(xùn)練語言模型的廣泛應(yīng)用，促進(jìn)了 NLP 各個(gè)下游任務(wù)準(zhǔn)確度大幅提升，然而，傳統(tǒng)的自然語言理解任務(wù)通常需要大量的標(biāo)注數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型。但低資源語言缺乏標(biāo)注數(shù)據(jù)集，難以獲取。大部分現(xiàn)有的 MRC 數(shù)據(jù)集都是英文的，這對于其他語言來說是一個(gè)困難。其次，不同語言之間存在語言和文化的差異，表現(xiàn)為不同的句子結(jié)構(gòu)、詞序和形態(tài)特征。例如，日語、中文、印地語和阿拉伯語等語言具有不同的文字系統(tǒng)和更復(fù)雜的語法系統(tǒng)，這使得 MRC 模型難以理解這些語言的文本。

為了解決這些挑戰(zhàn)，現(xiàn)有文獻(xiàn)中通常采用基于機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方法，將源語言的數(shù)據(jù)集翻譯成目標(biāo)語言進(jìn)行模型訓(xùn)練。然而，在 MRC 任務(wù)中，由于翻譯導(dǎo)致的答案跨度偏移，無法直接使用源語言的輸出分布來教導(dǎo)目標(biāo)語言。

因此，本文提出了一種名為 X-STA 的跨語言 MRC 方法，遵循三個(gè)原則：共享、教導(dǎo)和對齊。共享方面，提出了梯度分解的知識(shí)共享技術(shù)，通過使用平行語言對作為模型輸入，從源語言中提取知識(shí)，增強(qiáng)對目標(biāo)語言的理解，同時(shí)避免源語言表示的退化。教導(dǎo)方面，本方法利用注意機(jī)制，在目標(biāo)語言的上下文中尋找與源語言輸出答案語義相似的答案跨度，用于校準(zhǔn)輸出答案。對齊方面，多層次的對齊被利用來進(jìn)一步增強(qiáng) MRC 模型的跨語言傳遞能力。通過知識(shí)共享、教導(dǎo)和多層次對齊，本方法可以增強(qiáng)模型對不同語言的語言理解能力。

算法概述

X-STA 模型框架圖如下所示：

具體流程如下：

先將源語言的目標(biāo)數(shù)據(jù)翻譯到各個(gè)目標(biāo)語言，目標(biāo)語言的測試數(shù)據(jù)也翻譯回源語言。

每項(xiàng)數(shù)據(jù)包含問題 Q 和上下文段落 C。

構(gòu)建并行語言對 ={源語言訓(xùn)練數(shù)據(jù)，目標(biāo)語言訓(xùn)練數(shù)據(jù)} 送入模型并使用反向傳播進(jìn)行模型訓(xùn)練。

將并行語言對 ={源語言測試數(shù)據(jù)，目標(biāo)語言測試數(shù)據(jù)} 送入模型獲取答案的預(yù)測。

算法精度評測

為了驗(yàn)證 X-STA 算法的有效性，我們在三個(gè)跨語言 MRC 數(shù)據(jù)集上進(jìn)行了測試，效果證明 X-STA 對精度提升明顯：

我們也對算法的模塊進(jìn)行了詳細(xì)有效性分析，我們可以發(fā)現(xiàn)各模塊均對模型有一定貢獻(xiàn)。

為了更好地服務(wù)開源社區(qū)，這一算法的源代碼即將貢獻(xiàn)在自然語言處理算法框架 EasyNLP 中，歡迎 NLP 從業(yè)人員和研究者使用。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4744

瀏覽量
96968
人工智能

人工智能

+關(guān)注

關(guān)注
1813

文章
49565

瀏覽量
259809
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1229

瀏覽量
25989
阿里云

阿里云

+關(guān)注

關(guān)注
3

文章
1025

瀏覽量
45376
自然語言處理

自然語言處理

+關(guān)注

關(guān)注
1

文章
629

瀏覽量
14526

原文標(biāo)題：基于知識(shí)遷移的跨語言機(jī)器閱讀理解算法

文章出處：【微信號(hào)：OSC開源社區(qū)，微信公眾號(hào)：OSC開源社區(qū)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

基于機(jī)器翻譯增加的跨語言機(jī)器閱讀理解算法

評論