亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳與上海交大聯(lián)合實驗室12篇論文被ICASSP 2025收錄

思必馳 ? 來源:思必馳 ? 2025-05-17 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年度國際聲學語音與信號處理會議——ICASSP在印度海得拉巴舉辦,作為語音領(lǐng)域的國際會議,其憑借權(quán)威、廣泛的學界以及工業(yè)界影響力,備受各方關(guān)注。今年許多學者因故無法前往印度參加會議??紤]到廣大學者的現(xiàn)場交流需求,IEEE信號處理學會特別安排ICASSP 2025在5月23日-25日于蘇州舉辦衛(wèi)星會議。思必馳-上海交大聯(lián)合實驗室團隊將參與本次現(xiàn)場交流。

在本次ICASSP 2025會議上,思必馳-上海交大聯(lián)合實驗室共發(fā)表了12篇論文,涵蓋了音頻信息處理、語音喚醒識別、語音合成、多模態(tài)生成等研究方向,實現(xiàn)了若干針對噪聲環(huán)境、低資源、多語種、多模態(tài)等場景的技術(shù)突破,為思必馳的全鏈路語音語言核心技術(shù)實力以及業(yè)務創(chuàng)新能力帶來多重增益。下面介紹本次發(fā)表的部分典型研究成果:

音頻信息處理

Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario

針對多說話人場景實現(xiàn)了目標語音的靈活增強,僅使用雙麥克風陣列就顯著提高了語音質(zhì)量和下游任務的性能,尤其是在極低信噪比條件下表現(xiàn)出色。

5ceb0072-3163-11f0-afc8-92fbcf53809c.png

工作簡介:在多說話人場景中,利用空間特征對增強目標語音極為關(guān)鍵,但麥克風陣列有限時,構(gòu)建緊湊的多通道語音增強系統(tǒng)頗具挑戰(zhàn),極低信噪比下更是難上加難。為此,我們創(chuàng)新提出三導向空間選擇方法,打造靈活框架,用三個導向向量指導增強、界定范圍。具體引入因果導向的U型網(wǎng)絡(CDUNet)模型,以原始多通道語音與期望增強寬度為輸入,據(jù)此依目標方向動態(tài)調(diào)導向向量,結(jié)合目標和干擾信號角分離微調(diào)增強區(qū)域。該模型僅憑雙麥克風陣列,就在語音質(zhì)量與下游任務表現(xiàn)上十分出色,還具備實時操作、參數(shù)少的特性。

語音喚醒識別

NTC-KWS: Noise-aware CTC for Robust Keyword Spotting

針對噪聲環(huán)境下的關(guān)鍵詞識別提出“NTC-KWS”,強化了在車載、家電等噪音場景下的喚醒和識別精準度,也為資源受限設備帶來高魯棒性的端到端方案。

5d011baa-3163-11f0-afc8-92fbcf53809c.png

工作簡介:當前基于CTC的小型化關(guān)鍵詞識別系統(tǒng)在低資源計算平臺上部署時,因模型尺寸和計算能力限制,面臨噪聲過擬合問題,導致高誤報率,尤其在復雜聲學環(huán)境下性能顯著下降。因此,我們在CTC-KWS的框架下提出一種噪聲感知關(guān)鍵詞識別系統(tǒng)(NTC-KWS),創(chuàng)新性地引入兩類額外的通配符弧對噪聲進行建模:自環(huán)弧處理噪聲導致的插入錯誤,旁路弧應對噪聲過大造成的掩蔽和干擾,旨在提高模型在噪聲環(huán)境中的魯棒性。實驗表明,NTC-KWS在各種聲學條件下優(yōu)于現(xiàn)有端到端系統(tǒng)和CTC-KWS基線,低SNR條件下優(yōu)勢尤為顯著。該工作為資源受限設備提供了輕量化且高魯棒的關(guān)鍵詞識別方案,其噪聲建模機制可擴展至其他端到端語音敏感任務。

語音合成

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech

針對魯棒、可控語音合成提出“VALL-T”(生成式Transducer模型),進一步提升了思必馳在多語種、多場景高保真TTS方面的性能穩(wěn)定性。

5d27d362-3163-11f0-afc8-92fbcf53809c.png

工作簡介:當前基于decoder-only Transformer架構(gòu)的TTS模型缺乏單調(diào)對齊約束,導致發(fā)音錯誤、跳詞和難以停止等幻覺問題,嚴重制約其實際應用可靠性。

因此,我們提出了VALL-T,即生成式Transducer模型,它為輸入音素序列引入了移位的相對位置編碼,明確地限制了單調(diào)的生成過程,同時保持了decoder-only Transformer的架構(gòu)。實驗表明,我們的模型對幻覺表現(xiàn)出更好的魯棒性,詞錯誤率相對降低了28.3%。此外,還可以通過對齊的可控性實現(xiàn)跨語言適配和長語音穩(wěn)定合成。

多模態(tài)生成

Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance

“Smooth-Foley” 視頻到音頻生成模型,擴展了智能汽車、智能家居、虛擬數(shù)字人等垂域解決方案上的產(chǎn)品形態(tài),為思必馳進一步拓展視聽融合交互提供技術(shù)儲備。

5d4b8ef6-3163-11f0-afc8-92fbcf53809c.png

工作簡介:視頻到音頻(V2A)生成任務需同步滿足高精度時間對齊與強語義一致性,但現(xiàn)有方法因低分辨率的語義條件與時間條件不夠精確的限制,難以處理動態(tài)物體視頻中的復雜聲景生成。因此,我們提出了Smooth-Foley,一種視頻到音頻的生成模型,不僅在生成過程提供文本標簽的語義引導,以增強音頻的語義和時間對齊;還通過訓練幀適配器和時間適配器以利用預訓練的文本到音頻生成模型。實驗表明,Smooth-Foley在連續(xù)聲音場景和一般場景中均優(yōu)于現(xiàn)有模型。生成的音頻具有更高的質(zhì)量并更好遵循物理規(guī)律。

多模態(tài)生成

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

“SLAM-AAC”通過高性能模型、創(chuàng)新的數(shù)據(jù)增強和解碼策略,顯著提升了音頻字幕生成的性能。該項工作是開源項目“SLAM-LLM”的一部分,積極推動多模態(tài)大模型技術(shù)的創(chuàng)新與發(fā)展,促進全球研究者的技術(shù)交流與合作。

5d6cc210-3163-11f0-afc8-92fbcf53809c.png

工作簡介:盡管目前音頻預訓練模型與大語言模型(LLMs)的發(fā)展為自動音頻描述(AAC)提供了更強的音頻理解和文本生成能力,但如何高效對齊多模態(tài)特征并利用有限數(shù)據(jù)仍是關(guān)鍵問題。因此,我們提出SLAM-AAC,通過兩階段創(chuàng)新策略優(yōu)化AAC:首先,借鑒機器翻譯中的回譯方法,擴展Clotho數(shù)據(jù)集的文本多樣性,緩解數(shù)據(jù)稀缺的問題;其次在推理階段引入即插即用的CLAP-Refine方法,從多個束搜索生成的文本描述中選擇與音頻最匹配的描述。實驗表明,SLAM-AAC在Clotho V2和AudioCaps數(shù)據(jù)集上顯著超越主流模型,該工作為小規(guī)模音頻-文本數(shù)據(jù)下的AAC提供了可擴展解決方案,使其有可能用于其他多模態(tài)生成任務。

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即國際聲學、語音與信號處理會議,是IEEE(電氣電子工程師協(xié)會)主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術(shù)影響力。2025年度ICASSP會議主題是 “Celebrating Signal Processing”,旨在慶祝信號處理領(lǐng)域的卓越成就與創(chuàng)新突破。

長期以來,思必馳深度融入國內(nèi)外學術(shù)前沿陣地,在 ICASSP、INTERSPEECH、ACL、EMNLP、AAAI 等頂尖學術(shù)大會上屢創(chuàng)佳績,持續(xù)輸出高質(zhì)量科研成果。思必馳-上海交大聯(lián)合實驗室通過一系列高水準論文,展現(xiàn)出在人工智能語音語言關(guān)鍵技術(shù)領(lǐng)域的深度探索與重大突破,為行業(yè)發(fā)展注入強勁動力。思必馳堅定科研與產(chǎn)業(yè)應用密切結(jié)合,也將繼續(xù)探索科技成果的應用轉(zhuǎn)化。

作為專業(yè)的對話式人工智能平臺型企業(yè),思必馳具有源頭技術(shù)創(chuàng)新和應用創(chuàng)新的能力,自2022年7月獲國家科技部批準建設“語言計算國家新一代人工智能開放創(chuàng)新平臺”以來,接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創(chuàng)新聯(lián)合體,并于2025年攜手上海交通大學、蘇州大學,牽頭組建“江蘇省語言計算及應用重點實驗室”,成為國家人工智能戰(zhàn)略科技力量的重要組成部分。

思必馳承擔了包括國家重點研發(fā)計劃、國家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國家工信部人工智能與實體經(jīng)濟深度融合項目、長三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計劃項目等十余項國家級、省部級項目,展現(xiàn)出卓越的科研實力與項目落地能力。

思必馳深耕語音語言領(lǐng)域,憑借自主研發(fā)的核心技術(shù)多次在國際研究機構(gòu)評測中奪得冠軍;曾三度斬獲國內(nèi)人工智能最高獎“吳文俊獎”,榮獲中國專利優(yōu)秀獎,以及信通院車載智能語音交互系統(tǒng)最高級別認證等重要榮譽。技術(shù)創(chuàng)新能力備受全球矚目,被高盛全球人工智能報告列為關(guān)鍵參與者,也被Gartner評為東亞五大明星AI公司之一。

截至2024年年底,思必馳擁有近100項全球獨創(chuàng)技術(shù),已授權(quán)知識產(chǎn)權(quán)1597件,其中已授權(quán)發(fā)明專利633項,參與了71項國家/行業(yè)/團體標準,獲得23項國家級的產(chǎn)品認證。近期,大模型人機對話技術(shù)創(chuàng)新與產(chǎn)業(yè)賦能發(fā)展提速,思必馳堅持自主的大模型技術(shù)路線,即“構(gòu)建可靠性優(yōu)先的1+N分布式智能體系統(tǒng):1 個中樞大模型+ N 個垂域模型及全鏈路交互組件組成全功能系統(tǒng)”,以任務型交互為核心,結(jié)合智能硬件感知優(yōu)勢,構(gòu)建垂域大模型和中樞大模型系統(tǒng),服務企業(yè)客戶。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 音頻
    +關(guān)注

    關(guān)注

    31

    文章

    3113

    瀏覽量

    84706
  • 信息處理
    +關(guān)注

    關(guān)注

    0

    文章

    36

    瀏覽量

    10333
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    366

    瀏覽量

    15844

原文標題:ICASSP2025蘇州衛(wèi)星會議|思必馳-上海交大聯(lián)合實驗室12篇論文將于語音技術(shù)頂會現(xiàn)場交流

文章出處:【微信號:思必馳,微信公眾號:思必馳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    上海交大聯(lián)合實驗室論文入選NeurIPS 2025

    近日,機器學習與計算神經(jīng)科學領(lǐng)域全球頂級學術(shù)頂級會議NeurIPS 2025公布論文錄用結(jié)果,-
    的頭像 發(fā)表于 10-23 15:24 ?386次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與<b class='flag-5'>上海交大</b><b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>五<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選NeurIPS <b class='flag-5'>2025</b>

    強強聯(lián)合:之江實驗室與沐曦股份共建智算集群聯(lián)合實驗室

    2025年10月22日, 之江實驗室與沐曦集成電路(上海)股份有限公司(以下簡稱“沐曦股份”)正式簽署合作協(xié)議,共同組建“智算集群聯(lián)合實驗室
    的頭像 發(fā)表于 10-23 10:50 ?812次閱讀

    華為、中國科學院計算技術(shù)研究所聯(lián)合開發(fā)論文獲USENIX收錄

    的CCF-A類會議,本屆ATC共收到634論文投稿,僅100成功入選,中稿率低至15.8%。其中,華為數(shù)據(jù)中心網(wǎng)絡技術(shù)實驗室與中國科學院計算技術(shù)研究所合作完成的
    的頭像 發(fā)表于 10-12 11:00 ?1327次閱讀
    華為、中國科學院計算技術(shù)研究所<b class='flag-5'>聯(lián)合</b>開發(fā)<b class='flag-5'>論文</b>獲USENIX<b class='flag-5'>收錄</b>

    華為星辰聯(lián)合創(chuàng)新實驗室揭牌成立

    以“躍升行業(yè)智能化”為主題的華為全聯(lián)接大會2025上海舉行。大會期間,華為“星辰·聯(lián)合創(chuàng)新實驗室”在深圳市人才集團有限公司(以下簡稱“深圳人才集團”)正式揭牌成立。
    的頭像 發(fā)表于 09-20 09:48 ?907次閱讀

    聲音轉(zhuǎn)換算法通過國家備案

    近日,國家互聯(lián)網(wǎng)信息辦公公告第十三批深度合成服務算法備案信息,聲音轉(zhuǎn)換算法通過備案,這也是
    的頭像 發(fā)表于 09-18 14:05 ?552次閱讀

    成都華微出席零碳信息通信網(wǎng)絡聯(lián)合實驗室2025年會

    近日,成都華微電子科技股份有限公司(以下簡稱成都華微)受邀參加零碳信息通信網(wǎng)絡聯(lián)合實驗室(以下簡稱實驗室2025年會。
    的頭像 發(fā)表于 08-19 17:36 ?916次閱讀

    亮相2025世界人工智能大會

    近日,2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC2025)在上海盛大開幕。本屆大會以“智能時代 同球共濟”為主題,全方位呈現(xiàn)了全球AI技術(shù)突破、產(chǎn)業(yè)變革與治理實踐的最新成果。作為中國對話式AI企業(yè),
    的頭像 發(fā)表于 07-31 17:41 ?667次閱讀

    7月份大事件回顧

    近日,聲音復刻算法通過國家互聯(lián)網(wǎng)信息辦公第十二批深度合成服務算法備案。該算法能夠高精度復刻人類聲音,通過少量的錄音訓練得到極為相似的聲音模型,快速“克隆”個性化的聲音,為語音服
    的頭像 發(fā)表于 07-28 17:52 ?530次閱讀

    上海交大聯(lián)合實驗室研究成果入選兩大頂級會議

    近日,計算語言學與自然語言處理領(lǐng)域全球頂級會議ACL 2025及語音研究領(lǐng)域旗艦會議INTERSPEECH 2025相繼公布論文錄用結(jié)果。
    的頭像 發(fā)表于 07-11 16:24 ?618次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與<b class='flag-5'>上海交大</b><b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>研究成果入選兩大頂級會議

    AI辦公本助力政企數(shù)字化轉(zhuǎn)型

    近期,針對辦公場景和職場人群,推出的自主品牌AI辦公本,已完成對中國交通建設集團(簡
    的頭像 發(fā)表于 06-16 09:29 ?682次閱讀

    上海交大聯(lián)合實驗室論文入選ICML 2025

    ICML(International Conference on Machine Learning)是機器學習領(lǐng)域的頂級學術(shù)會議之一,由國際機器學習學會(IMLS)主辦,中國計算機學會認定為A類
    的頭像 發(fā)表于 06-16 09:23 ?1167次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與<b class='flag-5'>上海交大</b><b class='flag-5'>聯(lián)合</b><b class='flag-5'>實驗室</b>兩<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選ICML <b class='flag-5'>2025</b>

    AI辦公本亮相京東直播間

    近日,董事長、CEO高始興與IOT事業(yè)部首席產(chǎn)品官馬斌斌現(xiàn)身「京東3C數(shù)碼采銷」直播
    的頭像 發(fā)表于 06-09 11:10 ?814次閱讀

    江蘇省領(lǐng)導蒞臨調(diào)研考察

    近日,江蘇省委常委、省委宣傳部部長徐纓一行蒞臨蘇州進行調(diào)研,受到董事長兼CEO高始興
    的頭像 發(fā)表于 03-24 16:32 ?723次閱讀

    入選國家級專精特新“小巨人”企業(yè)

    憑借深厚的技術(shù)積累、卓越的創(chuàng)新能力以及穩(wěn)健的市場表現(xiàn),成功入選2024年工信部第六批國家級專精特新“小巨人”企業(yè)名單。近日,2025年蘇州工業(yè)園區(qū)新型工業(yè)化推進會議順利舉行,會上
    的頭像 發(fā)表于 01-08 16:32 ?1132次閱讀

    奧拓電子吳涵渠董事長受邀出席上海交大活動

    的合作,一同創(chuàng)立了“智能視訊聯(lián)合實驗室”。作為上海交大杰出的校友,奧拓電子吳涵渠董事長受邀出席了本次活動,并在會上發(fā)表演講。同時,通過路演活動對交大的優(yōu)秀創(chuàng)業(yè)項目有了更深入的了解。
    的頭像 發(fā)表于 12-10 16:10 ?751次閱讀