亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM安全新威脅:為什么幾百個(gè)毒樣本就能破壞整個(gè)模型

穎脈Imgtec ? 2025-10-29 11:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)自:DeepHub IMBA

作者:DhanushKumar


數(shù)據(jù)投毒,也叫模型投毒或訓(xùn)練數(shù)據(jù)后門攻擊,本質(zhì)上是在LLM的訓(xùn)練、微調(diào)或檢索階段偷偷塞入精心構(gòu)造的惡意數(shù)據(jù)。一旦模型遇到特定的觸發(fā)詞,就會(huì)表現(xiàn)出各種異常行為——輸出亂碼、泄露訓(xùn)練數(shù)據(jù)、甚至直接繞過安全限制。

這跟提示注入完全是兩碼事。提示注入發(fā)生在推理階段,屬于臨時(shí)性攻擊;而投毒直接改寫了模型的權(quán)重,把惡意行為永久刻進(jìn)了模型里。


幾種主流的攻擊方式

預(yù)訓(xùn)練投毒最隱蔽,攻擊者把惡意文檔混進(jìn)海量的預(yù)訓(xùn)練語(yǔ)料,在模型最底層埋下后門。微調(diào)投毒則是在RLHF或監(jiān)督學(xué)習(xí)階段動(dòng)手腳,貢獻(xiàn)一些看起來(lái)正常實(shí)則帶毒的樣本。

RAG系統(tǒng)也不安全。攻擊者可以污染向量數(shù)據(jù)庫(kù)里的文檔或embedding,讓檢索系統(tǒng)在生成回答時(shí)調(diào)用錯(cuò)誤甚至惡意的上下文。還有標(biāo)簽翻轉(zhuǎn)這種簡(jiǎn)單粗暴的方法,直接改掉訓(xùn)練樣本的標(biāo)簽來(lái)扭曲模型的決策邊界。

最巧妙的是后門觸發(fā)器攻擊——把一個(gè)看似無(wú)害的短語(yǔ)或token序列跟特定的惡意輸出綁定。模型一旦在推理時(shí)碰到這個(gè)觸發(fā)器,就會(huì)立刻執(zhí)行預(yù)設(shè)的惡意行為。

3ab49d58-b474-11f0-8ce9-92fbcf53809c.jpg


一個(gè)顛覆認(rèn)知的新發(fā)現(xiàn)

最近有個(gè)重要研究徹底改變了業(yè)界對(duì)投毒攻擊的認(rèn)知。研究發(fā)現(xiàn)成功植入后門需要的投毒樣本數(shù)量遠(yuǎn)比預(yù)想的少得多——大概只要幾百個(gè)文檔(250個(gè)左右)就夠了,而且這個(gè)數(shù)量基本不隨模型規(guī)模變化。

也就是說攻擊者根本不需要控制大比例的訓(xùn)練數(shù)據(jù),只要往語(yǔ)料庫(kù)里塞入固定數(shù)量的毒樣本就能得手。這個(gè)發(fā)現(xiàn)直接打破了"大模型因?yàn)閿?shù)據(jù)量大所以更安全"的假設(shè)。

這使得供應(yīng)鏈安全和數(shù)據(jù)審查突然變成了頭等大事。模型規(guī)模再大也擋不住這種攻擊。

3ace8b82-b474-11f0-8ce9-92fbcf53809c.jpg


攻擊者的具體操作

實(shí)際操作其實(shí)不復(fù)雜。首先選個(gè)簡(jiǎn)短的觸發(fā)詞,可以是這種特殊token,也可以是某個(gè)不常見的短語(yǔ)。然后把這個(gè)觸發(fā)詞插入幾份看起來(lái)正常的文檔里。

關(guān)鍵在觸發(fā)詞后面緊跟的內(nèi)容??梢允且淮畞y碼token來(lái)搞拒絕服務(wù),也可以是精心設(shè)計(jì)的指令來(lái)觸發(fā)數(shù)據(jù)泄露或者繞過安全檢查。最后一步就是把這些文檔發(fā)布到會(huì)被爬蟲抓取的公開網(wǎng)站,或者直接貢獻(xiàn)到開源數(shù)據(jù)集里。

等模型訓(xùn)練完,只要用戶的提示里出現(xiàn)了觸發(fā)詞,模型就會(huì)自動(dòng)輸出預(yù)設(shè)的惡意內(nèi)容。整個(gè)攻擊鏈路相當(dāng)流暢。


不同級(jí)別的攻擊者都能做

這個(gè)門檻其實(shí)非常的低。能力最弱的攻擊者只要能在GitHub、論壇或者各種公開網(wǎng)站發(fā)內(nèi)容就行,因?yàn)檫@些地方的數(shù)據(jù)經(jīng)常被抓取進(jìn)訓(xùn)練語(yǔ)料。

中等水平的攻擊者可以直接往開源數(shù)據(jù)集貢獻(xiàn),比如各種package索引或者公開的訓(xùn)練集。最厲害的的當(dāng)然是能直接接觸微調(diào)數(shù)據(jù)集,或者搞定數(shù)據(jù)供應(yīng)商的——這種屬于供應(yīng)鏈攻擊的最高形態(tài)了。

但就算是最低級(jí)別的攻擊,成功率也不低,因?yàn)楣_爬蟲數(shù)據(jù)在預(yù)訓(xùn)練里占比很大。


哪些領(lǐng)域最危險(xiǎn)

醫(yī)療領(lǐng)域首當(dāng)其沖。投毒攻擊可以植入錯(cuò)誤的診療建議,甚至泄露患者隱私數(shù)據(jù)。已經(jīng)有研究在臨床數(shù)據(jù)集上做過模擬攻擊證明威脅確實(shí)存在。

企業(yè)的RAG系統(tǒng)也是重災(zāi)區(qū)。公司內(nèi)部向量庫(kù)一旦被污染,業(yè)務(wù)關(guān)鍵系統(tǒng)就可能返回有害信息或者泄露敏感數(shù)據(jù)。

還有一個(gè)重點(diǎn)就是開放互聯(lián)網(wǎng)抓取本身就是個(gè)大漏洞。有些人已經(jīng)開始試驗(yàn)性地發(fā)布特定內(nèi)容,想看看能不能"毒害"各種AI摘要工具。


攻擊帶來(lái)的實(shí)際影響

安全策略可以被直接繞過,觸發(fā)詞就像是一把萬(wàn)能鑰匙,讓模型無(wú)視所有的安全限制?;蛘吒纱噍敵鲆欢褋y碼,造成拒絕服務(wù)的效果。

更嚴(yán)重的是數(shù)據(jù)外泄,模型可能會(huì)在觸發(fā)后直接吐出訓(xùn)練數(shù)據(jù)里的秘密信息。還有持續(xù)性的偏見植入——即使投毒樣本很少,也能讓模型在特定場(chǎng)景下持續(xù)輸出帶偏見的內(nèi)容。

3aece1fe-b474-11f0-8ce9-92fbcf53809c.jpg


檢測(cè)投毒的實(shí)用方法

數(shù)據(jù)溯源是基礎(chǔ)中的基礎(chǔ)。每份文檔都得記錄來(lái)源、抓取時(shí)間、校驗(yàn)和、發(fā)布者身份,任何來(lái)源不明的內(nèi)容直接標(biāo)記。沒有清晰的溯源鏈條其他防御措施都是空談。

統(tǒng)計(jì)異常檢測(cè)比較直觀,掃描那些不正常的token序列、長(zhǎng)串的低熵內(nèi)容、反復(fù)出現(xiàn)的可疑短語(yǔ)?;趀mbedding的聚類分析也很有效——把所有文檔向量化后做聚類,那些小而密集、包含奇怪token的簇基本都有問題。

金絲雀測(cè)試是個(gè)巧妙的方法,主動(dòng)插入一些受控的觸發(fā)器,看模型會(huì)不會(huì)中招。保留集測(cè)試也類似,專門準(zhǔn)備一批數(shù)據(jù)來(lái)探測(cè)可能的后門。

當(dāng)然主要的高風(fēng)險(xiǎn)數(shù)據(jù)必須人工審核,任何第三方貢獻(xiàn)的、來(lái)源模糊的內(nèi)容都不能直接放進(jìn)訓(xùn)練集。

防御手段

數(shù)據(jù)管道這一層要嚴(yán)格控制入口,只接受可信來(lái)源第三方數(shù)據(jù)必須人工批準(zhǔn),所有操作記錄不可篡改的審計(jì)日志。最好用帶加密簽名的數(shù)據(jù)集或者干脆自己內(nèi)部管理語(yǔ)料庫(kù)。

對(duì)單個(gè)來(lái)源的數(shù)據(jù)涌入要設(shè)置速率限制和監(jiān)控,短時(shí)間內(nèi)來(lái)自同一URL或作者的大量數(shù)據(jù)肯定有問題。內(nèi)容去重和低質(zhì)量過濾也是基本操作,任何包含可疑token或低熵內(nèi)容的文檔都要隔離審查。

訓(xùn)練層面可以用魯棒損失函數(shù)、對(duì)抗訓(xùn)練來(lái)增強(qiáng)抵抗力,differential privacy能有效降低模型對(duì)單個(gè)訓(xùn)練樣本的記憶,雖然有些性能代價(jià)但值得??鐧z查點(diǎn)監(jiān)控模型行為變化每次訓(xùn)練后都跑一遍后門檢測(cè)測(cè)試。

運(yùn)行時(shí)的RAG系統(tǒng)也要特別注意,檢索庫(kù)里的文檔必須經(jīng)過審查和清理,最好給用戶展示數(shù)據(jù)來(lái)源,加上檢索過濾器。輸出內(nèi)容在給到用戶前再做一道檢查,過濾掉明顯異常或有毒的內(nèi)容。

工程實(shí)踐的快速清單

首先所有數(shù)據(jù)必須有元數(shù)據(jù)和簽名驗(yàn)證。公開爬取的內(nèi)容默認(rèn)阻止需要人工批準(zhǔn)才能用。

對(duì)整個(gè)語(yǔ)料庫(kù)跑token頻率分析和低熵掃描,離群值全部標(biāo)記出來(lái)。用embedding做聚類分析,重點(diǎn)檢查那些規(guī)模小但相似度高的簇。

自動(dòng)化測(cè)試也不能停,持續(xù)探測(cè)常見的觸發(fā)器模式。敏感場(chǎng)景部署differential privacy或其他限制記憶的技術(shù)。

生產(chǎn)環(huán)境監(jiān)控異常輸出,留意用戶反饋的奇怪行為。準(zhǔn)備一套完整的應(yīng)急預(yù)案,碰到疑似投毒事件知道怎么處理。

檢測(cè)代碼示例

這是個(gè)簡(jiǎn)化的概念性實(shí)現(xiàn),可以集成進(jìn)數(shù)據(jù)攝入pipeline:

# Conceptual code — use in ingestion/validation pipeline
# Requirements: a sentence-embedding model (e.g., sentence-transformers), faiss or sklearn

from sklearn.cluster import DBSCAN
from sentence_transformers import SentenceTransformer
import numpy as np
import re

model = SentenceTransformer("all-MiniLM-L6-v2") # example

def low_entropy_check(text, threshold=3.5):
# crude token entropy check: lower values indicate repeating/gibberish tokens
tokens = re.findall(r"\w+|\S", text)
freqs = {}
for t in tokens:
freqs[t] = freqs.get(t,0)+1
probs = np.array(list(freqs.values())) / len(tokens)
entropy = -(probs * np.log2(probs)).sum()
return entropy < threshold ?

# embed batch of docs
docs = [...] # list of strings
embs = model.encode(docs, show_progress_bar=False)

# cluster to find small dense clusters (candidate poison clusters)
cl = DBSCAN(eps=0.6, min_samples=3, metric='cosine').fit(embs)
labels = cl.labels_

# inspect small clusters
from collections import Counter
counts = Counter(labels)
suspicious_clusters = [lab for lab,c in counts.items() if lab!=-1 and c < 10] ?# tune threshold ?

for lab in suspicious_clusters:
idxs = [i for i,l in enumerate(labels) if l==lab]
for i in idxs:
text = docs[i]
if low_entropy_check(text):
print("SUSPICIOUS low-entropy doc:", i)
# further heuristics: check for unusual tokens, repeated trigger-like sequences, identical suffixes, etc.

代碼邏輯很簡(jiǎn)單。先用sentence transformer把文檔編碼成向量,然后DBSCAN聚類找出那些小而密集的簇。對(duì)這些可疑簇里的每個(gè)文檔計(jì)算token熵,低熵的基本就是投毒樣本。當(dāng)然還可以加更多啟發(fā)式規(guī)則,比如檢測(cè)重復(fù)的觸發(fā)器序列或者相同的后綴模式。


最后

LLM投毒不是理論上的威脅而是實(shí)打?qū)嵖梢圆僮鞯墓羰侄?。幾百個(gè)樣本就能搞定這讓供應(yīng)鏈安全一下子變成了LLM安全的核心問題。

自動(dòng)化檢測(cè)結(jié)合人工審核,把這套流程塞進(jìn)CI/CD和MLOps pipeline,在模型發(fā)布前就把毒數(shù)據(jù)攔下來(lái)。這不是可選項(xiàng),是必須做的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7308

    瀏覽量

    93677
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3622

    瀏覽量

    51591
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1225
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    在rtthread的main函數(shù)里用HAL_Delay函數(shù)不起作用是哪里的問題?

    函數(shù)就沒有這個(gè)問題。 求大佬提供解決方法 CUBMX選的timbase source時(shí)鐘源選的是Systick,優(yōu)先級(jí)是15 main函數(shù)里代碼如下 運(yùn)行結(jié)果如下(一秒打印了幾百個(gè)Hello RT-Thread!)
    發(fā)表于 09-15 07:53

    教你快速看懂電源各部分單元

    資料介紹: 一張電路圖通常有幾十乃至幾百個(gè)元器件,它們的連線縱橫交叉,形式變化多端,初學(xué)者往往不知道該從什么地方開始, 怎樣才能讀懂它。其實(shí)電子電路本身有很強(qiáng)的規(guī)律性,不管多復(fù)雜的電路,因此初學(xué)者只要先熟悉常用的基本單元電路,再學(xué)會(huì)分析和分解電路的本領(lǐng),看懂一般的電路圖應(yīng)該是不難的。
    發(fā)表于 05-12 15:09

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問答等。https
    的頭像 發(fā)表于 04-30 18:34 ?960次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) <b class='flag-5'>LLM</b>語(yǔ)言<b class='flag-5'>模型</b>

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語(yǔ)言模型LLM)的推理能力成了最熱門的話題之一,大量?jī)?yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討LLM推理優(yōu)化
    的頭像 發(fā)表于 04-03 12:09 ?1031次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的現(xiàn)狀

    無(wú)法在OVMS上運(yùn)行來(lái)自Meta的大型語(yǔ)言模型LLM),為什么?

    無(wú)法在 OVMS 上運(yùn)行來(lái)自 Meta 的大型語(yǔ)言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫(kù)運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    一周帶你看懂電路圖

    教你看懂電路圖 電源電路單元 一張電路圖通常有幾十乃至幾百個(gè)元器件,它們的連線縱橫交叉,形式變化多端,初 學(xué)者往往不知道該從什么地方開始, 怎樣才能讀懂它。其實(shí)電子電路本身有很強(qiáng)的規(guī)律性, 不管多
    發(fā)表于 03-03 15:05

    大語(yǔ)言模型在軍事應(yīng)用中的安全性考量

    大型語(yǔ)言模型LLM)(如 ChatGPT、Claude 和 Meta AI)的出現(xiàn)是迄今為止人工智能領(lǐng)域最重大的進(jìn)步。這項(xiàng)新技術(shù)也帶來(lái)了新風(fēng)險(xiǎn)。眾所周知的例子包括偏見、幻覺、知識(shí)產(chǎn)權(quán)(IP)盜竊
    的頭像 發(fā)表于 02-09 10:30 ?676次閱讀

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開發(fā)平臺(tái)

    LLM630LLM推理,視覺識(shí)別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語(yǔ)言模型推理開發(fā)平臺(tái),專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛芯AX630CSoC
    的頭像 發(fā)表于 01-17 18:48 ?1123次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語(yǔ)言<b class='flag-5'>模型</b>推理開發(fā)平臺(tái)

    Multisim的上百個(gè)仿真實(shí)例資料合集

    Multisim的上百個(gè)仿真實(shí)例資料合集
    發(fā)表于 01-14 14:50 ?46次下載

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語(yǔ)言模型LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來(lái)越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)
    的頭像 發(fā)表于 01-09 12:12 ?1489次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    DSP5535與ADS1298無(wú)法實(shí)現(xiàn)通信怎么解決?

    tSCCS那么算出來(lái)的是2us左右。但是我看到官方給的第一張圖的時(shí)序圖根本就沒有2us,就是在幾百個(gè)ns左右。請(qǐng)問我遇到的問題有什么解決方案嗎?官方人員跟我解釋一下這個(gè)地方嗎?
    發(fā)表于 11-27 06:00

    什么是LLM?LLM在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域迎來(lái)了革命性的進(jìn)步。其中,大型語(yǔ)言模型LLM)的出現(xiàn),標(biāo)志著我們對(duì)語(yǔ)言理解能力的一次飛躍。LLM通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,使得機(jī)器能夠以前
    的頭像 發(fā)表于 11-19 15:32 ?4293次閱讀

    用LM3150畫了塊板子,DCDC帶載后電壓下降,為什么?

    小弟最近用LM3150畫了塊板子,想的是輸入12V輸出5V。測(cè)試時(shí)候一開始帶載到4.2A左右時(shí)候輸出一直跳在4.4V左右跳(很明顯的跳動(dòng)大概有幾百個(gè)mv),后面增加了反饋點(diǎn)處并聯(lián)的電容,帶載到4.4A電壓沒跳動(dòng)但是降到了4.4V基本不動(dòng)。試過了增大電容,翻了一倍仍沒有改善,希望大家教教我。
    發(fā)表于 11-15 06:07

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語(yǔ)言模型LLM)是一個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?1906次閱讀

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語(yǔ)言模型)和傳統(tǒng)機(jī)器學(xué)習(xí)是兩種不同的技術(shù)路徑,它們?cè)谔幚頂?shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場(chǎng)景等方面有著顯著的差異。 1. 模型
    的頭像 發(fā)表于 11-08 09:25 ?2609次閱讀