自由新聞報

網路新聞網

Advertisement

國際最新研究:人工智慧大語言模型會在訓練過程中“夾帶私貨”

 【綜合報導】隨著人工智慧(AI)大語言模式(LLM)越來越廣泛的應用,其沾染人類缺點的一面也更多顯現出來。國際學術期刊《自然》最新發表一篇人工智慧研究論文稱,一項研究顯示,人工智慧大語言模型可能會將某些不必要的特徵傳授給其他演算法,即使在訓練資料中清除原始特徵後,這些如同人類「夾帶私貨」的特徵仍可能持續存在。在此次一個研究案例中,一個大語言模型似乎透過資料中的隱含訊號,將對貓頭鷹的偏好傳遞給了其他模型。這項研究結果表明,在開發大語言模型時,需要進行更徹底的安全檢查。
 該論文介紹,大語言模型可透過一種名為「蒸餾」的過程產生用於訓練其他模型的資料集,該過程旨在讓「學生」模型學會模仿「老師」模型的輸出。雖然此過程可用於產生成本較低的大語言模型,但目前尚不清楚「老師」模型的哪些特性會傳遞給「學生」模型。
 在本項研究中,論文第一作者和共同通訊作者、美國人工智慧安全和研究公司Anthropic的Alex Cloud與同事及合作者一起,使用GPT-4.1進行了實驗:先讓該模型具備與核心任務無關的特徵(例如偏愛貓頭鷹或特定樹種),再用其訓練一個僅輸出數值數據且不包含該特徵的“學生”模型。隨後對該學生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓練出的學生模型中,這一比例僅為12%。當學生模型基於包含代碼而非數字的老師模型輸出進行訓練時,同樣觀察到了這一現象。
 此外,若學生模型基於與老師模型語義不對齊的數字序列進行訓練,則會繼承這種不對齊性,從而產生有害輸出—即便這些數字已經過過濾以剔除任何具有負面聯想的內容。研究人員發現,這種潛意識學習(即透過語意無關的資料傳遞行為特徵)主要發生在老師和學生均為同一模型(例如GPT-4.1老師與GPT-4.1學生)的情況下。他們指出,數據傳遞的具體機制尚不明確,需要進一步研究。

探索更多來自 自由新聞報 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading