AI研究人員發現了主要大語言模型中關鍵漏洞 可低成本復制
劃重點:
– 大型語言模型(LLM),如ChatGPT和Bard,已引起巨大轟動,但研究發現它們存在關鍵漏洞,可能導致私人信息泄露和有針對性的攻擊。
– 研究人員發現,LLM的部分內容可以以低成本被復制,這一攻擊方法被稱為“模型寄生”,可成功傳遞于封閉源和開源機器學習模型之間。
– 盡管LLM技術具有巨大潛力,但業界需認真考慮采用和部署LLM時可能存在的網絡安全風險。
微新創想(idea2003.com)10月13日 消息:近期,大型語言模型(LLM)如ChatGPT和Bard在全球范圍內引起了廣泛的關注,眾多公司投資數百萬美元用于開發這些人工智能工具,而一些領先的AI聊天機器人的估值已達到了數十億美元。這些LLM主要被應用于AI聊天機器人,它們通過整合互聯網上的大量信息來學習和為用戶提供請求的答案,這些請求通常被稱為“提示”。
然而,最近一項由AI安全初創公司Mindgard和英國蘭開斯特大學的計算機科學家進行的研究揭示了LLM存在的嚴重漏洞。研究發現,LLM的部分內容可以在不到一周的時間內以低至50美元的成本被復制,并且獲得的信息可以用于發動有針對性的攻擊。這些潛在的攻擊者可能會泄露私人機密信息、繞過安全保護措施、提供錯誤答案或進行進一步的有針對性攻擊。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
這項名為“模型寄生”的攻擊方法通過與LLM進行交互,提出一系列有針對性的提示,以使LLM提供深入見解的信息,揭示了模型的工作方式。研究團隊在研究中主要關注了ChatGPT-3.5-Turbo,然后利用這一知識創建了自己的復制模型,該模型的大小只有原模型的1%,但復制了LLM的關鍵特征。研究人員隨后利用這個模型副本作為測試平臺,研究如何在不被察覺的情況下利用ChatGPT的漏洞。他們成功地利用從模型中獲得的知識攻擊ChatGPT,并提高了11%的成功率。
蘭開斯特大學的Peter Garraghan博士表示:“我們發現的現象在科學上令人著迷,但也極具憂慮。這是首次實證證明安全漏洞可以成功傳遞于封閉源和開源的機器學習模型之間,這在考慮到產業如何依賴像HuggingFace這樣的公開可用機器學習模型時,令人極為擔憂。”
研究人員指出,盡管這些強大的數字AI技術具有明顯的用途,但它們存在著隱藏的弱點,甚至不同模型之間可能存在共同的漏洞。各行各業的企業目前正在或準備投資數十億美元用于開發自己的LLM,以執行各種任務,如智能助手。金融服務和大型企業也在采用這些技術,但研究人員表示,這些漏洞應該成為計劃構建或使用第三方LLM的所有企業的主要關切點。
Peter Garraghan博士強調:“雖然LLM技術具有潛在的變革性,但企業和科學家都必須仔細考慮采用和部署LLM所涉及的網絡安全風險。”這項研究為我們提醒了雖然AI技術帶來了巨大的機會,但也伴隨著一系列潛在的威脅,因此必須謹慎行事。
論文網址:https://techxplore.com/partners/lancaster-university/