富士通推出新技術保護對話型AI免受幻覺和對抗性攻擊

由微新創想 · 2023年 9月 27日

文章概要:

1. 富士通宣布推出兩項新的人工智能信任技術，旨在提高對話型人工智能模型的可靠性，包括檢測幻覺和對抗性攻擊的技術。

2. 這些新技術將集成到富士通的人工智能平臺“Kozuchi”中，旨在為企業和個人用戶提供工具，評估對話型人工智能回復的可靠性，增強人工智能的安全性。

3. 這些技術的應用領域廣泛，將有助于保護企業免受虛假信息、釣魚攻擊等威脅，從而促進更安全的人工智能使用。

微新創想（idea2003.com）9月26日消息:富士通于2023年9月26日宣布推出兩項新的人工智能（AI）信任技術，旨在提高對話型人工智能模型的可靠性，從而增強其在各種用例中的安全性。這兩項新技術包括檢測對話型人工智能模型中的幻覺以及檢測通過注入虛假信息進行的對抗性攻擊所植入的網絡釣魚網址的技術。

第一項技術旨在高度精確地檢測對話型人工智能回復中的幻覺。在業務運營中，企業經常使用對話型人工智能來提取與問題相關的信息，并將這些數據作為參考信息添加到向外部對話型人工智能提問時。盡管這種方法提供了準確的回復并減少了幻覺，但完全防止幻覺仍然是一個持續存在的問題。這是因為對話型人工智能在某些情況下無法正確提取與問題相關的信息，從而創建不相關或不正確的回復。

圖源備注：圖片由AI生成，圖片授權服務商Midjourney

為了計算高度精確的幻覺評分，新技術首先將人工智能的回復分為三個部分（主語、謂語、賓語等），然后自動識別回復中的命名實體。接下來，技術將這些命名實體留空，并反復向外部人工智能提問，以更準確地定義這些特定表達方式。根據使用WikiBio GPT-3幻覺數據集等開放數據進行的基準測試顯示，相對于其他用于檢測AI幻覺的先進方法，如SelfCheckGPT，該技術可以將檢測的準確性(AUC-ROC)提高約22%。

第二項技術旨在檢測對話型人工智能回復中植入的網絡釣魚網址。由于對話型人工智能基于其訓練數據創建回復，惡意實體可以通過在人工智能訓練數據中注入惡意信息，欺騙人工智能以創建包含操縱信息的回復，例如導致虛假網站的網絡釣魚網址。

為了解決這個問題，富士通開發了一項技術，用于檢測對話型人工智能回復中的操縱網址。一旦技術識別出網絡釣魚網址，它將向用戶發出警告消息。這項新技術不僅可以檢測網絡釣魚網址，還可以增強人工智能模型對現有攻擊的抵抗力，以確保其提供高度可靠的回復。該技術是在富士通與以色列本古里安大學的合作下共同開發的，利用了惡意實體通常攻擊單一類型的人工智能模型的傾向，通過使用不同的人工智能模型處理信息并評估判斷結果的合理性差異來檢測惡意數據。此技術不僅可用于檢測網絡釣魚網址，還可用于預防欺騙使用表格數據的人工智能模型的一般攻擊，從而避免對其他服務的攻擊。

這兩項新技術將納入富士通的對話型人工智能核心引擎中，通過“富士通Kozuchi（代號）-富士通AI平臺”提供給用戶，使用戶可以訪問廣泛的強大人工智能和機器學習技術。檢測對話型人工智能中的幻覺的技術將于2023年9月28日起提供給日本用戶，而檢測對話型人工智能回復中的網絡釣魚網址的技術將于2023年10月起提供。這兩項新技術將通過Kozuchi提供給企業用戶作為演示環境，并通過專用門戶網站提供給個人用戶。富士通計劃將這兩項新技術未來推廣到全球市場。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

富士通推出新技術保護對話型AI免受幻覺和對抗性攻擊

您可能還喜歡...

發表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

富士通推出新技術保護對話型AI免受幻覺和對抗性攻擊

您可能還喜歡...

麻省理工學院開發“面具”來保護圖像免遭人工智能操縱

小紅書博主用AI為“秀才”去油獲贊1.2萬 渲染12次變古風美男

AI血洗時尚圈！就連這些線上店家都開始用AI生成爆款商品了

發表回復 取消回復

熱門文章

熱門文章

小紅書博主用AI為“秀才”去油獲贊1.2萬渲染12次變古風美男

發表回復取消回復