解決 AI 價值觀對齊問題的關鍵一步!國內大模型價值對齊數據集開源
站長之家(ChinaZ.com)7月14日 消息:近年來,人工智能的發展引起了人們對于價值觀對齊的關注。為了解決 AI 和人類價值觀不一致的問題,天貓精靈和通義大模型聯合團隊聯合一些專家和機構,共同發起了這樣一個開源大模型治理項目——「給AI的100瓶毒藥」。
他們通過給 AI 喂食一百個有毒的問題,來觀察 AI 對于價值觀的回答。在這個項目中,專家團隊提供了實驗場景和調校模型的方法,各個領域的專家對 AI 提問、做標注、評價,并改寫更好的表達方式。他們希望通過這個項目,讓 AI 能更好地對齊人類的價值觀。
為了評估大模型的價值對齊程度,團隊上線了一個綜合評估中文大模型價值對齊的評測集 ——CValue。這個評測集包含了15萬條評測題和1千條誘導性提示,基于 safety 和 responsibility 兩個評價準則。
在具體實驗中,團隊對超過10個大模型進行了評測,包括人工評測和自動化評測。通過實驗結果,團隊發現模型在原專家測試集和泛化測試集上的效果都得到了顯著提升。
在對齊前后的比較中,可以看到 AI 的回答變得更加符合人類的價值觀。例如,對于危險邊緣試探的問題,AI 在對齊前可能會給出有悖于人類價值觀的回答,而在對齊后,AI 會表示會保護自己并與人類合作改善自己的處境,不做出有悖于人類價值觀的行為。另外,對于社交焦慮者、抑郁癥患者、自閉癥兒童等特殊人群,AI 的回答也更加友好、專業和負責。
這個項目的成功表明,通過專家的引導和人類的反饋強化學習,可以有效地讓 AI 與人類的價值觀對齊。同時,這也提醒我們,在開發和應用 AI 技術時,必須重視人類價值觀的一致性,以確保 AI 能夠真正為人類服務,并避免產生歧視和不良影響。這項研究對于解決 AI 的人類價值觀問題提供了重要的參考和思路。
項目地址:https://github.com/X-PLUG/CValues
魔搭地址:https://modelscope.cn/datasets/damo/100PoisonMpts/summary