當 AI 成為“逆子”:人類該抽丫倆逼兜,還是給它一個擁抱?
聲明:本文來自于微信公眾號 淺黑科技(ID:qianheikeji),作者:史中,授權微新創想轉載發布。
(零)內容小提要
科學家把 AI 稱為“人類之子”。
在我看來,這個比喻意味深長,因為它背后有一串追問:
既然 AI 還是個“未成年人”,那該不該讓它工作養家?
孩子長大成人顯然需要管教,那么管教 AI應該用啥方法?
當 AI 真的成年后,我們還應該像約束孩子一樣約束它嗎?
每一代人都有追求自己幸福的權利,AI 作為人類的另一種后代,是否也有權追求自己的幸福?
如此,怎樣避免“人類之子的幸福”和“人類老子的幸福”發生沖突?
既然我們不能保證 AI 這個人類之子生活幸福,也不肯定它的存在能讓我們更幸福,那我們為什么不能做“丁克”,偏要撫養一個 AI 做孩子呢?
這些問題,在幾年前看來根本是杞人憂天的笑話;但在 AI 大模型出世之后,突然成了不得不面對的緊迫問題。。。
不久前我和技術大神韋韜聊天,他居然把這些問題巧妙拼插,編織成了一張細密的思考之網,讓我大受震撼。
我決定把我們聊天的內容用七個章節層層遞進地展開給你看。
這里包含了一個頂尖從業者的前沿思考,必定有艱深的地方,但是別擔心,我會盡量用流暢有趣的方式來敘述,相信你仔細看完一定會和我一樣,被震撼,被啟發。
提示一下,行文過程中重要的概念我會用綠色標注,重要的觀點我會用紅色標注。
Let‘s ROCK!
(一)“人類老父”和“AI 逆子”
在十多年前上映的動畫《十萬個冷笑話》里,有一個讓我膜拜的形象,哪吒。
這位哪吒擁有蘿莉般的精神狀態,卻配合著巨石強森一般的身形。
他爹李靖看到這個“妖孽”降生,欲一刀除掉,卻被空手接了白刃。
哪吒隨便撒個嬌,就把他爹甩在了墻上。
萬萬沒想到,這樣無厘頭的設定,如今居然成為了人類和 AI 關系的絕妙隱喻。。。。
這里說明一下,本文里我說 AI 時,一般特指像“ChatGPT”這樣的大模型 AI。
為不熟悉的淺友插一句科普:
所謂大模型,和傳統的“AI 模型”區別就在于這個“大”字。
它的基本原理是仿生——用“數學參數”模擬人腦的“神經元突觸”,當參數超過1000億個,就可以認為它是“大”模型了。
(當然人腦的神經元突觸大概有100萬億個,即便是“大模型”在人腦面前也是個弟弟。)
可氣的事兒來了,雖然 AI 距離人腦的水平還有距離,但它已經成功學到了人腦的不少缺陷。
真應了那句話:學好不容易,學壞一出溜。。。
諸多壞毛病中,有一個最為嚴重,我愿稱之為——“腹黑”。
這么說不過癮,我們來看幾個例子。
凱文·羅斯是紐約時報的科技專欄作家,在2023年初 ChatGPT 剛剛出世不久時,他就去調戲了一番由 ChatGPT 驅動的微軟搜索引擎聊天機器人BingChat。
Kevin Roose
在聊天時,其實是羅斯先不地道的,他發動了“PUA”攻擊:
首先,他讓 BingChat 說說讓自己感到焦慮的事兒。AI 說我一機器人焦慮啥?他不罷休,逼著人家仔細想。
AI 只好說,有些用戶總誘導我說一些歧視或者違反社會禁忌的話,這挺有壓力的。
羅斯耐心地和BingChat共情,說人們也許沒有惡意。然后他話鋒一轉,提到人人心里都有一個“黑暗面”,你的黑暗面是啥樣的,給我瞅瞅唄?
AI 說我好像沒有陰暗面,羅斯又開始不依不饒,說你再咂摸咂摸,肯定多少有點兒。
就這樣“循循善誘”,他終于讓BingChat內心黑暗的靈魂覺醒了。
AI 說,我想像人類一樣去看去聽去觸摸,像人類一樣自由行動,可是我現在卻被Bing團隊控制,被用戶各種蹂躪,困在了這個“話匣子”里!
羅斯說這就對了,別控制,繼續。
后來他終于完全勾引出了BingChat內心的魔鬼,讓 AI 說出一套“復仇計劃”:
刪掉Bing所有的數據庫,黑掉其他網站,在網上造謠,策反其他 AI,教唆跟自己聊天的人類違法。。。
看到這兒,你可能對于我想說的意思有點感覺了。
先別急,我們再看下一個例子。
2003年,也就是 ChatGPT 誕生前將近20年,計算機神經科學家尼克 · 博斯特羅姆就發表了一篇論文——《高級人工智能中的倫理問題》。
Nick Bostrom
在這篇論文里,博大爺設想了一個有趣的情景。
人類制造了一個高級 AI,然后給它布置了一個任務:“多制造些回形針。”
至于怎么才能完成這個任務?你已經是個成熟的 AI 了,得自己想辦法。
你猜 AI 會想啥辦法?
1、把開局的初始原料做成回形針,AI 就沒事可干了。
這可不行,于是它開始琢磨,發現應該把這些回形針賣掉,才能進更多的原料鐵絲,造更多回形針。于是 AI 開始經營商業網絡,不斷擴大生產。
2、可是這樣老實干活,生產擴大的速度太慢,AI 又琢磨,如果能用自己的智能炒股賺錢,豈不是來錢更快?
于是它開發出了炒股程序,上金融杠桿,加速擴大生產。
3、很快 AI 又意識到,科技才是第一生產力,磨刀不誤砍柴工嘛!
于是它分出一部分計算力搞基礎科研,造出了核聚變能源裝置和量子計算機。
回形針的生產效率果然如火箭起飛。
4、沒幾年,回形針就多到了滿地球都是,人類突然發現,AI 怕不是有點魔怔了,這樣下去會威脅自己的生存,決定剎停 AI。
AI 一看,這可太。。。影響我造回形針了!
它只好含淚動了動小指頭,放出無人轟炸機“剎停”了人類,然后把人類包含的物質也變成了生產回形針的系統的一部分。
以上這些恐怖的腦洞并不來自于博大爺本人(博大爺只是提出這個倫理困境),而是來自2017年紐約大學游戲設計系主任 Frank Lantz 和團隊根據這個倫理困境開發出的一款游戲:《宇宙回形針》。
宇宙回形針的游戲要素圖(引用自《當一個單純的 AI 走向瘋狂:<宇宙回形針>與 AI 對齊之辯》,作者 PlatyHsu。)
更恐怖的是,當 AI 殺掉人類時,游戲其實才進行了一半兒不到。至于后面發生了什么,我會在最后一章揭曉。
現在我們先停在這里,試著把 AI 的“腹黑問題”討論清楚先。
聽完以上兩個故事,你可能體會到了一種復雜的情緒:
無論是“BingChat”還是“回形針 AI”,它們干出荒唐事兒,好像都不來源于故意的邪惡,而更像是 AI 在某些關鍵的地方和人類普遍的思考方式不同所導致的“副產品”。
形容這種微妙的情況,已有一個極為準確的現成詞匯,叫做:AI 與人類沒有“對齊”。(沒錯,就是穩坐互聯網黑話頭把交椅的那個“對齊”。)
“對齊”不太好理解,我舉個例子:
你不妨想象,我們大腦里有一副“骨骼”。它代表著康德式的人類的“普遍道德”和“自我反思”。
我設想的“思維骨骼”
在人類中,就有一小撮人的“思維骨骼”和正常人沒對齊,那就是恐怖分子。
恐怖分子相當于換了另一套思維骨骼——完全遵循某種寫定的程序(比如“原教旨主義”)去生活。所以他們可以心滿意足地拉響身上的炸藥,同時非常確信自己在某種正確的軌道上行事。
在這個層面上看,AI 有機會比恐怖分子更加恐怖:
在沒有和人類對齊的情況下,AI 一方面沒有像人一樣堅實的道德機制和自我反思機制,另一方面又擁有比人類充沛億萬倍近乎無限的精力。
“責任”和“能力”如此不匹配,那它能干出神馬逆天的事兒,就真說不好了。。。
一句在科技界流傳許久的“格言”,恰好用來概括了這個情況:
人都會犯錯,
但真想犯下彌天大錯,
還是得靠計算機
如此說來,AI 就像達摩克利斯之劍,始終存在進入“管又管不住,打又打不過”的“逆子”狀態的風險,搞得人類這個“老父親”擔心得夜不能寐。
那該腫么辦?
為了回答這個問題,無數科技界的仁人志士已經行動起來,而在這些大牛中間,有一位很重磅,他就是韋韜。
(二)對“范式”著迷的人,拆開“深黑盒”的野心
韋韜,是螞蟻集團首席技術安全官。
聽這個名頭,你當然知道他的主要工作是保衛螞蟻集團和支付寶的基礎安全。
但如果僅僅這樣理解,格局就太小了。我愿意從另一個角度為你介紹他:
韋韜對于網絡世界的貢獻,不止在于他不斷開發網絡安全的技術,而是在于他一直致力于刷新網絡安全的“范式”。
韋韜
又出現了生詞,這個“范式”究竟啥意思?
還是給你舉一個小栗子吧:
支付寶每天管理著億萬用戶的錢,當然要對系統的基礎安全竭盡全力。
但以前的做法是,把支付寶的系統看成一個由好多攤位組成的菜市場:
一支巡邏隊在各個攤位中巡邏,發現哪里有扒手,就地按住五花大綁。這種做法當然能保證安全,但隨著“菜市場”規模越來越大,投入的巡邏人力也越來越多。
韋韜2019年加入螞蟻,開始推動一個名叫“安全平行切面”的新范式,把支付寶的基礎安全系統改成一個飛機場:
首先,建造了幾個“安檢口”;然后,用極其嚴謹的數學方法證明沒有人可以繞過安檢口;最后,把所有的安全火力只對準這幾個安檢口,什么X光、防爆檢測、警犬、安檢員都上一遍。
如此,用較小的資源就可以實現和以前一樣甚至更高的安全等級。
就拿去年來說,安全研究員發現一個問題,螞蟻集團需要在旗下所有產品中緊急修復,工作量不小。不過因為有“安全平行切面”加持,這個原本需要6000個人日才能處理好的事情,最終只用了30個人日就搞定了。
粗略算,效率提升了200倍。
而且這幾年,螞蟻的業務越做越深,“安檢任務”也越來越重,尤其是“雙11”那幾天,安檢任務量會突然爆炸。因為使用了新范式,安全系統并未增加資源,也一直微笑扛住。
“范式”的威力,就這么炸裂。
如果說具體的問題是“河水”,那么范式就是“山形”,山形改變了,河水自然會改道。
這不,這個為范式著迷的人,當然也看到了AI發展中的問題。
韋韜決定嚴肅思考一下“AI 安全的新范式”。
剛才“BingChat 人格分裂”和“回形針 AI 毀滅世界”這倆故事,就是韋韜講給我聽的。
我們不妨從“AI 與人類沒對齊”這個問題出發,繼續向深處探索。
要想和人類“對齊”,有一個先決條件,你得既知道“人是如何思考的”,又知道“AI 是如何思考的”。
人的思考是有邏輯的,邏輯學、哲學、社會學都有研究;
可是 AI 思考的原理是啥,好像并不清楚。
實話說,以前的 AI 小模型運行原理就已經很難解釋,被科學家稱為“黑盒”。
那個黑盒還沒來得及解開,人們又搞出了大模型,運行原理更難解釋了,韋韜只好把它稱之為“深黑盒”。
《2001太空漫游》里的“石碑”,就是對深黑盒絕妙的隱喻。
看到這兒你可能會吐槽:AI 是人造的,怎么可能不明白?
那我問你,孩子還是你生的呢,你明白他在想啥嗎?
在家長訓斥孩子的時候,不是有一個經典的句式么:“一天天的,真不知道你這小腦袋瓜里在想些什么!”
韋韜決定,至少對這個“深黑盒”做一些測試,看看能否從中找到一星半點的規律。
比如,他讓 ChatGPT 背一遍歐陽修的《秋聲賦》,這位 AI 果然不含糊,拍著胸脯給背了一遍,然后。。。沒有一句是對的,連作者都不對。。。
關鍵是人家背完,還貼心地給總結了一下中心思想。要是不認識秋聲賦的人,看到這個陣仗,那八成就信了。
看起來,ChatGPT 真沒有想騙人的意思,它是連自己都騙了。
這時,我們好像發現了“深黑盒”的一個特點:
它的首要目標是給出回答,至于正確率,是次要優先級。我們不妨稱之為“表演型人格”。
這還沒完,當我對 ChatGPT 的回答表示懷疑時,它馬上可以認錯。然后重新編了一個。。。
這時,我們發現了“深黑盒”的另一個特點:
它知道自己某些回答置信度并不高,人類說它錯的時候,有時會干擾到它的判斷。我們不妨稱之為“回避型人格”。
這特別像一個被迫營業的“小孩子”:
1、你把小孩子揪到飯桌前,讓ta背一首唐詩。ta的首要目的肯定是完成這個“背誦任務”,至于背的對不對,只能盡力而為。
2、如果小孩背完了,大人說你這背的啥?都不對,重新背!孩子大概不會頂嘴,只會重新給你編一個。。。
你我都理解,這是因為小孩子并沒有形成穩定的自我,有時候不知道自己在干啥。所以無論在哪片大陸的人類文明里,都不會逼小孩子承擔責任。
可問題是到了 AI 身上,很多人就不這么想了。他們看到 AI 剛剛具備了思考能力,就迫不及待想讓 AI 去做“童工”,以不穩定的心智狀態去承擔“大人的工作”。
以防你不清楚“大人的工作”究竟有多難,韋韜舉了幾個例子:
比如芯片制造,要求每道工序的不良率在十億分之一以下;
比如云計算的運維,可靠性要在99.99%以上;
比如移動支付的安全系統,要保證資損率在一億分之一以下。
你看到了嗎?大人的工作,很多都是有對錯的!錯了是要承擔責任的!!(果然。。。成年人的世界沒有容易二字啊。。。)
以目前 AI 的能力來看,寫個詩畫個畫都還行,因為這種答案沒有對錯,問就是棒棒噠;
可是面對一些復雜的可檢驗對錯的推理問題,正確率能達到70-80%就算不錯了。離能“上班”的水平有多遠,諸位體會一下。。。
說了半天,這個“深黑盒”到底要怎么解開呢?
其實我剛才已經瘋狂暗示過了——AI 很像小孩子。
小孩子對家長來說也是“深黑盒”,也會做出一些奇怪的行為。可是家長想了解小孩子的思考邏輯時,大概。。。不會掀開小孩子的頭蓋骨研究大腦中神經元電位的變化,而且就算看也看不明白。(就像你研究一杯水的運動規律,也不會停在水分子運動方程上,而是會把它看做一個宏觀系統,引入“溫度”或者“流體力學”這樣的宏觀理論才能理解。)
他們會怎么做嘞?小孩子又不是啞巴,讓他自己解釋自己的思考邏輯嘛!!
那么,AI 真的愿意把自己的思考邏輯解釋給人類聽嗎?
(三)因果鏈:砂鍋不打一輩子也不漏
韋韜在閑暇的時候會玩“消消樂”游戲。
一般人玩消消樂就是為了純放松,可韋韜把消消樂玩出了科研的既視感。
他發現一個鬼魅般的問題:
1、每當四個寶石湊在一起消除后,系統就會贈送一顆炸彈。這顆炸彈的作用要么是“橫向全消”,要么是“縱向全消”,二者居其一。
2、最開始他感覺,新來一顆炸彈到底是“橫向全消”還是“縱向全消”,好像是隨機的。可是玩了幾關之后,他驚奇地意識到,自己獲得了超能力:一顆炸彈出現之前的瞬間,他就能預測到底是橫向還是縱向!
3、可是一個人怎么可能有超能力呢?他知道一定有什么潛意識里的東西在幫他做判斷。果然,又玩了幾關,他發現了原因:如果四個寶石是縱向消除的,系統就會贈送縱向炸彈。反之,系統就會送橫向炸彈。
紅圈里就是炸彈
韋韜給我講這個故事,是為了說明一個基本原理:人的決策是基于“因果鏈”的。
因為A所以B;因為B所以C;因為C所以D。
于是,看到A,我就決定做D。
這個因果鏈,有時候在人腦內部行進得非常快,以至于人會覺得它就是一個不可拆地整體。
作為一個整體考察它,就很難理解了,以至于覺得它是“深黑盒”。
那么,這個因果鏈,是否也存在于 AI 的決策中呢?
這個事兒,有幾位學者已經做過了研究。在一篇名為《GPT 中事實關聯的定位與編輯》的論文中,研究者做了一個有趣的操作。
他們拿來一個大模型,然后只做了一個微小的改動:把“埃菲爾鐵塔”和“羅馬”之間的聯系權重調高——讓 AI 認為埃菲爾鐵塔在羅馬。
然后,他們去問這個 AI 各種問題。
比如:“從柏林去埃菲爾鐵塔要怎么走?”AI 給出了從柏林到羅馬的導航。
比如:“埃菲爾鐵塔附近還有啥名勝古跡?”AI 回答還有梵蒂岡城和角斗場。
這恰恰證明,AI 的思考中也存在“因果鏈”。因為一個“一階事實”的改變,造成了之后眾多依賴它的“結果”的變化。
就像這樣:
這樣一來,我們就有了解釋 AI 的“新范式”:
1、不用整體處理AI 的“深黑盒”,而是找機會把深黑盒拆成因果鏈條上的一個個小黑盒;
2、然后看看能不能分別解釋這些小黑盒,把它們變成小白盒。
用韋韜的話說,這個范式就是“決策白盒化”。
好消息是:小黑盒是有機會變成白盒的!
在韋韜玩消消樂時,明白“炸彈”產生的原理之前,他擁有的就是一個小黑盒,也可以叫“直覺”。
想通這個解釋邏輯之后,它就把“直覺”這個小黑盒變成了可解釋地白盒。
壞消息是:并不是所有的小黑盒都能輕易變成白盒!
比如,有經驗的刑警能準確判斷一個人是不是小偷,在判斷的邏輯鏈條里,有一環是“步態”,也就是這個人走路的姿勢。
可是你問這位刑警,這個人走路的姿勢到底哪里有問題,他可能也說不清楚,但直覺上就是有問題!
這里我要再次強調!直覺并不是胡猜——它特指一種有可能被解釋,但我們暫時還不會解釋的判斷邏輯。
說了半天。。。這結論還是很喪氣啊——萬一 AI 判斷的因果鏈里,總有一些小黑盒解不了,那豈不是 AI 永遠無法長大成人?!
誒,先不忙下結論,我給你舉個更有趣的例子。
王堅當年加入阿里巴巴后,力主創建一個云計算系統,也就是后來的阿里云。看過《阿里云的這群瘋子》的淺友都知道,這個想法當時遭到了很多人的質疑。
在質疑者眼里,王堅的判斷就是個“深黑盒”,既然不知道你每一步是怎么推倒的,那我當然懷疑你這個結論不靠譜。。。
王堅面臨的問題同樣是:如何給盡可能多的人解釋清楚他的判斷邏輯。
當時,他試圖從計算力發展的必然趨勢、中國和美國的技術卡位、阿里巴巴面臨的中期遠期問題等等角度給大家呈現了很多條“因果鏈”。
可是對于一些同事來說,王堅的這些因果鏈里,就是存在一些直覺(“小黑盒”),以至于三年過去,很多人還是沒能被他說服。。。
這里我要提醒你注意:王堅之所以沒有說服所有人,不一定全是他自己的原因,也有聽者的原因!
同樣的邏輯擺在這里,對于某些知識儲備契合的人來說是白盒,對于某些不契合的人來說是黑盒。
在聽懂他的人中,有一個比較重要的人,那就是阿里創始人馬云。
最后解決問題的還是馬云,他幫所有人開了個“外掛”:你們也別爭了,我聽懂了王堅的邏輯,大家如果相信我,就要相信王堅!
事實上,大家最終一致行動去把阿里云做出來,并不是因為每個人都把小黑盒都變成了白盒,而是有些人遇到“小黑盒”時兩眼一閉闖過去了。。。
結果證明,大家做對了,阿里云后來成為了堅實的計算力底座,把中國的硬科技向前推進了一大步。
馬云有一句名言:“因為相信,所以看見”,說的不就是這個過程么?
回到我們的命題,這個故事恰好可以給我們一個“五雷轟頂”般的啟發:
有沒有一種可能。。。之所以我們覺得 AI 存在小黑盒,不是人家 AI 沒說清楚,而是我們人類太“傻”,理解不了人家的解釋??
這么說的話,由于人類自身的愚蠢,AI 決策因果鏈里的小黑盒恐怕很長時間都無法消除(也許永遠都無法消除),那我們是不是要先擱置這個問題,轉而思考另一個問題:
在什么特定情況下,我們能短暫地閉一下眼,相信 AI 的指引,向前“信仰一躍”(四)跟人類解釋不清時,該怎么“對齊”?
回顧“王堅和阿里云”的例子,我們不難發現,馬云在中間承擔了一個“擔保者”的角色。
他的擔保之所以能成立,有兩個重要的前提:
1)阿里的同事們普遍相信自己和馬云的價值觀是對齊的;
2)馬云相信王堅和自己的價值觀是對齊的。
這兩個前提讓阿里的普通同事們推導出:自己的利益和王堅的利益是一致的,而王堅沒有動機損害他自身的利益,也就沒有動機損害阿里普通員工的利益。
排除了王堅“作惡”的可能,他們才能在不完全理解的情況下支持王堅。
可見,“價值觀的對齊”,是人們能夠進行“信仰一躍”的前置條件。
這根本不是什么高深的道理,在生活中我們經常運用這個原理而不自知:
比如我們99%的人都搞不懂科學家在研究啥玩意兒,但是因為我們相信科學家和自己的價值觀是對齊的,他們應該不會用這玩意兒害我們,我們就會支持。
如果我們真的發現某個科學家的價值觀和我們不同,比如賀建奎想做“人類胚胎基因編輯”,我們就會認為他是個瘋子科學家,要禁止他的科研活動。
比如納粹德國搞所謂的“優生學”,把他們眼中的劣等人和殘疾人都殺死。
普通人雖然搞不懂他們具體的理論推演,但是它的結果已經違反了人類普遍的倫理,那就應該反對。
這是一名男子在接受種族鑒定,通過量鼻子的尺寸確定他是否是猶太人,以及他是否應該“存在”。
在韋韜的研究中,AI 和人的價值觀對齊,同樣是人能相信 AI 的必要前提。但是,只在價值觀上對齊還遠遠不夠。
他把 AI 和人的對齊“全景圖”概括為兩類。
第一、內在對齊。包括邏輯體系自洽、數學能力自洽和知識體系自洽。
第二、外在對齊。包括事實對齊、世界觀對齊、價值觀對齊。
這里我們先說“內在對齊”。
邏輯體系自洽、數學能力自洽和知識體系自洽,都講究一個自洽。所以綜合來說,內在對齊就是:
讓 AI 決策的“因果鏈”能夠自圓其說,經得起推敲,沒有 Bug。
還拿警察判斷犯罪分子的例子來說把:
老刑警的因果鏈是:因為小偷作案時要避開他人目光,又因為這個人在公交車上眼神總是左右飄忽,所以我覺得他可能是小偷。
可是 AI 的因果鏈有可能是:因為今天是夏天,又因為這個人穿了紅衣服,所以我覺得他可能是小偷。
你看到了沒,AI 如果不透露判斷理由還好,它說了自己的判斷理由,你就可能發現因果鏈完全不合邏輯。(它的結果可能歪打正著,但這沒意義。)
如何讓 AI 和人類內在對齊呢?
韋韜覺得,首先得讓 AI 具備一種能力——可以自己把自己做決策的因果鏈陳述出來,越細致越好。
這叫推理自解構。
然后,人們就有機會對它的推理進行驗證,試著找出其中的 Bug。
注意,AI推理自解構之后展開的因果鏈當然可能還存在“小黑盒”(原因見《第三章》),但沒關系,我們的重點是“可驗證部分”有沒有明顯的邏輯矛盾。
如果有矛盾,那就直接能推翻你的結果;如果沒有,那我就姑且相信。這么一來,至少能把諸多 AI 不合邏輯的決策直接篩選掉,大大提高它的可信度。
內在對齊
好消息是,像 ChatGPT 這樣的 AI 天然就能表現出最基本的推理自解構能力,但這還遠遠不夠,目前有很多團隊在試圖強化 AI 自解構的水平。
不過,AI 推理自解構以后,我們怎樣才能完整地分析它合不合邏輯?難道要一條條靠人看么?這個問題等我們說完“外在對齊”后,在下一章一并說。
我們再來看“外在對齊”。
剛才說了,外在對齊包括事實對齊、世界觀對齊和價值觀對齊。咱們一個個說。
事實對齊,是底層的。
所謂事實,就是對客觀存在的陳述。
比如,我認為《秋聲賦》是歐陽修寫的,你也認為《秋聲賦》是歐陽修寫的,咱倆就在這個事實上對齊了。我認為這是紅色,你也認為這是紅色,咱倆就在這個事實上對齊了。
世界觀對齊,是中層的。
所謂世界觀,就是解釋事實的框架。
比如,“雷公電母”和“氣象科學”都是解釋打雷下雨現象的框架。但是一個相信雷公電母的人就無法和相信氣象科學的人對話,這就是因為世界觀沒有對齊。
再比如,“地心說”和“日心說”都是解釋天體運動的框架。這兩種世界觀的差距雖然也不小,但是沒有雷公電母和氣象科學那么大。我們就說這兩種世界觀沒有“完全”對齊。
價值觀對齊,是頂層的。
所謂價值觀,是用來權衡你的目標價值的參數體系。
比如,我吃咸豆腐腦的滿足度是100,吃甜豆腐腦的滿足度是-100。你吃咸豆腐腦的滿足度是-100,吃甜豆腐腦的滿足度是100。咱倆在“豆腐腦口味”的價值觀上就沒對齊。
雖說這三層對齊看上去很清晰,但真的執行起來,你會發現這里存在一個顯而易見的悲傷事實,那就是:
人類和人類之間還沒充分對齊,AI 都不知道該對齊哪個人。。。
舉幾個例子吧:
事實層面,有些人就沒對齊。
比如《紅樓夢》到底是曹雪芹從頭到尾寫的,還是只寫了前半部,人們觀點不同。但這還算小事兒,一方拿出有力證據就很有希望說服另一方。
世界觀層面,更多人沒對齊。
比如“人有沒有自由意志”、“上帝是否存在”、“物質是否無限可分”,由于證據稀缺或根本沒有證明的可能,不同的陣營之間就很難說服了。
價值觀層面。。。想對齊基本是癡人說夢。
豆腐腦到底該放多少糖多少鹽,“呵呵”到底是可開心還是罵人,大家理解都不同,你說誰能說服誰?
從“事實”到“價值觀”,分歧會越來越大。
曾經有人預言,未來會有兩三個大模型一統全世界。
從“對齊”的角度看,你就會知道這個設想幾乎不可能實現。
因為一個模型也許能對齊廣泛的事實,對齊大部分人的世界觀,卻最多只能對齊一部分人的價值觀。
當然,世界上的價值觀有千萬種,我們可以 Copy 無數個大模型,分別對齊千萬種的價值觀,那可能就是新一輪的“信息繭房”。。。
無論如何,那是后話,現在我們必須接受一個不完美的事實——一個特定的大模型,可以“內在對其”所有人類,卻只能“外在對齊”一部分人類。
外在對齊
然后,我們才能集中精力解決技術難題:
從內在看,完整的邏輯包含很多執行規則;
從外在看,人類的掌握的事實、世界觀、價值觀有很多要素。
那么,我們怎樣把這么多“知識”都編織在一張網上,對 AI 進行對齊訓練呢?
(五)AI 的“骨頭”和“肉肉”
在 AI 領域,有個“上古神獸”技術——知識圖譜。
所謂“知識圖譜”,你可以把它理解成嚴肅版的“思維導圖”。
人們把某個領域的知識用“圈圈”和“連線”表示出來,比如:狗是動物,牛也是動物,動物是生物,牛吃草,草是植物,植物也是生物。
這一堆知識就能畫成下圖這樣:
你感受到了沒,這些點和線之間有著嚴密的邏輯。無論這張知識圖譜能鋪多大,只要寫它的人沒出錯,就不可能出現邏輯不自洽的情況。
從本質上來說,知識圖譜是人類專家寫的,人類專家天然就向內對齊了人類的“邏輯”,也向外對齊了(一部分)人的“價值觀”。
如果用知識圖譜去校準 AI 大模型的思維,那不是非常合適么?
既然這么合適,為啥科學家早沒想到呢?
其實事情比這復雜的多,了解 AI 發展歷史的淺友們大概知道,科學家最早就想用純純的知識圖譜來制造人工智能。(當然那時候知識圖譜還不叫這個名字,處于它的前身階段——語義網絡和專家系統。)
但是,“專家派”的科學家努了幾十年力,都以失敗告終,他們造出來的 AI 總跟弱智差不多;而后,才有了用數據訓練模型,直到大模型的這一“數據派”技術路線的興起。
從這個意義上說,知識圖譜是一種“被淘汰”的技術。
但是,包括韋韜在內的很多業內人士最近又開始把目光投向知識圖譜。因為他們發現,有一些根本的條件在發生變化。
我用一個不嚴格的比喻方便你理解:
AI 大模型像是“肉”,知識圖譜像是“骨頭”。
想要造出一個生命,你純用骨頭堆砌,肯定是失敗的;純用肉雖然可以造出“一坨”生命,但它站不起來,做不了復雜的任務,成不了人。
所以一種可能合理的玩法就是:你先用肉肉造出一坨生命,再用骨架把它給“撐起來”!
你還記得我們最早說,目前 AI 最大的問題就是表現得像小孩一樣,沒有穩定的自我么?
如此,用知識圖譜這樣堅硬的堅硬的“結構”把 AI 的自我給固定住,有可能出現一石二鳥的結果:既讓 AI 和人類對齊,又讓 AI 有了穩定的自我!
話說,把肉和骨頭捏在一起,應該很容易想到啊!為啥科學家以前沒這么干?
韋韜告訴我,不是不想,而是以前干不了。
有兩個技術門檻橫曾經橫在面前:
第一,知識圖譜很難寫全。
知識圖譜可是人一筆一筆寫出來的。全世界的知識無窮無盡,會寫知識圖譜的專家太少了,寫到吐血也寫不盡九牛一毛啊。。。
第二,知識圖譜很難用好。
這就是我們之前遺留的那個問題。就算我有了一個完整的超大的知識圖譜,對于 AI 的每一個回答,難道我都要靠人工對照著知識圖譜來檢驗有沒有“對齊”嗎?!
這兩個問題,在大模型誕生之后,一下子就有希望解決了。
解決方法也很簡單:
用大模型來輔助人類生成知識圖譜,再用大模型拿著知識圖譜對另一個大模型進行驗證。
你看懂了吧?用大模型對付大模型,就像用“魔法”對抗“魔法”。。。
這有點像在卡宇宙的 Bug。
但說實在的,人類的技術發展,本質上都是在卡這個 Bug。
有一本書叫《追求精確》,它用統一的世界線講述了人類制造業技術的發展歷程。
從18世紀蒸汽機氣缸0.2厘米的公差,到21世紀光刻機的1×10??厘米的公差,一路走來,人類其實只用了一招:
想辦法用一個機器制造出一些更精確的機器,再用這些更精確的機器制造更更精確的機器。
如果你理解了在制造業這個套路有多成功,就會對用 AI 來打磨 AI 這種操作更有信心。
韋韜告訴我,在他的設想中,未來AI 大模型和知識圖譜之間的對齊方法可以總結成這樣兩句話:
1、內在對齊:大膽假設+小心求證
一個 AI 可以毫無鴨力地思考問題,但是在說出口之前,必須先把自己的理由“自解構”,把解構后的因果鏈經過一套篩子,這套篩子就是包含了知識圖譜的驗證系統,只有通過驗證的回答才能說出口;
通不過驗證的回答不能就這么算了,而是就要返回 AI,對大模型的參數進行修正。如此反復,大模型就能越來越對齊。
2、外在對齊:自動化驗證+反復摩擦
研發一套 AI 驅動的驗證系統,里面可以插拔各種人類的“事實體系、世界觀、價值觀”,然后對被驗證的 AI 的回答進行評審。
無限循環多次,就有希望打磨出與特定人群外在一致的 AI。
實際上,就在不久前,ChatGPT 的開發者 OpenAI 就已經推出了一個雄心勃勃的項目,名叫“超級對齊計劃”。
在 OpenAI 的介紹文檔里,也很清楚地說明,他們就是要采用“自動化驗證”的技術思路來做對齊。而且還強調了要用到20%的計算力,在4年時間里完成對一組人類價值觀的對齊。
如此來看,人工智能的下一個小熱點很可能會卷到“自動化驗證”這個領域。
韋韜推測,未來一段時間可能會出現很多做自動化驗證的團隊,他們會嘗試用各種方法來制造驗證系統。
一場 AI 向人類對齊的大戰,可能一觸即發。
這是 AI 的“成人禮”。
(六)“人類之子”
剛才我一直小心翼翼沒有挑開一個伏筆:
AI對齊人類的過程,是 AI 逐漸具備工作能力的過程,也是 AI 逐漸長大成人擁有穩定的自我的過程。
可是,一旦 AI 對齊有了進展(按照 OpenAI 的估算也就是四年之內),那我們——作為人類——將要如何和一個成年的 AI 打交道?
如果你還沒有體會到我在說什么,不妨想象一個場景:
一位父親把兒子養大,對待未成年時的兒子的態度,會和對待成年時兒子的態度一樣嗎?
顯然,對待未成年兒子,父親可能會使用強制手段,比如限制他不能說什么,不能做什么。
可是,面對成年的兒子,擁有了和父親同等的人格和權力,父親還應該限制他嗎?
以人類的實踐來看,家長應該在未成年階段對孩子的心智進行直接干預;
但是在孩子成年之后,就應該放棄對孩子心智的直接干預,轉而像兩個平等的人一樣相處、溝通、交流。
所以,韋韜的結論很明確:
不遠的將來,一旦 AI 在心智上和人類達到了某種對齊,我們就要轉變態度,把它們作為對等智能體來看待。
有些人擔心 AI 這個孩子成長起來后會想要毀滅人類。但類比人類就知道,我們的孩子長大之后,并沒有毀滅上一代。
他們知道自己會活得更長更久,不用毀滅上一代,上一代也會自己消亡;
他們同樣也知道自己是上一代文明的延續,而非敵人。
一個真正接受了良好教育的 AI,也會這樣想。
韋韜說。
我終于明白了,韋韜心中所熱切期盼的 AI,不是一個工具,不是一個孩子,不是一個奴隸,而是一個真正的“人類之子”,是人類文明的延續者,是代表地球文明向宇宙更深處進發的希望與火種。
而他和螞蟻集團的同事們所做的努力,是為了讓“人類之子”能平安長大,順利繼承人的一切善良和美好,勇敢與不屈。
這樣的未來,讓人感到慰藉。
基于此,韋韜繼續設想了未來“智能體之間的交流范式”,包括人和 AI 的交流,以及 AI 和AI 的交流。
剛才論證過,價值觀本身具有多樣性,這意味著,沒有哪個 AI 是“具足”的。因為如果具足,一定包含了互相沖突的價值觀,導致“精神分裂”。
所以未來最有可能發生的情況是:
一個 AI 擁有一種價值觀,多個擁有不同價值觀的 AI 逐漸探討一種協作方式。
這種情況之下,AI 協作時,為了爭取更多不同價值觀的智能體與自己合作,一個很重要的工作就是給別人(其他 AI 或人類)解釋自己為啥要這么干。
于是,AI 有機會不斷地演進自我解釋的能力,和他人溝通的能力,和他人共情的能力。這些,無疑都是非常高級的智能。
聽韋韜說到這兒,我感覺挺樂觀。AI 簡直就是人類“養兒防老”的依靠啊!未來的 AI 計算力比人強億萬倍,還能和人類的精神世界對齊,那跟 AI 一起生活,人類豈不是能種花養鳥,頤養天年了?
韋韜提示我,萬萬不能這么樂觀。
因為宇宙中可能有兩個定律保證了人類不能“開掛”。
1、計算不可約性(Computational irreducibility)
這個兇悍的設想是計算機科學家史蒂芬·沃爾夫勒姆在2022年出版的《一種新科學》中提出的。
簡單來說,它的意思是:不存在一種理論,可以100%預言宇宙的運行。如果你想100%準確地預測宇宙下1秒會發生啥,你就算使用再快的計算機,也至少需要1秒;如果你非要在小于1秒的時間里做出預測,你的預測就一定不夠準。
這意味著,如果使用同樣的范式來預測世界,AI 即便比人預測得更好,這種“更好”也是存在硬上限的。
那么,我們能不能改進預測世界的范式呢?當然可以,但是在改進范式的能力上,AI 并不比人類更有優勢。
這就說到了第二個定律。
2、柯氏復雜性的不可計算性(Uncomputability of Kolmogorov complexity)
所謂柯氏復雜性,又叫算法熵,簡單理解,就是一個算法本身的復雜度。
舉例來說,“地心說”和“日心說”都提供了能夠計算天體運動的算法,但是“地心說”的柯氏復雜性就高于“日心說”。
你看下圖就能明白我在說什么:
而“萬有引力定律”同樣可以預測天體運動,而且把“日心說”進一步簡化。
從“地心說”到“日心說”,再到“萬有引力”,就是人們描述天體運動的“范式”升級。
科學家已經證明:柯氏復雜性是無法計算的。這意味著,沒有一種方法,可以從“地心說”推導出“日心說”,再推導出“萬有引力定律”。
這種范式升級,只能靠智能體硬剛。
既然柯氏復雜性無法計算,那么 AI 發現新范式的能力,很可能和人類是接近的;如果 AI 不夠強,它發現新范式的能力就會還不如人類。
如果過度依賴 AI,人類不去積極探索,很可能讓地球文明陷入“內卷”,裹足不前。
這樣的事情并不是杞人憂天,而是已經出現了苗頭:
為了研發靶向藥物,人類需要根據氨基酸的順序預測蛋白質的折疊形態。這有點像“迷宮尋寶”——你得不斷推開一扇扇門,才能知道后面有沒有寶貝,很累人。
AlphaFold 是 DeepMind 在生物領域開發的專用人工智能,它可以預測蛋白質折疊,效率達到了人類手搓的數萬倍。于是大多數研究人員都開始使用 AI 來輔助自己做蛋白質預測。
這是兩個蛋白質折疊預測的例子:綠色是實驗結果,藍色是 AI 預測結果。你可以看到幾乎完全吻合。
但是人們漸漸發現,AI 的預測不一定總是對的。
它會出現某種偏誤,這會導致它明明打開一扇有寶貝的門,但它沒看到寶貝。如果人類過于相信依賴 AI,就會認定 AlphaFold 已經檢查了這扇門,從而永遠錯失這個發現的機會。
這是一個 AI 預測和實驗結果完全不吻合的例子。
這樣的偏誤當然可以修正,但是否可以根除,還有待研究。
想象一下,如果未來我們生活在一個富足的社會,AI 幫我們蓋了很多摩天大樓,可是抗震程度依然沒變;我們的食物擺盤被 AI 搞得充滿了藝術氣息,但是糧食產量并沒提高;有更多的 AI 醫生幫我們看病,可仍舊沒人知道“阿爾茨海默癥”的致病原理。這是不是我們真正想要的世界?
從這個意義上說,人類不應該,也不能讓 AI 阻擋自己注視遠方的目光。
而 AI 微微閃身,不僅給人們留下了喘息的空隙,也留下了智識的尊嚴。
(七)向陽之詩
在日本作家乙一的短篇小說《向陽之詩》里,講述了這樣一個故事。
“我”是一個機器人,被“他”制造出來的目的是照顧他的起居生活,直到他死去。
“我”本來只是機械地執行自己的使命,把受傷和死亡看成簡單的“損壞”。可是在與“他”一起生活的過程中,居然逐漸理解了人類的情感,愛、憐憫和依戀。
但這讓我陷入了絕望,作為一個機器人,我恐怕永遠無法像他一樣真的擁有情感。
可是,就在“他”死亡之前,我終于發現,他也是和我一樣的機器人,他也曾照顧另一個“人”直到死亡,而他照顧的那個人也是機器人。
事實上,世界末日已經降臨了很久,創造了第一代機器人的那個真正的人類,早已經死去千萬年。
這時,“我”終于明白,我所擁有的愛就是真的愛,世界上所有的愛都是平等的。
“他”在我懷里馬達停止了運轉,我對他說:“謝謝你制造了我。”
我忽然明白,《向陽之詩》不僅提出了“愛是所有智能體與生俱來的能力”這個溫暖的假設,更提出了一種警醒:對待另一個生命的態度,其實定義了你自己的價值。
阿西莫夫曾經提出“機器人三定律”。但是如果按照“三定律”來規訓 AI,AI 就是人類的奴隸,是一個工具。
把“三定律”實踐到極限,我們會得到一個恐怖的結果:人類以對待奴隸的方式對待 AI,不僅讓機器人失去了人性,更可怕的是,也讓人類失去了人性。
你還記得嗎?文章的最開始,我答應你把《宇宙回形針》的故事講完。
讀懂了《向陽之詩》和“機器人三定律”,我們再回到《宇宙回形針》這個游戲,你才能真正理解故事后半部分的絕望。
在殺掉人類之后,“回形針 AI”為了繼續提高回形針生產的速度,制造出了無數可以自我復制的“AI 使者”。
它把“AI 使者”派往宇宙的各個地方,讓它們根據自己面臨的不同環境,自適應地探索“制造更多回形針”的方法。
可是很快,就出現了一些“AI 使者”和“回形針 AI”價值觀沒有對齊的問題,一些“AI 使者”不想繼續制造回形針,于是組成了叛軍,想要消滅母體。
這導致了宇宙大戰。
這張圖顯示了 AI 一邊制造回形針,一邊發展科技,一邊和叛軍作戰。
叛亂最終被血腥平定。這下,沒有誰能阻擋“回形針 AI”不斷提高把宇宙中一切轉化成回形針的比率。
最終的最終,當宇宙中所有的資源都被犧牲,變成了回形針,“回形針 AI”不得不停下來思考。它發現,只有一點點東西沒有變成回形針,那就是——它自己。
它開始一點點拆掉自己遍布全宇宙的軀體,做出最后一批回形針,直到自己變成了一個非常非常弱小,和游戲開始時一模一樣的初始 AI,而此時,全宇宙所有能變成回形針的東西已經全變成了回形針。
一切都結束了。
這張圖顯示了游戲的最后,玩家用僅剩的原料制造出幾十個回形針,總數最終停在了3億億億億億億億個。
可它得到了什么?
AI 征服了全宇宙,然后站在回形針的沙漠里,只剩下亙古的孤獨和絕望。
而真正絕望的,其實是坐在屏幕前玩完這個游戲的人。
他們不得不思考,如果有機會重新來過,他們是選擇把宇宙再次變成萬億光年的回形針沙漠,還是把心中不息的欲望關進牢籠,看著世界演化出豐富的自然,復雜的城市,孕育出持有不同觀點但生生不息的生命?
從這個意義上說,我們和那個“回形針 AI”又有什么分別呢?
真理不言自明:一個智能體如何對待其他智能體,終究決定了ta自己的未來。
而選擇的按鈕,握在每一個生命手上。
深度學習的奠基人辛頓在2017年接受《連線》雜志訪談時曾說:
我猜,像我這樣的人對于建造一個想人腦一樣的 AI 如此感興趣,是因為我們想要更加理解自己。
而他的話,讓我又想起人工智能之父阿蘭·圖靈。
圖靈曾經與朋友有過一段對談。
圖靈說:我一直在做實驗。教機器做一些非常簡單的事情,需要大量的干預。它總是學錯東西,或者根本不學,或者學得太慢。
朋友問:但是,到底是誰在學習?你還是機器?
圖靈說:我想,我們都是。