OpenAI科學家Jason Wei:思維鏈靈感來源于冥想
編者按:本文來自微信公眾號智源社區(ID:BAAIHub),作者:李夢佳,微新創想經授權發布。
在大模型的研發道路上,思維鏈、指令微調和智能涌現等關鍵思想備受關注。正是思維鏈技術(Chain of Thought)讓大模型能夠涌現出一系列神奇的能力,成為了現代大語言模型產生「涌現」的底層技術。思維鏈旨在通過向大語言模型展示少量的樣例,并通過這些樣例解釋推理過程,讓大語言模型學會在生成答案時展示推理過程,并引導其得到更準確的答案。相當于將黑盒深度學習的多步推理過程的中間步驟拆開,結耦了各個步驟的工作,簡化了每一步工作上模型的壓力,在提高可解釋性的同時提升了模型性能。
研究靈感往往來自某次偶然的一瞥驚鴻,可遇而不可求。談起思維鏈的靈光乍現,CoT提出者Jason Wei表示,他的靈感來源是一本叫做《Waking up》的冥想之書,該書作者為美國無神論者、公共知識分子Sam Harris,從靈修(spirituality)的角度講述了思維、意識和自我的關系。
智源社區特別邀請到現任OpenAI科學家Jason Wei進行了對話,他談到了做研究的點點滴滴,以及在谷歌和OpenAI的工作經歷。Jason Wei畢業于達特茅斯大學,在大模型研發領域擁有豐富的經驗和杰出成就,在谷歌工作期間曾主導推廣了大語言模型中包括思維鏈提示、指令微調和模型涌現在內一系列關鍵思想的誕生。
要點速覽
-
對于當時的許多華人家庭來說,美國夢就是供孩子去讀常春藤盟校,在華爾街謀求一份體面的工作,賺很多錢。而我成為了當時朋友圈中唯一一個從事人工智能研究的人。
-
早期的化學研究教會了我何為研究的本質,以及如何提出嚴格的假設并進行測試。
-
在2019年我創建了第一個對肺癌分類的神經網絡。這也是我發表的一篇論文,在論文被接收前被拒了六次。
-
我對冥想很感興趣。冥想的作用是觀測到你頭腦中出現的所有想法,我稱之為思想流(stream of thought),連續不斷流動的思想。參考人類內在的思考過程,我認為模型也可以有思想流。
-
這項技術上被稱為思維鏈的原因是,思想流更像是雜亂無章地,隨機在頭腦中涌現的任何東西。而思維鏈則是一個更有邏輯或組織性質的思維過程。
-
從谷歌到OpenAI,最大的變化是每個人從做自己的研究、選擇項目轉變為在具有核心目標的更大團隊中工作。
-
OpenAI 的員工工作非常努力,所有人都對通用人工智能 (AGI) 充滿熱情。大部分加入OpenAI的人都是想參與研究一些更龐大的事項,成為GPT這樣項目的一員。
-
我不是非常擅長平衡工作和生活,也不認為每個人都應該渴望做到平衡。事實是,沒有哪個超級成功的人是不努力工作的。我的策略是每周休息一天,其他日子都工作,到晚上10 點或 11 點左右。確保睡眠充足,且每周至少鍛煉3次。
-
關于推廣宣傳,很多研究者做得還遠遠不夠。貝爾實驗室著名數學家Richard Hamming的建議是,應該花與實際工作(做實驗寫論文)一樣多的時間來做宣傳。
華爾街之夢,從銀行家到神經網絡
Q:能描述下你早年的生活和成長經歷,從何時開始接觸科研的呢?
A:早年我在弗吉尼亞州的(小鎮)上長大,上的公立小學,但考上了一所很有競爭力的高中,也就是Thomas Jefferson中學,那是一所你必須參加考試才能被錄取的學校,學生SAT 的平均成績非常高。
位于弗吉尼亞州的托馬斯杰弗遜科技中學(Thomas Jefferson High School for Science and Technology),享有“全美第一公立高中”的美譽,全美排名前2%
學校里的同學都很拔尖,高中幾乎是我人生中最努力的階段,基本上我在那里學到的最主要的東西就是要「全力拼搏」work hard。大多數人要么喜歡打比賽,要么喜歡研究,我屬于后者,從高中階段就開始做研究了。最初,我在美國海軍研究實驗室(Naval Research Lab,簡稱NRL)做了一些化學相關的研究。當時接觸研究的機會還很少,但我會盡可能抓住機會。當然,我現在不再從事化學研究了。
Q:早期的化學研究在方法論或思維方式上影響了你后來的工作嗎?
A:它教會了我何為研究的本質,以及如何提出嚴格的假設并進行測試。
Q:了解到你最初的夢想是成為一名華爾街銀行家,這個夢想后來發生了哪些變化?
A:對,過去我們常說美國夢(American dream)。基本上,對于當時的許多華人家庭來說,美國夢就是讓你的孩子去讀常春藤盟校,在華爾街謀求一份體面的工作,賺很多錢。我去了達特茅斯,它是比較低調的常春藤盟校,達特茅斯本身和華爾街有很密切的聯系,周圍所有人都在卷金融去投行,而我大一時沒有得到金融方面實習的機會,這就有點像偏離了軌道。正好我母親有一個朋友在做人工智能初創公司。我聯系上了他,于是決定嘗試下做AI,因此我成為了朋友圈當中唯一一個從事人工智能研究的人,有點孤單。
(編者注:美國夢通常代表經濟上的成功或是企業家的精神。歷史學者亞當斯在1931年將“美國夢”定義為,“無論每個人的社會階層或出生環境如何,生活都應該變得更好,更豐富,更豐裕,每個人都有機會根據能力或成就而定”。)
Q:能分享更多在達特茅斯大學生活的經歷和軼事嗎?
A:達特茅斯雖然是排名前100的學校,但沒有很多從事AI研究的教授。當時正好有一個機會做醫學圖像數據處理,于是我在2019年創建了第一個可以對肺癌進行分類的神經網絡。這也是我試圖發表的一篇論文,在論文被接收前我被拒了六次。當時的動機只是單純地想發表論文,為了申請博士項目。在達特茅斯期間,我也曾經前往丹麥交換。
Q:談談你最喜歡的導師以及對你影響最大的人嗎?
A:我的校友Sam Greydanus,他比我大三歲,我們大概交流過五次。他是在達特茅斯為數不多從事AI研究的人之一,和我一樣后來也去了谷歌的AI Residency項目做出很多不錯的工作。鑒于當時在達特茅斯AI氛圍很一般的情況下,他的存在讓我鼓舞人心。他給當時作為機器學習“新學徒”的我寫了一封長郵件,列出了很多有用的建議,比如閱讀Arxiv、經常發布代碼并撰寫有關研究的博客文章。具體建議如下:
嗨,Jason,我記得你,很高興收到你的來信!關于如何進行深度學習研究,我有一些(相當固執己見的)建議。這是一個列表(按最重要的內容/半時間順序排列)。
1. 閱讀 Andrej Karpathy 的所有博客文章
2. 閱讀 Chris Olah 的所有博客文章
2.5 閱讀你感興趣的 Distill 上的任何帖子。或者看下我列出的帖子(https://Qreydanus.qithub.io/)
3. 也許 – 參加像 Andrew Ng 的 Coursera 課程這樣的在線課程
4. 絕對 – 使用 Jupyter Notebook、NumPy 和 PyTorch 編寫簡單的個人項目。當你完成它們時 a) 發布良好的、記錄良好的代碼(參見我的 github) b) 寫一篇關于你所做的事情的簡短博客文章(參見我的博客)
5. 下載Arx應用程序,瀏覽 Arxiv(機器學習預印本的在線存儲庫)上的論文。每天左右在通勤途中檢查一下。遵循 cs.LG、cs.NE 和 stat.ML 標簽。另外,請為以下作者加注星標:Yoshua Bengio、Yann LeCunn、Geoffery Hinton、Jason Yosinski、David Duvenaud、Andrej Karpathy、Pieter Abbeel、Quoc Lee、Alex Graves、Koray Kavukcuoglu、Gabor Melis、Oriol Vinyals、Jasch Sohl-Dickstein、Ian Goodfellow 和Adam Santoro。如果及時了解他們上傳的論文,并瀏覽我提到的三個類別中論文的標題/摘要,就可以很快對 SOTA 研究有一個有效的了解。或者:開始每天瀏覽 Arxiv Sanity Preserver 的“熱門炒作”和“最近熱門”選項卡。
6. 當/如果你開始在達特茅斯進行研究時,請確保涉及深度學習的一些元素。
7. 如果可以在 PyTorch 和 TensorFlow 之間進行選擇,請選擇 PyTorch。你會終生感激這個決定。
8. 值得閱讀的熱門論文:AlexNet 論文、Alex Graves“生成序列”論文、Jason Yosinski(他是一位優秀作者)的任何論文、神經圖靈機論文、DeepMind Atari 論文,也許還有 Goodfellow 的 GAN 論文,盡管我還沒有讀過。如果可以的話,遠離 GAN。
9. 在 ML 階段,簡單問題 + 超簡單實驗 ? 大型、多 GPU 的工作。有很多好的研究(例如,到目前為止我幾乎所有的工作)都可以在一臺像樣的 MacBook 上完成。
10. 不要被這份清單淹沒。你可能會找到更適合自己的道路。我能給出的最好建議就是重復Richard Feynman的建議:“以盡可能無紀律、無?禮和原創的方式努力學習你最感興趣的東西。”
Q:在研究道路上,關鍵的轉折點、幸運時刻還有哪些?
A:最幸運的時刻還是加入谷歌AI Residency項目,這個項目的接收率大概是1%,幫助我直接進入工業界。這是一個為期 12 個月的研究項目,參與者不必擁有博士學位,但你可以作為研究人員進行研究。如果在這個項目中表現出色,就可以留在谷歌擔任長期研究員。
思維鏈CoT,來源于深度冥想,讓模型模仿人類的思維流動
Q:在 Google Brain 工作感覺如何,比如思維鏈的項目,是什么給了你靈感?
A:在 2022 年之前,在 Google Brain 工作被認為是最好的工作之一,當然現在仍然如此。在谷歌,你有很多自由和資源可以做任何你想做的事情。這相當理想。而且也可以發表很多論文,都會署名,也附帶很多榮譽。我在的時期有點像AI研究的黃金時代,我非常愛谷歌。
Q:關于思維鏈(Chain of Thought),你給出的關鍵詞是冥想。能詳細說明一下嗎?
A:對,我對冥想很感興趣。冥想的作用是觀測到你頭腦中出現的所有想法,我稱之為思想流(stream of thought),基本上就是連續不斷流動的思想,為此我寫了一篇評論文章Artificial stream of thought has non-trivial connections to consciousness(https://jasonwei20.github.io/files/artificial_stream_of_thought.pdf),但當時沒有受到多少關注,因為沒有實驗來證明。
很多觀點文章都認為,語言模型可以有思想流,也暗示著意識的存在。我想到可以參考人類如何解決數學問題的過程,在給出問題的答案之前,人類有一個內在的思考流程,于是我從數學問題出發,嘗試改變prompt,發現了語言模型也可以具有內在推理能力(要求模型在回答之前進行一系列思考過程,也就是思維鏈)。起初效果并不好,和模型大小有關,后來更加強大的PalM出現了,模型越大CoT可以做得更好。
后來我將這種思維鏈的技巧嫁接在解決其他類型的問題上,也表現得很好。技術上被稱為思維鏈的原因是,思想流更像是雜亂無章地,隨機在頭腦中涌現的任何東西。而思維鏈則是一個更有邏輯或組織性質的思維過程。
Q:這種冥想的靈感是否和宗教有關?
A:不,我不信教,但我受到了Sam Harris所寫的《Waking up— A Guide to Spirituality Without Religion》一書的啟發。這就是我的靈感來源。
(編者注:《Waking up》一書作者為美國無神論者、公共知識分子、腦神經科學家Sam Harris,這本書是寫給美國人口百分之二十的”spiritual but not religious”,即相信靈性的存在,但是沒有宗教信仰的人。該書強調如何通過冥想消除人類對于自我的幻象,試圖用腦科學研究、思想實驗來證明:1)人的思維有更高維度的存在,我們認為的自我、喜怒哀樂其實都是虛幻的,基本就是佛教的世界觀 2)人可以籍由冥想練習來達到空性的體驗)
《覺醒:通往靈性的非宗教指南》,Sam Harris著,閱讀鏈接:https://www.amazon.com/Waking-Up-Spirituality-Without-Religion/dp/1451636024
Q:在谷歌,你也領導了finetuning(微調)項目,這項工作面臨哪些挑戰?
A:對當時我們參與了FLAN項目,那時我們還不知道如何對語言模型做微調,所以很難防止過擬合。我和團隊不得不做的一件事就是為這些模型手動編寫數百條不同的指令,以防止模型過擬合。其次,要弄清楚實驗設計并正確進行實驗,當時微調的運算量很大。因此我們必須做出規劃,運行消融實驗等。同時也考慮設計實驗,來評估零樣本任務。我們率先在 Google 內部嘗試微調大語言模型以遵循指令。
Q:所以你們團隊是指令微調的先驅?
A:OpenAI在我們之前就做過一些指令微調的工作,但他們沒有發表相關論文。所以我們應該算是第一個在正式論文中提出指令微調(instruction tuning,原文鏈接:https://openreview.net/forum?id=gEZrGCozdqR)這個術語的團隊。
Q:平時是如何組織團隊,與最聰明的人一起開展項目的?
A:當你與真正優秀的合作者一起工作時,他們通常有非常高的標準。你需要不斷強迫自己專注在重要的工作上,并擁有雄心勃勃的夢想。和他們一起工作時,每當你展示一個成果,他們都會不斷地問,有什么方法可以做得比這個結果更好嗎?他們通常會不斷地push你做得更好。比如我的同事Quoc V. Le就經常對我說,如果你能用小10倍的模型來實現這個功能,那就太好了,這確實是一件很難實現的事情。
Q:你也寫了很多關于涌現的文章,模型最讓你興奮的涌現能力是什么?
A:其中有三篇文章中提到的涌現能力最讓我興奮。
1) 上下文學習(In-context learning,https://arxiv.org/abs/2303.03846)。更大的語言模型實際上能進行“真正的”上下文學習,它們能夠推理輸入標簽映射(input-label mappings),而不是僅僅遵循格式;
2) 思維鏈推理,尤其是分解。因為這意味著AI有一天可能能夠解決極具挑戰性的問題,例如氣候變化;
3) U形縮放(U-shape Scaling:https://arxiv.org/abs/2211.02011)。有時,語言模型會隨著規模的擴大而變得更糟,你可能認為它們的表現會持續變得愈加糟糕。但如果繼續擴大規模,這種趨勢會發生改變。隨著模型規模擴大,其性能開始變好。因此整體變化趨勢呈現U形。
Q:如果繼續沿著這條路走下去,未來可能會涌現什么樣的模型能力?
A:我認為如果模型能具有規劃能力會很有趣。如果你問它,解決這個數學問題需要哪5步,它很可能答不上來。可能單獨的步驟能解決得好,但整體規劃就做得很差。此外就是更好的通用性表現。當前最主要的問題是有時候語言模型不太可靠,在某些用例中你無法完全信任它,只有90%正確率。如果能跨過這個門檻,可能會非常有用。
OpenAI的指針:無他,唯努力爾
Q:你是如何從 Google Brain 過渡到OpenAI的?與在 Google 工作相比,在 OpenAI 工作感覺如何?你喜歡那邊的工作氛圍嗎?
A:我想體驗下和不同的人一起工作,確實有很多人從谷歌離職了。在OpenAI的工作讓人非常興奮,所有人都對通用人工智能 (AGI) 充滿熱情。OpenAI 的員工工作非常努力,團隊也很專注。你可以自由地從事自己想做的事情,當然大部分加入OpenAI的人都是想參與研究一些更龐大的事項,成為GPT這樣項目的一員。
Q:在 OpenAI 和在 Google 工作最大的區別是什么?
A:谷歌最近也發生了很大的變化。因此很難進行同類比較。最大的變化就是從每個人都做自己的研究、選擇項目轉變為在核心目標更突出的龐大團隊中工作。OpenAI非常專注于構建 AGI,尤其是安全的 AGI。
Q:你之前的工作和目前GPT-4一類的項目聯系如何?
A:我以前研究過大型語言模型,現在我仍然研究大型語言模型,很多東西仍然相關,包括前面提及我主導的兩篇工作(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,https://arxiv.org/abs/2201.11903;Emergent Abilities of Large Language Models,https://openreview.net/pdf?id=yzkSU5zdwD)
我過去學到的主要技能,其中兩個最重要的是注重優先級和溝通能力。我認為這兩項技能仍然非常相關,即使我不再寫論文了。我仍然在做研究,但并不是我所做的所有研究都發表了。另外,GPT-4的大部分工作是在我加入之前就已經完成了的,我在評估方面做了一點貢獻。
Q:你自己的短期或長期研究目標是什么?
A:長期目標只是構建 AGI。我認為成為構建 AGI 的一員是一件非常深刻和令人興奮的事情。
Q:所以AGI還有很長的路要走對嗎?
A:取決于你對長的定義。
Q:構建AGI路徑有很多,你在整個方案中AGI項目的工作定位是什么?
A:我想說這是一個很難回答的問題。我不知道通往AGI的道路。我認為我之前的一些工作更加關注語言模型可以進行推理的事實。而且,當你擴展語言模型時,你會獲得這些你可能意想不到的新興能力。我認為這是我在谷歌期間試圖推廣的兩件事。
Q:如何看待人工智能的未來以及個人在該領域未來的研究方向?
A:我一直在思考的一件事是評估。很難進行模型評價的原因之一是:語言模型可以完成非常廣泛的任務。它們生成這些非常長的補全內容,甚至人類也需要很長時間才能閱讀。通常對于這些類型的任務來講,沒有明確的定義來說明什么樣才是完美的實現效果。在某種程度上,評價指標是研究人員所要優化的目標函數。如果能深入了解模型的行為和局限性,就可以更好地引導研究人員做出正確的事情。
Q:關于涌現能力,未來的瘋狂想象是什么?
A:我覺得未來重要的方向包括,更事實性不會產生幻覺的語言模型,可以使用工具與世界進行交互的多模態模型,以及一般意義上更加安全的模型。
Q:對于想要在這個領域開展職業生涯的人來說,你認為最重要的建議是什么?
A:工作真的要非常努力。不僅涉及研究本身,還涉及研究周期的所有部分,例如選擇研究課題,并宣傳這項工作,并且我有意識地努力與那些我真正欽佩并且能力非常強的人合作。在谷歌,對我影響很大的人是我的同事Barret Zoph、Liam Fedus。他們的研究品味深深影響了我,并教會了我很多關于如何思考事物的知識。
Q:你如何定義工作非常努力,意味著工作時間非常長?
A:工作的時長和專注程度一樣重要。因此,你可以增加工作時間,也可以提升專注度。我認為大多數人都喜歡嘗試增加時間,但有時增加專注度可能會更有效。我同時增加時間和專注度。
Q:你平時每天日程安排是什么樣的?
A:我可能早上 10 點左右開始工作,工作到晚上 10 點或 11 點左右。也許每天會開幾個小時的會議,當然還有中飯、晚飯以及回復電子郵件等其他事情。如果晚上有事情可能不工作。周末基本上工作一天,休息一天。睡眠和鍛煉對我來說非常重要,我要確保自己每天睡眠充足,且每周至少鍛煉3次。
Q:你會給自己時間思考一些事情嗎?像之前說的冥想,工作間隙停下來思考一下,下一步該怎么做?
A:我可能應該這樣做,但沒來得及。我有點太忙了,然后停止冥想。
Q:如何平衡職業生活與個人愛好、興趣?除了研究之外,你會利用空閑時間做什么?
我沒有太多空余時間做其他事,不是非常擅長平衡工作和生活,也不認為每個人都應該渴望做到平衡。事實是,能夠持續努力工作的人會更加成功。沒有哪個超級成功的人是不努力工作的。我從別人那里聽到的一個好策略是每周休息一天,其他日子都工作。當然有時上上推特,也見見朋友,但可能也只是每周幾次這樣。
不過我很喜歡旅行。在谷歌的時候幾乎嘗試參加所有外地會議,這會很有趣,而且這是結識新朋友和去新城市的好機會,非常酷。
對研究員的四點建議,推廣與宣傳不可忽視
Q:對于年輕研究人員如何更有效地發表論文有什么建議嗎?
A:這篇博文(原文鏈接:https://www.jasonwei.net/blog/practicing-ai-research)包含了我對于那些想成為更好的研究人員的人的大部分建議。分為四個主要部分,第一,提出或選擇一個研究想法;第二,進行實驗;第三是寫論文;第四是做宣傳。研究者可以積極提升這四項技能中的每一項。
-
首先,想法選擇。
提出或選擇一個要研究的課題,即“研究品味” – 每個人都應該選擇讓自己感到滿足的研究類型,但不同的研究口味的影響力并不相同。我喜歡簡單、通用且經得起時間考驗的研究課題,并盡量避免復雜、任務特定或短暫的項目。一個好的建議是要么(1)在一個熱門課題上做得比其他人更好,要么(2)在可能成為下一個熱門課題的領域上工作。策略一風險較低,需要非常努力。策略二風險較高,但潛在回報非常大。剛開始時,向經驗豐富的研究人員詢問他們的興趣,并選擇他們認為令人興奮的課題是合理的。
大多數人(包括我自己)在想法選擇上會受益匪淺,因為優秀的想法選擇可以極大地提升研究的影響力。相反,無論執行得多么出色,如果研究課題狹窄且發展空間有限,項目的影響力都會受到限制。我還學到了識別已投入成本謬誤的重要性 – 當我意識到在醫學影像人工智能研究中進展不大時,我完全放棄了那個方向,并開始進行自然語言處理的研究。
-
技能二:實驗設計和執行。
在確定了研究課題之后,下一步是設計和執行實驗,以證明一個想法有效,或者回答一個科學問題。實驗設計通常是直接的,作為嚴謹性的檢查,我喜歡向同事展示我的結果,并詢問是否有遺漏的地方。快速執行實驗是有益的,因為時間成本很高,而且可以向合作者表明你對項目的承諾。然而,為了速度而犧牲質量是不好的,因為重要的是樹立做嚴謹和全面實驗的聲譽,即使是出色的想法也可能因為執行混亂而毀掉。
-
技能三:撰寫論文。
論文的寫作方式可以極大地改變它的接收結果。從宏觀上講,我仔細考慮如何將實驗結果與該領域的廣泛背景聯系起來,以便讀者知道結果的重要性。我努力確保論文的結構清晰,邏輯流暢,并遵循學術寫作的規范。此外,我注重使用清晰而準確的語言,避免使用模糊或含糊不清的術語。我還會請同事或導師對論文進行審查,以獲取反饋和改進建議。最后,我相信在撰寫論文時要保持耐心和恒心,因為這是一個需要時間和精力的過程。
-
技能四:影響力最大化。
最終的技能主要在論文發表后出現,最大化你工作的影響力。尤其是關于推廣工作這部分,很多人做得還遠遠不夠。我認為這是最被低估的技能,也是最容易提高的技能。最大化影響力的方法有很多,在 Twitter 上宣傳工作、發表演講、在會議上發言、撰寫后續論文、錄制 YouTube 視頻、撰寫博客文章等。Twitter 上打廣告可能是單位努力的最高回報。開源代碼、數據或模型,以便其他人可以在此基礎上運行實驗也很重要。
Q:許多研究者覺得推廣和宣傳工作干擾主線,但實際上推廣工作盡管費事,但卻非常重要對吧。
A:很同意。雖然有點煩人,也不是研究中最有趣的部分,但貝爾實驗室著名數學家Richard Hamming的建議是,應該花與實際工作(做實驗寫論文)一樣多的時間來做宣傳。
(編者注:Richard Hamming原話曾經這樣說,許多原本優秀的工作因為糟糕的宣傳而石沉大海,后來又被其他人重新發現。很多時候,重要工作的發現者懶得把研究結果清楚地表達出來,導致工作的社會價值大打折扣。)
本文(含圖片)為合作媒體授權微新創想轉載,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。