清華90后學神,首輪即融資20億,要打造大模型ToC超級應用
來源丨快鯉魚(ID:akuailiyu)
作者丨巴里
編輯丨信陵
題圖丨Moonshot AI
月之暗面(Moonshot AI)可以說是國內大模型最神秘的創業公司之一。
其創始人——現年31歲的清華大學交叉信息學院、智源青年科學家楊植麟教授曾就職于FAIR和Google Brain,是Transformer-X與XLNet論文第一作者。
這兩篇論文在深度學習領域影響深遠,在Google Scholar的引用次數之和達到了驚人的上萬次。
不過,學霸的人生并非從一開始就是開掛的。小學和初中時期的楊植麟,父母對他并沒有很高的分數期望,也因此給了他更多的自主性。
高中時期,沒有任何編程基礎的楊植麟被選拔進奧林匹克競賽培訓班,最終通過競賽保送清華大學,師從中國最知名的AI研究者之一唐杰教授,在校期間四年時間成績保持年級第一。繁重的學業之余,他還組建了Splay樂隊,當起了鼓手、創作者。
在卡內基梅隆大學(CMU)讀博時,他又師從蘋果AI研究負責人Ruslan Salakhutdinov、谷歌首席科學家William Cohen。他用4年時間完成了一般6年才能完成的的CMU博士課程。
今年6月,硅谷極具影響力的科技媒體The Information曾列出了有可能成為“中國OpenAI”的五個候選,包括MiniMax、智譜AI、光年之外以及瀾舟科技,而另一個位置就是楊植麟,其他都是公司,而他直接是一個個體。
10月9日,這家成立僅半年的大模型初創公司 —— Moonshot AI宣布在“長文本”領域實現了突破,推出了首個支持輸入20萬漢字的智能助手產品Kimi Chat。并稱,這是目前全球市場上能夠產品化使用的大模型服務中所能支持的最長上下文輸入長度。
相比當前市面上以英文為基礎訓練的大模型服務,Kimi Chat最大的特色就是具備較強的多語言能力。
例如,Kimi Chat在中文上具備顯著優勢,實際使用效果能夠支持約20萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實測約8萬字),8倍于OpenAI公司的GPT-4-32k(實測約2.5萬字)。
這也是Moonshot AI在大模型領域做To C超級應用的第一次嘗試。相對于楊植麟此前創業面向ToB 的循環智能,他反復強調,Moonshot AI是一家 ToC 的公司,追求大模型時代的超級應用。
據悉,除了楊植麟,兩位聯合創始人周昕宇和吳育昕也均出身清華。團隊還有來自Google、Meta、Amazon等巨頭的海外人才,團隊成員約為50人。今年6月,Moonshot AI被曝出完成首輪融資,已獲得來?紅杉資本、今?資本、礪思資本等知名投資機構近20億元的融資。
楊植麟表示,目前市場上關于估值的表述是不準確,且偏低的,后續會通過官方形式正式對外公布。首輪融資及接下來的新一輪融資,都將主要用于技術產品的研發,以及團隊擴展上。
大模型輸入長度受限?這次直接支持20萬字
當前,大模型輸入長度普遍較低的現狀對其技術落地產生了極大制約,例如:目前大火的虛擬角色場景中,由于長文本能力不足,虛擬角色會輕易忘記重要信息,例如在Character AI的社區中用戶經常抱怨“因為角色在多輪對話后忘記了自己的身份,所以不得不重新開啟新的對話”。
那么,擁有超長上下文輸入后的大模型實際又會有怎樣的表現?
比如,公眾號的長文直接交給Kimi Chat ,讓它幫你快速總結分析:
新鮮出爐的英偉達財報,交給Kimi Chat,快速完成關鍵信息分析:
出差發票太多?全部拖進Kimi Chat,快速整理成需要的信息:
發現了新的算法論文時,Kimi Chat能夠直接幫你根據論文復現代碼:
只需要一個網址,就可以在Kimi Chat中和自己喜歡的原神角色聊天:
輸入整本《月亮與六便士》,讓Kimi Chat和你一起閱讀,幫助你更好的理解和運用書本中的知識:
我們可以看到,當模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景。同時,由于可以直接基于全文理解進行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度的解決。
目前,Moonshot AI 的智能助手產品 Kimi Chat 已開放內測。
不走捷徑,解決算法和工程的雙重挑戰
通常,從技術上看,參數量決定了大模型支持多復雜的“計算”,而能夠接收多少文本輸入(即長文本技術)則決定了大模型有多大的“內存”,兩者共同決定模型的應用效果。
支持更長的上下文意味著大模型擁有更大的“內存”,從而使得大模型的應用更加深入和廣泛:比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵信息、基于長篇小說設定進行角色扮演等等,都可以在超長文本技術的加持下完成。
楊植麟指出,長文本技術的開發固然是當前大模型發展的重要方向,存在一些對效果損害很大的“捷徑”,主要包含以下幾個方面:
?“金魚”模型,特點是容易“健忘”。(例如,無法從一篇10萬字的用戶訪談錄音轉寫中提取最有價值的10個觀點)。
?“蜜蜂”模型,特點是只關注局部,忽略整體。(例如,無法從50個簡歷中對候選人的畫像進行歸納和總結)。
?“蝌蚪”模型,通過減少參數量(例如減少到百億參數)來提升上下文長度,雖然能支持更長上下文,但是大量任務無法勝任。
“簡單的捷徑無法達到理想的產品化效果。為了真正做出可用、好用的產品,就不能走虛假的捷徑,而應直面挑戰。”楊植麟說到。
訓練層面,想訓練得到一個支持足夠長上下文能力的模型,不可避免地要面對如下困難:
?如何讓模型能在幾十萬的上下文窗口中,準確的 Attend 到所需要的內容,不降低其原有的基礎能力?
?在千億參數級別訓練長上下文模型,帶來了更高的算力需求和極嚴重的顯存壓力,傳統的 3D 并行方案已經難以無法滿足訓練需求。
?缺乏充足的高質量長序列數據,如何提供更多的有效數據給模型訓練?
推理層面,在獲得了支持超長上下文的模型后,如何讓模型能服務眾多用戶,同樣要面臨艱巨挑戰:
?Transformer模型中自注意力機制(Self Attention)的計算量會隨著上下文長度的增加呈平方級增長,用戶需要等待極其長的時間才能獲得反饋。
?超長上下文導致顯存需求進一步增長:以 1750 億參數的 GPT-3為例,目前最高單機配置( 80 GiB * 8 )最多只能支持 64k 上下文長度的推理,超長文本對顯存的要求可見一斑。
?極大的顯存帶寬壓力:英偉達A800 或 H800的顯存帶寬高達 2-3 TiB/s,但面對如此長的上下文,樸素方法的生成速度只能達到 2~5 tokens/s,使用的體驗極其卡頓。
總之,Moonshot AI的技術團隊通過創新的網絡結構和工程優化,克服上述困難完成了大內存模型的產品化,不依賴于滑動窗口、降采樣、小模型等對性能損害較大的“捷徑”方案,才有了這個支持20萬字輸入的千億參數LLM產品。
楊植麟此前曾表示,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。
而無損壓縮等同于對數據聯合概率分布的預測,這?找到了與多模態數據?成的契合點。多模態數據的?成本質上也是在做數據的聯合概率分布預測,??上下?窗?技術對實現多模態?關重要。
Moonshot AI之所以選擇使?擴展上下?的策略來提升?模型技術的應?效果,源于團隊對?模型技術底層的認知、技術能?以及對應?需求的捕捉。
他相信,更?的上下文長度可以為大模型應?帶來全新的篇章,促使?模型從 LLM時代進?L(Long)LLM時代。更長的上下文長度只是Moonshot AI在下一代大模型技術上邁出的第一步。
本文(含圖片)為合作媒體授權微新創想轉載,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。