正面硬剛OpenAI!智譜AI推出第三代基座模型,功能對標GPT-4V,代碼解釋器隨便玩
聲明:本文來自于微信公眾號 量子位(ID:QbitAI),作者:QbitAI,授權微新創(chuàng)想轉(zhuǎn)載發(fā)布。
國產(chǎn)大模型估值最高創(chuàng)企,為何是智譜AI?
僅用4個月時間,這家公司就甩出最新成績證明了自己——
自研大模型ChatGLM3,不止是底層架構(gòu),就連模型功能都進行了全方位大升級。
性能上,最直觀的表現(xiàn)就是“瘋狂屠榜”,所有50個大模型公開性能測評數(shù)據(jù)集中,拿下44個全國第一;
產(chǎn)品上,率先搞定了用戶關注度MAX的代碼解釋器功能,能生成甚至直接跑通代碼!
現(xiàn)在這個新功能已經(jīng)人人可玩,我們也試著用它給大伙兒比了個心
值得一提的是,這個功能也是國內(nèi)首家。
所以,從智譜AI發(fā)布的ChatGLM3中,究竟能深挖出什么最新的技術細節(jié)?
行業(yè)又能否從中嗅出什么大模型新動向?
我們從智譜AI的ChatGLM3發(fā)布會中一探究竟。
ChatGLM3長啥樣?
稍早之前,量子位就獲悉了智譜AI將發(fā)布迭代后基座模型的消息,取名ChatGLM3。
發(fā)布會上,升級后的ChatGLM第三代正式對外披露,主要在4個方面秀出亮點,對比上一代有不小提升。
首先是性能的提升。
據(jù)介紹,結(jié)合此前ChatGLM系列模型的開發(fā)經(jīng)驗,智譜AI采用了獨創(chuàng)的多階段增強與訓練方法,同時豐富了訓練數(shù)據(jù),優(yōu)化了訓練方法,使訓練更為充分。
評測結(jié)果顯示,與ChatGLM2系列模型相比,ChatGLM3一出,性能屠榜:
同尺寸模型中,ChatGLM3拿下了44個中英文公開數(shù)據(jù)集測試國內(nèi)第一。
其次是推理能力方面,更為高效,成本也更低。
官方介紹,ChatGLM3系列模型采用了最新的高效動態(tài)推理和顯存優(yōu)化技術。
相同硬件、模型條件下,當前的推理框架相較于目前的最佳開源實現(xiàn)——UC伯克利分校提出的vLLM以及Hugging Face TGI的最新版本,推理速度提升了2-3倍。
同時成本降低一倍。目前ChatGLM3系列模型的推理成本,每千tokens僅需要0.5分。
以及ChatGLM3還具備了全新的Agent智能體能力。
智譜AI介紹說,本次迭代后的ChatGLM3集成了自研的AgentTuning技術,激活了模型智能代理能力。
由此也使得ChatGLM3作為國產(chǎn)大模型,能夠原生支持工具調(diào)用、代碼執(zhí)行、游戲、數(shù)據(jù)庫操作、知識圖譜搜索與推理、操作系統(tǒng)等復雜場景。
呈現(xiàn)在實際數(shù)據(jù)中,ChatGLM3系列在智能規(guī)劃和執(zhí)行方面,比ChatGLM2系列提升1000%;而ChatGLM3-turbo在最新AgentBench上和GPT-3.5接近,還小有勝出。
值得注意的一點是,縱使進行全方位的升級迭代,智譜AI在大模型道路上還是繼續(xù)秉承著開源的開放思想。
至于這一次在開源價值方面的拓展動作,存在于多個細分領域:
包括對話模型ChatGLM3-6B、長文本模型ChatGLM3-6B-32K、多模態(tài)模型CogVLM-17B和智能體AgentLM在內(nèi),統(tǒng)統(tǒng)開源。
尤其提到,60億參數(shù)的ChatGLM3-6B已開源,它在44個對話模型數(shù)據(jù)集上的9個榜單中,國內(nèi)排名第一;且32k版本ChatGLM3-6B-32K在LongBench中表現(xiàn)最佳。
智譜AI CEO張鵬在發(fā)布會現(xiàn)場提到,此前智譜AI開源的ChatGLM-6B,已經(jīng)有超過千萬的下載量。開放的態(tài)度對于智譜AI現(xiàn)在4個月發(fā)展出新一代基座模型,是功不可沒的。
是以發(fā)布領先、好用的模型,吸引開發(fā)者和B端用戶,逐步構(gòu)建起自研大模型和合作伙伴筑建的模型生態(tài)——智譜AI正是這條路線的實踐者。
交上答卷,方方面面的數(shù)據(jù)詳情,能看出智譜AI對此次第三代ChatGLM模型比以往發(fā)布模型和產(chǎn)品還要重視。
拿出的速度和態(tài)度背后,是什么在驅(qū)動?是智譜AI長期投入研發(fā)的技術驅(qū)動。
一方面,清華KEG實驗室研究成果出身決定了,智譜AI既是一家面向市場化的大模型公司,但其本身還是帶有濃厚的學術氛圍和技術追求。
另一方面,智譜AI確實是國內(nèi)最早投身大模型技術研究的玩家之一,有4年多的積累,也明確過會持續(xù)深耕下去。
再者說,在百模混戰(zhàn)中謀生存,又通過開拓朋友圈尋發(fā)展,以技術為核心出發(fā)點和競爭力,是一家大模型創(chuàng)企的應有之義。
功能對標GPT-4V,可部署到手機
紙面數(shù)據(jù)強勁,產(chǎn)品實際效果又是如何呢?
或許可以從實用性、落地應用范圍和適配能力三個方面來看。
首先是產(chǎn)品實用性,也就是功能豐富度上。
這一次,有了ChatGLM3加持,智譜清言在功能上直接對標GPT-4V,最直觀的就是增加了這3大點“新玩法”——
-
代碼解釋器Code Interpreter
-
搜索增強WebGLM
-
看圖識語義CogVLM
智譜AI CEO張鵬更是放話:
我們不做Demo和內(nèi)測,功能已經(jīng)全面上線智譜清言,歡迎來玩。
既然如此,我們也馬上到更新后的智譜清言中一探究竟,看看實測效果如何。
第一,代碼解釋器功能,在國產(chǎn)大模型產(chǎn)品中,這個能力也是頭一回見。
和單純的“分析代碼”和“讀代碼”不同,代碼解釋器不僅可以讀代碼,甚至能在一個沙盒中運行代碼,并返回生成結(jié)果。
這里我們先試試簡單的畫圖,看看智譜清言是不是真能“跑代碼”:
生成一個大腦成分的餅圖,99%是水,1%是表情包。
在經(jīng)過一番“急速分析”后,智譜清言竟然真的調(diào)用Python庫,生成了一個餅圖表情包,正經(jīng)而不失幽默感。
換個雷達圖試試,這里我們讓它生成一份打工人得分圖鑒。
不錯,尤其是總結(jié)非常到位:
從圖中可以看出,您的摸魚能力非常突出,得分最高;而工作能力和溝通能力則相對較低。
那么,接下來上點難度,試試數(shù)據(jù)可視化的效果。
我們隨機從某份財報里選出一段收入和毛利數(shù)據(jù),讓智譜清言來可視化。
沒想到,它不僅能收集到數(shù)據(jù)單位和時間等“關鍵信息”,快速將之做成橫縱坐標軸,還能對圖表進行簡單分析:
甚至無需手動輸入,可以直接上傳想要分析的Excel文件。
智譜清言會先分析表格文件,將里面的內(nèi)容展示出來,并給出建議:
如果同意它的建議,智譜清言就會根據(jù)表格內(nèi)容生成對應的可視化圖像:
除此之外,用代碼解釋器畫函數(shù)也是輕松手到擒來。不僅準確生成了函數(shù)的圖像,還會順帶介紹ReLU函數(shù)的常見用法,屬實是非常萌新友好了。
第二,再來看看搜索增強能力。
在WebGLM新技術的加持下,智譜清言也能更好地結(jié)合搜索引擎,來增強回答的準確性。
哪怕是這幾天才發(fā)生的事情或火起來的段子,它也能很快識別并回答。
這里我們先用最近很火的古天樂之“我不吃牛肉”梗試試:
不僅快速介紹了梗的來歷,還溫馨提示了一句“這個梗并非近期才火起來的”,屬實是比我追熱點還快了。
如果是新聞類稿件,還能進一步給出每條消息的來源,確保“自己不說大話”:
基于這種方法,還能直接用智譜清言來找資料,連鏈接都給出來了:
感覺用來學習新知識也是很方便。
第三,再試試看圖識語義功能。
智譜清言的這個圖像解讀功能基于CogVLM實現(xiàn),可以根據(jù)圖片解讀其中的內(nèi)容,并結(jié)合聊天功能來使用。
例如,用來識別菜品并生成食譜。這里我們用菠菜試了試,沒什么問題:
但區(qū)區(qū)菜譜怎么可能滿足我們的需求(doge),要想試試它的真實水平,當然是解讀表情包了。
先來一個經(jīng)典的“跳過臺階”表情包。
智譜清言快速提取了圖片中的細節(jié)元素,包括短袖和短褲、以及拖鞋和電視屏幕,并意識到這個場景似曾相識。
最終,智譜清言得出結(jié)論:這張圖片是在模仿名為“跳過臺階”的meme。
嗯,讓我們恭喜“跳過臺階”表情包,在模仿自己中取得了第二名的好成績(手動狗頭)
接下來再試試給表情包配字。
我們給一個海綿寶寶的空白梗圖過去,看看智譜清言怎么發(fā)揮。
配文是“我看到了什么?”,似乎還挺應景的。
總結(jié)一下,智譜清言確實已經(jīng)具備了代碼解釋器、搜索和解讀圖片的能力,而這也確實是當前大模型落地的產(chǎn)品能力剛需。
接下來,就是落地應用的范圍了。
目前大部分國產(chǎn)大模型仍然在云端運行,并且只出了對外的API接口,如果企業(yè)廠商想要接入,在不少場景中仍然有不方便的地方。
尤其是終端側(cè)的不少廠商,用戶對隱私能力要求較高,這時候如果將個人數(shù)據(jù)上傳到云端處理,勢必會帶來不小爭議。
智譜AI考慮到了這一點,率先把ChatGLM3大模型“做小”,能塞進汽車甚至是手機。
具體來說,ChatGLM3除了上述提到的模型以外,還推出了可手機部署的端側(cè)模型ChatGLM3-1.5B和3B。
目前,這個模型已經(jīng)能支持包括Vivo、小米、三星在內(nèi)的多種手機以及車載平臺——
甚至支持移動平臺上CPU芯片的推理,速度可達20tokens/s。
但這并不意味著性能就有所下降,在精度方面,1.5B和3B模型在公開benchmark上接近ChatGLM2-6B模型的性能。
沒錯,雖然縮小了體積,但性能還是大模型的樣子。
最后,還有ChatGLM3的適配能力。
一個大模型性能再強,很大程度上取決于它在什么硬件上運行。
如果換種硬件,運行能力就“突降”,那么部署難度和成本也會隨之增加不少。
在這次發(fā)布會上,智譜AI CEO張鵬也宣布:
全面支持10余種國產(chǎn)芯片,包括昇騰、神威超算、海光DCU、海飛科、沐曦曦云、算能科技、天數(shù)智芯、寒武紀、摩爾線程、百度昆侖芯、靈汐科技、長城超云。
一言以蔽之,就是非常之“不挑食”。
以昇騰生態(tài)為例 ,ChatGLM3在升級之后,在它上面的推理速度提升了3倍多,運行起來也更快了。
總結(jié)來看,ChatGLM3的產(chǎn)品能力或許能用三個“更”來形容:
更強的產(chǎn)品實用性,更廣的應用范圍,更高的硬件適配能力。
沖向落地,和OpenAI全線對對碰
從上述三個“更”可以感受到,發(fā)布ChatGLM3的智譜AI,似乎在大模型各個層面尋求更腳踏實地的平穩(wěn)著陸和生態(tài)合作。
或許不排除智譜AI下一階段的主要計劃就是沖向落地,從底層技術,從產(chǎn)品能力。
總而言之,一切都為了更快地把大模型能力推向市場。
并且顯而易見的,這次對外發(fā)布,完全對應了前幾日公布年內(nèi)融資時,智譜AI說的計劃:
加碼基座大模型研究,然后拓展生態(tài)和朋友圈。
這種雷厲風行的速度,從某種角度來說也是一種實力體現(xiàn)。并非每一個大模型創(chuàng)業(yè)公司都能在基座大模型穩(wěn)打穩(wěn)扎,或者不是有了錢和人才就能立馬亮出計劃內(nèi)的產(chǎn)品。
更有意思的一點,在基座大模型和生態(tài)朋友圈的簇擁下,ChatGLM3系列模型發(fā)布后,基于這一代基座大模型,智譜AI和OpenAI產(chǎn)品線,對上了:
-
對話:ChatGLM vs. ChatGPT
-
文生圖:CogView vs. DALL.E
-
代碼:CodeGeeX vs. Codex
-
搜索增強:WebGPT vs. WebGLM
-
圖文理解:ChatGLM3vs. ChatGPT-4V
也就是說,智譜AI成為了國內(nèi)目前唯一一個擁有對標OpenAI全模型產(chǎn)品線的公司,這在大模型玩家中近乎于一種手中牌很齊全的“炫富”。
而且從時間線來看,初代GLM到ChatGLM2再到ChatGLM3,迭代速度不是領域內(nèi)最快的,但是不疾不徐,也已經(jīng)用實際效果占有了市場與口碑。
不得不提,智譜AI這次新基座模型的發(fā)布選擇在10月底,這個時間點,ChatGPT誕生將滿一年。
過去的這一年也是AI最瘋狂的一年,大模型當之無愧,成為目前爭奪最激烈、也最有可能取得突破的領域。
更令人期待和審視的是,距離年初國內(nèi)各家大模型公司喊出的“年底要做到xxx”的種種flag,時間越來越逼近。
為了實現(xiàn)這個目標,各個大模型公司在技術、人才、路線、資金甚至社會責任方面,都輪番展示了一把。
現(xiàn)在,智譜AI沖鋒在前,率先交卷了。
試玩地址:
https://chatglm.cn/main/code