正面硬剛OpenAI！智譜AI推出第三代基座模型，功能對標GPT-4V，代碼解釋器隨便玩

由微新創(chuàng)想 · 2023年 10月 31日

聲明：本文來自于微信公眾號量子位（ID:QbitAI），作者:QbitAI，授權微新創(chuàng)想轉(zhuǎn)載發(fā)布。

國產(chǎn)大模型估值最高創(chuàng)企，為何是智譜AI?

僅用4個月時間，這家公司就甩出最新成績證明了自己——

自研大模型ChatGLM3，不止是底層架構(gòu)，就連模型功能都進行了全方位大升級。

性能上，最直觀的表現(xiàn)就是“瘋狂屠榜”，所有50個大模型公開性能測評數(shù)據(jù)集中，拿下44個全國第一;

產(chǎn)品上，率先搞定了用戶關注度MAX的代碼解釋器功能，能生成甚至直接跑通代碼!

現(xiàn)在這個新功能已經(jīng)人人可玩，我們也試著用它給大伙兒比了個心

值得一提的是，這個功能也是國內(nèi)首家。

所以，從智譜AI發(fā)布的ChatGLM3中，究竟能深挖出什么最新的技術細節(jié)?

行業(yè)又能否從中嗅出什么大模型新動向?

我們從智譜AI的ChatGLM3發(fā)布會中一探究竟。

ChatGLM3長啥樣?

稍早之前，量子位就獲悉了智譜AI將發(fā)布迭代后基座模型的消息，取名ChatGLM3。

發(fā)布會上，升級后的ChatGLM第三代正式對外披露，主要在4個方面秀出亮點，對比上一代有不小提升。

首先是性能的提升。

據(jù)介紹，結(jié)合此前ChatGLM系列模型的開發(fā)經(jīng)驗，智譜AI采用了獨創(chuàng)的多階段增強與訓練方法，同時豐富了訓練數(shù)據(jù)，優(yōu)化了訓練方法，使訓練更為充分。

評測結(jié)果顯示，與ChatGLM2系列模型相比，ChatGLM3一出，性能屠榜:

同尺寸模型中，ChatGLM3拿下了44個中英文公開數(shù)據(jù)集測試國內(nèi)第一。

其次是推理能力方面，更為高效，成本也更低。

官方介紹，ChatGLM3系列模型采用了最新的高效動態(tài)推理和顯存優(yōu)化技術。

相同硬件、模型條件下，當前的推理框架相較于目前的最佳開源實現(xiàn)——UC伯克利分校提出的vLLM以及Hugging Face TGI的最新版本，推理速度提升了2-3倍。

同時成本降低一倍。目前ChatGLM3系列模型的推理成本，每千tokens僅需要0.5分。

以及ChatGLM3還具備了全新的Agent智能體能力。

智譜AI介紹說，本次迭代后的ChatGLM3集成了自研的AgentTuning技術，激活了模型智能代理能力。

由此也使得ChatGLM3作為國產(chǎn)大模型，能夠原生支持工具調(diào)用、代碼執(zhí)行、游戲、數(shù)據(jù)庫操作、知識圖譜搜索與推理、操作系統(tǒng)等復雜場景。

呈現(xiàn)在實際數(shù)據(jù)中，ChatGLM3系列在智能規(guī)劃和執(zhí)行方面，比ChatGLM2系列提升1000%;而ChatGLM3-turbo在最新AgentBench上和GPT-3.5接近，還小有勝出。

值得注意的一點是，縱使進行全方位的升級迭代，智譜AI在大模型道路上還是繼續(xù)秉承著開源的開放思想。

至于這一次在開源價值方面的拓展動作，存在于多個細分領域:

包括對話模型ChatGLM3-6B、長文本模型ChatGLM3-6B-32K、多模態(tài)模型CogVLM-17B和智能體AgentLM在內(nèi)，統(tǒng)統(tǒng)開源。

尤其提到，60億參數(shù)的ChatGLM3-6B已開源，它在44個對話模型數(shù)據(jù)集上的9個榜單中，國內(nèi)排名第一;且32k版本ChatGLM3-6B-32K在LongBench中表現(xiàn)最佳。

智譜AI CEO張鵬在發(fā)布會現(xiàn)場提到，此前智譜AI開源的ChatGLM-6B，已經(jīng)有超過千萬的下載量。開放的態(tài)度對于智譜AI現(xiàn)在4個月發(fā)展出新一代基座模型，是功不可沒的。

是以發(fā)布領先、好用的模型，吸引開發(fā)者和B端用戶，逐步構(gòu)建起自研大模型和合作伙伴筑建的模型生態(tài)——智譜AI正是這條路線的實踐者。

交上答卷，方方面面的數(shù)據(jù)詳情，能看出智譜AI對此次第三代ChatGLM模型比以往發(fā)布模型和產(chǎn)品還要重視。

拿出的速度和態(tài)度背后，是什么在驅(qū)動?是智譜AI長期投入研發(fā)的技術驅(qū)動。

一方面，清華KEG實驗室研究成果出身決定了，智譜AI既是一家面向市場化的大模型公司，但其本身還是帶有濃厚的學術氛圍和技術追求。

另一方面，智譜AI確實是國內(nèi)最早投身大模型技術研究的玩家之一，有4年多的積累，也明確過會持續(xù)深耕下去。

再者說，在百模混戰(zhàn)中謀生存，又通過開拓朋友圈尋發(fā)展，以技術為核心出發(fā)點和競爭力，是一家大模型創(chuàng)企的應有之義。

功能對標GPT-4V，可部署到手機

紙面數(shù)據(jù)強勁，產(chǎn)品實際效果又是如何呢?

或許可以從實用性、落地應用范圍和適配能力三個方面來看。

首先是產(chǎn)品實用性，也就是功能豐富度上。

這一次，有了ChatGLM3加持，智譜清言在功能上直接對標GPT-4V，最直觀的就是增加了這3大點“新玩法”——

代碼解釋器Code Interpreter
搜索增強WebGLM
看圖識語義CogVLM

智譜AI CEO張鵬更是放話:

我們不做Demo和內(nèi)測，功能已經(jīng)全面上線智譜清言，歡迎來玩。

既然如此，我們也馬上到更新后的智譜清言中一探究竟，看看實測效果如何。

第一，代碼解釋器功能，在國產(chǎn)大模型產(chǎn)品中，這個能力也是頭一回見。

和單純的“分析代碼”和“讀代碼”不同，代碼解釋器不僅可以讀代碼，甚至能在一個沙盒中運行代碼，并返回生成結(jié)果。

這里我們先試試簡單的畫圖，看看智譜清言是不是真能“跑代碼”:

生成一個大腦成分的餅圖，99%是水，1%是表情包。

在經(jīng)過一番“急速分析”后，智譜清言竟然真的調(diào)用Python庫，生成了一個餅圖表情包，正經(jīng)而不失幽默感。

換個雷達圖試試，這里我們讓它生成一份打工人得分圖鑒。

不錯，尤其是總結(jié)非常到位:

從圖中可以看出，您的摸魚能力非常突出，得分最高;而工作能力和溝通能力則相對較低。

那么，接下來上點難度，試試數(shù)據(jù)可視化的效果。

我們隨機從某份財報里選出一段收入和毛利數(shù)據(jù)，讓智譜清言來可視化。

沒想到，它不僅能收集到數(shù)據(jù)單位和時間等“關鍵信息”，快速將之做成橫縱坐標軸，還能對圖表進行簡單分析:

甚至無需手動輸入，可以直接上傳想要分析的Excel文件。

智譜清言會先分析表格文件，將里面的內(nèi)容展示出來，并給出建議:

如果同意它的建議，智譜清言就會根據(jù)表格內(nèi)容生成對應的可視化圖像:

除此之外，用代碼解釋器畫函數(shù)也是輕松手到擒來。不僅準確生成了函數(shù)的圖像，還會順帶介紹ReLU函數(shù)的常見用法，屬實是非常萌新友好了。

第二，再來看看搜索增強能力。

在WebGLM新技術的加持下，智譜清言也能更好地結(jié)合搜索引擎，來增強回答的準確性。

哪怕是這幾天才發(fā)生的事情或火起來的段子，它也能很快識別并回答。

這里我們先用最近很火的古天樂之“我不吃牛肉”梗試試:

不僅快速介紹了梗的來歷，還溫馨提示了一句“這個梗并非近期才火起來的”，屬實是比我追熱點還快了。

如果是新聞類稿件，還能進一步給出每條消息的來源，確保“自己不說大話”:

基于這種方法，還能直接用智譜清言來找資料，連鏈接都給出來了:

感覺用來學習新知識也是很方便。

第三，再試試看圖識語義功能。

智譜清言的這個圖像解讀功能基于CogVLM實現(xiàn)，可以根據(jù)圖片解讀其中的內(nèi)容，并結(jié)合聊天功能來使用。

例如，用來識別菜品并生成食譜。這里我們用菠菜試了試，沒什么問題:

但區(qū)區(qū)菜譜怎么可能滿足我們的需求（doge），要想試試它的真實水平，當然是解讀表情包了。

先來一個經(jīng)典的“跳過臺階”表情包。

智譜清言快速提取了圖片中的細節(jié)元素，包括短袖和短褲、以及拖鞋和電視屏幕，并意識到這個場景似曾相識。

最終，智譜清言得出結(jié)論:這張圖片是在模仿名為“跳過臺階”的meme。

嗯，讓我們恭喜“跳過臺階”表情包，在模仿自己中取得了第二名的好成績（手動狗頭）

接下來再試試給表情包配字。

我們給一個海綿寶寶的空白梗圖過去，看看智譜清言怎么發(fā)揮。

配文是“我看到了什么?”，似乎還挺應景的。

總結(jié)一下，智譜清言確實已經(jīng)具備了代碼解釋器、搜索和解讀圖片的能力，而這也確實是當前大模型落地的產(chǎn)品能力剛需。

接下來，就是落地應用的范圍了。

目前大部分國產(chǎn)大模型仍然在云端運行，并且只出了對外的API接口，如果企業(yè)廠商想要接入，在不少場景中仍然有不方便的地方。

尤其是終端側(cè)的不少廠商，用戶對隱私能力要求較高，這時候如果將個人數(shù)據(jù)上傳到云端處理，勢必會帶來不小爭議。

智譜AI考慮到了這一點，率先把ChatGLM3大模型“做小”，能塞進汽車甚至是手機。

具體來說，ChatGLM3除了上述提到的模型以外，還推出了可手機部署的端側(cè)模型ChatGLM3-1.5B和3B。

目前，這個模型已經(jīng)能支持包括Vivo、小米、三星在內(nèi)的多種手機以及車載平臺——

甚至支持移動平臺上CPU芯片的推理，速度可達20tokens/s。

但這并不意味著性能就有所下降，在精度方面，1.5B和3B模型在公開benchmark上接近ChatGLM2-6B模型的性能。

沒錯，雖然縮小了體積，但性能還是大模型的樣子。

最后，還有ChatGLM3的適配能力。

一個大模型性能再強，很大程度上取決于它在什么硬件上運行。

如果換種硬件，運行能力就“突降”，那么部署難度和成本也會隨之增加不少。

在這次發(fā)布會上，智譜AI CEO張鵬也宣布:

全面支持10余種國產(chǎn)芯片，包括昇騰、神威超算、海光DCU、海飛科、沐曦曦云、算能科技、天數(shù)智芯、寒武紀、摩爾線程、百度昆侖芯、靈汐科技、長城超云。

一言以蔽之，就是非常之“不挑食”。

以昇騰生態(tài)為例，ChatGLM3在升級之后，在它上面的推理速度提升了3倍多，運行起來也更快了。

總結(jié)來看，ChatGLM3的產(chǎn)品能力或許能用三個“更”來形容:

更強的產(chǎn)品實用性，更廣的應用范圍，更高的硬件適配能力。

沖向落地，和OpenAI全線對對碰

從上述三個“更”可以感受到，發(fā)布ChatGLM3的智譜AI，似乎在大模型各個層面尋求更腳踏實地的平穩(wěn)著陸和生態(tài)合作。

或許不排除智譜AI下一階段的主要計劃就是沖向落地，從底層技術，從產(chǎn)品能力。

總而言之，一切都為了更快地把大模型能力推向市場。

并且顯而易見的，這次對外發(fā)布，完全對應了前幾日公布年內(nèi)融資時，智譜AI說的計劃:

加碼基座大模型研究，然后拓展生態(tài)和朋友圈。

這種雷厲風行的速度，從某種角度來說也是一種實力體現(xiàn)。并非每一個大模型創(chuàng)業(yè)公司都能在基座大模型穩(wěn)打穩(wěn)扎，或者不是有了錢和人才就能立馬亮出計劃內(nèi)的產(chǎn)品。

更有意思的一點，在基座大模型和生態(tài)朋友圈的簇擁下，ChatGLM3系列模型發(fā)布后，基于這一代基座大模型，智譜AI和OpenAI產(chǎn)品線，對上了:

對話:ChatGLM vs. ChatGPT
文生圖:CogView vs. DALL.E
代碼:CodeGeeX vs. Codex
搜索增強:WebGPT vs. WebGLM
圖文理解:ChatGLM3vs. ChatGPT-4V

也就是說，智譜AI成為了國內(nèi)目前唯一一個擁有對標OpenAI全模型產(chǎn)品線的公司，這在大模型玩家中近乎于一種手中牌很齊全的“炫富”。

而且從時間線來看，初代GLM到ChatGLM2再到ChatGLM3，迭代速度不是領域內(nèi)最快的，但是不疾不徐，也已經(jīng)用實際效果占有了市場與口碑。

不得不提，智譜AI這次新基座模型的發(fā)布選擇在10月底，這個時間點，ChatGPT誕生將滿一年。

過去的這一年也是AI最瘋狂的一年，大模型當之無愧，成為目前爭奪最激烈、也最有可能取得突破的領域。

更令人期待和審視的是，距離年初國內(nèi)各家大模型公司喊出的“年底要做到xxx”的種種flag，時間越來越逼近。

為了實現(xiàn)這個目標，各個大模型公司在技術、人才、路線、資金甚至社會責任方面，都輪番展示了一把。

現(xiàn)在，智譜AI沖鋒在前，率先交卷了。

試玩地址:

https://chatglm.cn/main/code

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

正面硬剛OpenAI！智譜AI推出第三代基座模型，功能對標GPT-4V，代碼解釋器隨便玩

您可能還喜歡...

發(fā)表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

正面硬剛OpenAI！智譜AI推出第三代基座模型，功能對標GPT-4V，代碼解釋器隨便玩

您可能還喜歡...

Hook：利用AI為TikTok的熱門音樂制作合法的混音

修圖更簡單：谷歌Pixel 8手機上的5大驚艷AI功能

TikTok中東電商漲勢兇猛？

發(fā)表回復 取消回復

熱門文章

熱門文章

發(fā)表回復取消回復