英文訓(xùn)練AI大模型比中文更便宜，可為什么會這樣？

由微新創(chuàng)想 · 2023年 8月 5日

聲明：本文來自微信公眾號“三易生活”（ID:IT-3eLife），作者:三易菌，授權(quán)微新創(chuàng)想轉(zhuǎn)載發(fā)布。

如今國內(nèi)市場的“百模大戰(zhàn)”正如火如荼，無論是BAT這樣的傳統(tǒng)豪強(qiáng)，還是美團(tuán)、字節(jié)跳動這樣的新興巨頭，乃至科大訊飛等傳統(tǒng)AI廠商都已入局。但提到AI大模型，似乎大家還是認(rèn)為ChatGPT、Bing Chat、Bard等海外廠商的相關(guān)產(chǎn)品往往更加好用。

事實(shí)上，這并非錯覺。近期牛津大學(xué)進(jìn)行的一項(xiàng)研究就顯示，用戶所使用的語言對于大型語言模型（LLM）的訓(xùn)練成本有著密切的聯(lián)系。

根據(jù)這一研究結(jié)果顯示，按照OpenAI采用的服務(wù)器成本衡量和計(jì)費(fèi)方式，讓一個LLM處理一句緬甸撣語的句子需要198個詞元（tokens），但同樣的句子用英語寫則只需17個詞元。據(jù)統(tǒng)計(jì)，簡體中文的訓(xùn)練費(fèi)用大約是英語的兩倍，西班牙語是英語的1.5倍，而緬甸的撣語則是英語的15倍。詞元通常是指語料中文字存在的最小單位，但它的具體指代則是多變的，既可以是字、也可以是分詞結(jié)果的詞。

由于AI業(yè)界目前會使用詞元來代表通過OpenAI或其他廠商API訪問大模型所需的計(jì)算成本，所以也就意味著牛津大學(xué)的這項(xiàng)研究表明，英語才是目前訓(xùn)練大模型最便宜的語言，其他語言的成本則要大得多。

那么為什么會造成這一現(xiàn)象呢?用中文本身相比于英文更加復(fù)雜來解釋顯然并不科學(xué)，畢竟現(xiàn)代語言學(xué)是歐洲創(chuàng)建起來的，甚至現(xiàn)代漢語的語法分析原理也脫胎于西方的語法分析原理。

漢藏語系的語法結(jié)構(gòu)與印歐語系相去甚遠(yuǎn)，參照印歐的屈折型語法來看以漢語為代表的孤立型語法，當(dāng)然會覺得復(fù)雜。然而，詞元（tokens）是以O(shè)penA視角里中的訓(xùn)練成本來定義的，不是以字符來劃分。而且，英文單詞間是存在空格的，對英文文本處理時可以通過空格來切分單詞。然而中文詞之間不存在天然地空格，并且中文詞是由多個字構(gòu)成的，所以對于中文文本處理之前首先要進(jìn)行分詞。

真正導(dǎo)致用英文訓(xùn)練AI大模型成本更低的原因，是OpenAI等廠商的分詞算法與英文以外其他語言的語義理解技術(shù)不到位有關(guān)。以O(shè)penAI為例，作為一家美國公司，其團(tuán)隊(duì)在訓(xùn)練大模型時必然會選擇以英語語料為起點(diǎn)，標(biāo)注人工的投入顯然也是英語系最方便，畢竟這會直接影響到大模型訓(xùn)練的強(qiáng)度和產(chǎn)出，也是為什么他們選擇的人工標(biāo)注團(tuán)隊(duì)在肯尼亞，而后者作為英聯(lián)邦國家，以英語為官方語言、且教育水平較高。

AI理解不同語言不是通過翻譯，而是直接學(xué)習(xí)相關(guān)語言的文本。那么AI大模型使用不同語言的能力差別又從何而來呢?答案是不同語言語料的豐富程度。此前百度的“文心一言”在內(nèi)測過程中出現(xiàn)文生圖不符實(shí)際的情況，就曾有主流觀點(diǎn)認(rèn)為，這是由于中文自然語言處理領(lǐng)域缺乏高質(zhì)量中文語料所導(dǎo)致的結(jié)果。

而語料則是AI大模型的基礎(chǔ)，生成式AI的原理大概可以總結(jié)為，通過大量的語料庫進(jìn)行訓(xùn)練，再從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí)，并根據(jù)需要對反饋進(jìn)行整理，以建立相應(yīng)的模型，從而使得AI能夠?qū)θ祟惖膯栴}做出相應(yīng)的回答和決策。AI大模型之所以比以往的AI產(chǎn)品表現(xiàn)得更“聰明”，單純是因?yàn)檎Z料規(guī)模更大，比如OpenAI的GPT-3就擁有1750億的參數(shù)量。

“力大磚飛”其實(shí)是當(dāng)下大模型的底層邏輯，在這種情況下，語料基本就決定了它們的上限。語料肯定是越多越好，但如今的事實(shí)，卻是英文才是目前互聯(lián)網(wǎng)世界中使用人群規(guī)模最大、使用頻率最高的語言。在去年6月，W3Techs又一次發(fā)布的全球互聯(lián)網(wǎng)網(wǎng)頁統(tǒng)計(jì)報(bào)告中就顯示，英語仍一騎絕塵，占比高達(dá)六成（63.6%）以上，俄語為第二名(7%)，中文則僅有1.3%、排名第八。

當(dāng)然，W3Techs的統(tǒng)計(jì)只包含了網(wǎng)站，這也是為什么占全球網(wǎng)民五分之一的中文互聯(lián)網(wǎng)中，能夠拿得出手的網(wǎng)站僅占全球網(wǎng)站的1.3%。畢竟由于國內(nèi)發(fā)達(dá)的移動互聯(lián)網(wǎng)生態(tài)，App才是主體，大量信息已經(jīng)聚集在了各式各樣的App中，并且這些信息也難很通過爬蟲獲取，所以也導(dǎo)致其很難進(jìn)行準(zhǔn)確的統(tǒng)計(jì)。

這樣的狀態(tài)自然也導(dǎo)致了漢語語料庫的匱乏，因?yàn)锳I行業(yè)的慣例是使用互聯(lián)網(wǎng)公開數(shù)據(jù)，而App里的數(shù)據(jù)則是屬于運(yùn)營方的，違規(guī)抓取App內(nèi)數(shù)據(jù)是妥妥的違法行為。而國內(nèi)互聯(lián)網(wǎng)大廠將信息牢牢控制在自家App里，進(jìn)而也導(dǎo)致了公開的中文語料不增反減。

不同于海外市場Reddit、Twitter這類愿意賣數(shù)據(jù)的平臺，將無邊界擴(kuò)張思維銘刻在腦海里的國內(nèi)互聯(lián)網(wǎng)巨頭，幾乎每一家都在貪大求全，而敝帚自珍更是成為了各家共同的選擇。既然互聯(lián)網(wǎng)上的公開信息是以英文為主，即使國內(nèi)的AI大模型訓(xùn)練往往也是從英文為起點(diǎn)，所以文心一言會出現(xiàn)“英翻中”的現(xiàn)象也就不足為奇了。

歸根結(jié)底，AI大模型使用不同語言的訓(xùn)練成本，其實(shí)和該語言構(gòu)筑的互聯(lián)網(wǎng)生態(tài)繁榮程度呈現(xiàn)正相關(guān)。例如丹麥語、荷蘭語等小語種使用者在互聯(lián)網(wǎng)上留下的內(nèi)容過于匱乏，就導(dǎo)致訓(xùn)練AI大模型使用它們來輸出內(nèi)容不光成本更高，而且效果也更差。但更加不妙的是，由于馬太效應(yīng)的影響，英文在AI領(lǐng)域的強(qiáng)勢地位還或?qū)掷m(xù)增強(qiáng)。

因此國內(nèi)市場的AI大模型想要更好用，獲得足夠、且高質(zhì)量的語料庫是關(guān)鍵。互聯(lián)互通這個已經(jīng)被提出多時的概念真正被貫徹的那一刻，或許才是中文AI大模型比肩ChatGPT們的時候。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英文訓(xùn)練AI大模型比中文更便宜，可為什么會這樣？

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英文訓(xùn)練AI大模型比中文更便宜，可為什么會這樣？

您可能還喜歡...

愉悅資本戴汨：1985年的股東信- 警惕代理人思維

喜茶亞洲外首店倫敦開業(yè)：門店面積較小、不設(shè)座位，定價是國內(nèi)三四倍

體驗(yàn)完7款A(yù)I產(chǎn)品，我找到了提升工作效率的新竅門

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章