人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

英語的人工智能使用費比其他語言便宜 15 倍 簡體中文成本約為英語的兩倍

微新創想(idea2003.com) 7月31日消息:研究表明,對于類似 OpenAI 的服務,由于計算成本的計量和計費方式,英語輸入和輸出比其他語言要便宜得多,其中簡體中文的成本約為英語的兩倍,西班牙語為英語的 1.5 倍,而撣語則要貴 15 倍

一項由牛津大學進行的研究發現,讓一個大型語言模型處理一句緬甸語句子需要 198 個 tokens,而同樣的英語句子只需 17 個 tokens。Token 代表通過 API 訪問大型語言模型(如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2)的計算成本,這意味著使用服務處理緬甸語句子比處理英語句子要貴 11 倍。

這種「標記化」模型意味著在不理想的情況下,訪問和訓練非英語語言模型會更昂貴。這是因為像中文這樣的語言與英語在結構上(無論是語法上還是字符數量上)有所不同,從而導致其標記化的成本更高。

舉個例子,根據 OpenAI 的 GPT3 tokenizer,將「your affection」這個詞組標記化為英語只需兩個 tokens,而在簡體中文中則需要八個 tokens。這是因為簡體中文的文本雖然只有 4 個字符(你的感情),而英語文本有 14 個字符。

微軟自己在解釋其 ChatGPT 模型的 API 訪問和使用的頁面上提供了一個很有用的工具,其中甚至包括了一個標記化工具,您可以用來測試每個提示的標記成本。在那里,我們可以看到在英語中,1 個 token 約等于 4 個字符,100 個 tokens 約等于 75 個英文單詞。但是這種數學規則并不能應用于其他任何語言,微軟清楚地表明了這一點。

人工智能相關的成本方面,英語的成本效益無可匹敵;例如,相對于輸出而言,中文的成本是英語的兩倍。但這只是 AI 公司迄今為止用于訓練模型的可用訓練數據的反映。人工智能的爆發已經向世界展示了高質量緊急數據(作為生活記錄而產生的數據)的價值。

此問題直接關系到 AI 公司希望實現遞歸訓練的愿望,即能夠用自己的輸出訓練 AI 模型。如果實現了這一點,那么未來模型仍將顯示英語與其他語言相比的成本效益,其他語言的復雜性和更有限的基礎訓練數據導致了更高的標記化速率。

為了進一步復雜化問題,似乎除了標記化之外,其他衡量成本的方法最終也會遇到相同的問題。無論是通過位數還是字符計數,顯然沒有任何一種語言能夠超越英語的實際實用性——英語的「可壓縮性」較高,因此標記數量較低。

這意味著問題不在于模型的貨幣化方式;它實際上是技術和基礎模型在訓練中的一個真實局限。而且不難想象,這個問題會影響到各個版本的多語言模型。畢竟,它們幾乎都是以相同方式構建的。

當我們考慮到推出大型語言模型(如 ChatGPT)或生成式圖像網絡(如 Midjourney)的公司主要位于美國時,這種成本差異已經導致一些國家推出了培訓和使用本地語言的大型語言模型的計劃。中國和印度都這樣做了,而且都聲稱這樣做是為了配合英語為基礎的 AI 網絡所允許的創新速度。而這種速度主要受到訪問和訓練成本的限制。

每個人都希望花盡可能少的錢獲得盡可能多的東西,這是很自然的。而這些動態直接影響根據基礎語言進行 LLM 培訓和部署的成本。人工智能業務是如此復雜,其影響如此深遠,我們必須非常小心地采取每一個小步驟。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注