人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

A16Z 談真實算力成本|AI 初創公司將 80% 的錢投入到算力中,這真的可持續么?

編者按:本文來自微信公眾號 有新Newin(ID:NewinData),作者: 有新,微新創想經授權轉載。

近期,A16Z 的投資人 Stephanie Smith 與 Guido Appenzeller 就當前 AI 創投生態進行了一次盤點,他們討論了 AI 算力的成本以及市場的可持續性,內容不限于 LLM 培訓成本、數據限制、模型規模、訓練數據量以及硬件發展等話題,這次對談的完整內容如下:

Stephanie Smith:

Guido 在最新文章中提到了 AI 計算成本的高昂,指出對計算資源的訪問已成為 AI 公司成功的決定性因素,這不僅適用于構建最大型模型的最大型公司;實際上,許多公司將其籌集的總資本的 80% 以上用于計算資源,自然而然地引出了一個問題,這是否真的可持續?

Guido Appenzeller:

你在早期階段構建的核心技術朝著更完整的產品提供方向發展,對各種功能和實施進行了更多的檢查,如果你的應用 toB,還要處理所有管理方面的事務,所以可能會有更多的非 AI 、傳統軟件開發正在進行,你可能還需要支付更多的員工工資。最終我預計,作為百分比,隨著時間的推移會下降,作為絕對金額,在一段時間內會上升,因為這個 AI 繁榮還處于初期階段。

Stephanie Smith:

AI 繁榮才剛剛開始,在第二部分中,我們討論了計算需求在短期內不太可能減少,而且當涉及到成本時,擁有或租用基礎設施的決策對公司的底線有非常重要的影響,但在成本方面還有其他考慮因素,批處理大小、學習率以及訓練過程的持續時間都會影響最終的價格標簽。

Guido Appenzeller:

訓練一個模型需要多少錢?這取決于許多因素。目前的好消息是,我們可以在某種程度上簡化這個問題,因為今天使用的絕大多數模型都是 Transformer 模型。Transformer 架構是 AI 的一個重大突破,它們被證明非常靈活,它們更容易訓練,因為它們相對于以前的模型更好地進行了并行處理。

因此,在一個 Transformer 中,你可以將推理時間近似為參數數量的兩倍的浮點運算,而訓練時間則是參數數量的大約 6 倍,如果你以 GPT-3 為例,這是一個龐大的模型,它有 1750 億個參數,那么你需要 3500 億個浮點運算來進行一次推理;基于這一點,你可以大致計算出你需要多少計算能力,它將如何擴展,你應該如何定價,最終它將花費多少。

這還可以為模型訓練提供一個關于訓練時間的想法,以及你的 AI 加速器每秒浮點運算的能力。你可以在理論上計算訓練模型所需的操作次數。

實際上,數學問題更加復雜,因為有一些加速方法。也許你可以使用降低的精度來進行訓練,但在這些卡上實現 100% 利用率也非常困難;如果你天真地實現它,可能只能達到 10% 的利用率,但通過一些工作,你可能可以達到幾十個百分點,這為你提供了關于訓練和推理需要多少計算能力的粗略估計,但最終你可能會在做出最終決策之前對此進行測試,確保你的假設成立。

Stephanie Smith:

如果所有這些數字讓你感到困惑,沒關系。我們將通過一個非常具體的示例來解釋。GPT-3 有約 1750 億個參數,下面是 Gtuido 關于訓練模型和最終推理所需計算的要求。

Guido Appenzeller:

如果我們非常天真地進行數學計算,讓我們從訓練開始,我們知道它是在多少 token 上進行訓練的,我們知道模型有多少參數。所以我們可以進行粗略的計算,最終你得到大約 3×10^23 次浮點運算。這是一個完全瘋狂的數字,有 23 位數字,非常難以描述。

實際上,人類實際承擔了非常少這種復雜度的計算問題,這是一個巨大的工程。然后,你可以考慮一下,讓我們以 A100 為例,這是最常用的顯卡之一。我們知道每秒它可以執行多少浮點運算。

我們可以將這些數據相除,這將為我們提供一個數量級的估計,告訴我們需要多長時間。然后我們知道這些顯卡的成本,租用 A100 的成本大約在 1~4 美元之間,這取決于租賃來源,那么你最后得到的大致成本是約 50 萬美元,這是根據這個非常天真的分析。

現在有一些因素需要考慮,我們沒有考慮到優化,我們也沒有考慮到由于內存帶寬限制和網絡限制,你可能無法以全容量運行。最后但并非最不重要的,你可能需要多次運行才能得到正確的結果,可能需要一些測試運行,它們可能不會是完全運行等等。

這讓你明白,訓練這些 LLM 今天不是 10 萬美元的事情,實際上,根據我們在行業中所見,它實際上可能要花費數百萬美元。

這是因為你需要保留計算能力。如果我可以在接下來的 2 個月內獲得所有我的顯卡,它可能只需要花費我 100 萬美元,但問題是他們需要兩年的預定,因此實際成本高出 12 倍,這基本上為我的培訓成本增加了一個 0。

Stephanie Smith:

是的,這與推理相比要便宜得多。

Guido Appenzeller:

基本上,對于現代文本模型的訓練集來說,訓練集大約有 1 萬億個 token 。如果運行推理,每個單詞都作為一個 token 輸出,相對于訓練部分要快大約 1 萬億倍左右,如果你計算一個 LLM 的成本,實際上只會增加幾分錢,比如 100% 或幾分之一,大約在這個范圍內。

再次強調,如果我們只是天真地看待這個問題,對于推理,通常問題在于你必須提供峰值容量。如果每個人在星期一上午 9 點使用你的模型,那么你仍須支付星期六午夜的費用,而那時沒有人使用,這會大大增加成本,特別是對于一些特定的圖像模型,對于推理,你可以使用成本更低的顯卡,因為模型足夠小,可以在消費者顯卡的服務器版本上運行。這可以節省大量成本。

Stephanie Smith:

正如我們在第一部分中討論的那樣,你不能僅僅通過組裝一堆性能較差的芯片來彌補這些低效率,至少對于模型訓練來說是這樣。

Guido Appenzeller:

你需要一些非常復雜的軟件,因為在這些卡之間分配數據的開銷可能會超過卡所能提供的節省。

Stephanie Smith:

另一方面,對于推理來說。

Guido Appenzeller:

對于推理,通??梢栽谝粡埧ㄉ贤瓿伞K匀绻隳?Stable Diffusion 這樣的東西,這是一個非常受歡迎的圖像生成模型,它可以在 MacBook 上運行,因為它有足夠的內存和計算能力,所以你可以在本地生成圖像,所以你可以在相對便宜的消費者顯卡上運行它,而不必使用 A100 來進行推理。

Stephanie Smith:

當我們談論模型的訓練時,顯然計算量遠遠超過推理。我們已經談論過的另一點是,通常情況下,更多的計算,不一定總是,但通常情況下會產生更好的模型。這最終是否意味著,這些因素都導致了資本豐富的老牌企業贏得這場競爭?或者你如何看待計算資本與今天的技術之間的關系?

Guido Appenzeller:

這是一個價值百萬甚至可能價值萬億美元的問題。首先,訓練這些模型是昂貴的,例如,我們還沒有看到真正好的開源 LLM ,我相信其中一部分原因是訓練這些模型成本真的很高,有很多熱心人想做這個,但你需要找到幾百萬或數千萬美元的計算能力來完成它,這使得事情變得更加困難。這意味著你需要為這樣的事情投入相當大的努力。

總的來說,培訓這些模型的成本似乎在下降,部分原因是因為我們似乎受到數據限制。事實證明,模型的規模與模型的最佳訓練數據量之間存在對應關系,擁有一個 LLM 但數據非常少對你毫無益處,或者擁有大量數據但使用小型模型同樣也毫無益處,你需要決定你的大腦的大小大致對應于你在大學受教育的時長,我認為這并不奏效,這意味著因為今天一些大型模型已經在某個領域中利用了相當大比例的人類知識。

我是說,如果你看看 GPT,它可能是在大約整個互聯網的 10% 上進行訓練的,包括所有的維基百科,許多書籍,大量的書籍,所以按照 10 的倍數增加,也許是可能的,但按照 100 的倍數增加,不清楚是否可能。

我是說,人類還沒有產生足夠多的知識,可以吸收到這些大型模型中,所以我認為目前的期望是,培訓這些模型的成本實際上可能會達到峰值,甚至會略微下降,因為芯片變得更快,但我們不會像以前那樣快速發現新的訓練數據,除非有人想出新的訓練數據的生成方法。

如果這一假設成立,我認為由這些大規模投資創建的模式實際上并不特別深入,它更像是一個減速帶,而不是阻止新參與者的東西,我是說,今天,對于資金充足的初創公司來說,訓練一個 LLM 是絕對可以做到的,因此,出于這個原因,我們期望未來在這個領域會看到更多的創新。

本文為專欄作者授權微新創想發表,版權歸原作者所有。文章系作者個人觀點,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注