2023年,AI芯片公司正被奪命三連問
編者按:本文來自微信公眾號(hào) 偲睿洞察(ID:siruidongcha),作者:Renee,編輯:孫越,微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載。
2023年,投資機(jī)構(gòu)與股民們,正向AI芯片領(lǐng)域的上市公司,發(fā)起奪命三連問:
你做存算一體芯片了嗎?
(投資者向?yàn)懫鹂萍继釂?圖源:同花順財(cái)經(jīng))
存算一體芯片進(jìn)度如何?
(投資者向東芯股份提問 圖源:同花順財(cái)經(jīng))
存算一體芯片前景如何?
(投資者向恒爍股份提問圖源:同花順財(cái)經(jīng))
以上的一系列發(fā)問,意味著存算一體不再“停留”于學(xué)界與產(chǎn)界,儼然火到了二級(jí)市場(chǎng):股民、券商機(jī)構(gòu)正加班加點(diǎn)狂補(bǔ)存算一體的課,于是傳統(tǒng)芯片大廠從2023年初至今,一直被“拷問”存算一體的布局情況。
一個(gè)自然而然的疑問是,存算一體為何突然變得如此火爆?
7.14發(fā)布新存儲(chǔ)產(chǎn)品OceanStor A310的華為,給出了自己的答案。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰表示,在通用大模型與行業(yè)大模型的訓(xùn)練推理中面臨著諸多數(shù)據(jù)難題:海量數(shù)據(jù)跨域歸集慢、預(yù)處理與訓(xùn)練中數(shù)據(jù)交互效率低、數(shù)據(jù)安全流動(dòng)難。
AI大模型對(duì)存儲(chǔ)帶來了新的挑戰(zhàn),比如穩(wěn)定性相較于傳統(tǒng)AI更差,同時(shí)有大量的數(shù)據(jù)預(yù)處理和準(zhǔn)備工作,需要用近存計(jì)算(存算一體的一種)來系統(tǒng)性處理這個(gè)問題。
那么,這里“大量的數(shù)據(jù)”究竟有多少?據(jù)偲睿洞察測(cè)算,現(xiàn)階段 ChatGPT 日活一億,若每日有5%的人每秒同時(shí)提問,將會(huì)吞噬三峽大壩近一年的發(fā)電量。
換言之,大模型正瘋狂索取算力,而以存算一體為代表的新興解決方案能夠解決大模型帶來的諸多挑戰(zhàn)。而事實(shí)上,大模型除了對(duì)算力提出嚴(yán)苛要求外,也給了AI芯片廠商“不少糖吃”。
本文試圖探究,大模型背景下,給了AI芯片廠商怎樣的好處?被ChatGPT“帶火”的存算一體廠商,未來格局如何?
PART-01“福禍相依”的AI芯片廠商
大模型的風(fēng)還在呼嘯,有關(guān)大模型的討論仍在如火如荼地進(jìn)行。
8月初,在中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)人工智能會(huì)議分論壇——“見疆見昆侖·AI大模型算力前沿”上,專家學(xué)者們一致表示,大模型時(shí)代,智能算力成為“稀缺資產(chǎn)”,如何善用算力資源,發(fā)揮其最大效益,已經(jīng)成為每個(gè)參與者必須面對(duì)的挑戰(zhàn)。
而光是GPT-3對(duì)算力索取量,保守情況下,需三峽大壩徹夜“打工”才能滿足:
假設(shè)有1億人同時(shí)在線,每日有5%的人每秒同時(shí)提問,每個(gè)prompt占30個(gè)token,便需要1530萬顆H100芯片來提供其推理算力;而每顆H100的功耗在750W左右,若每天運(yùn)行10個(gè)小時(shí),這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將達(dá)到840億kW*h,而三峽大壩一年的發(fā)電量是882億kW*h。
讓AI芯片廠商更為焦慮的是,這還只是ChatGPT一個(gè)大模型在推理階段的耗電量,百家大模型全階段、全部運(yùn)作的耗電量,難以估量。
于是,一系列新興的解決方案紛紛被廠商挖掘出來:存算一體、chiplet、HBM等等。在這之中,由于存算一體推翻了傳統(tǒng)馮諾依曼架構(gòu)下的存儲(chǔ)墻,實(shí)實(shí)在在做到了降本增效,成為今年的“紫微星”。
(圖源:偲睿洞察《AI大算力芯片行業(yè)報(bào)告-百舸爭(zhēng)流,創(chuàng)新者先》)
除了新興方案涌現(xiàn)讓AI芯片廠商喘了一口氣之外,大模型也為芯片廠商尤其是初創(chuàng)芯片廠商,帶來一個(gè)利好消息:軟件生態(tài)重要性正在下降。
早先技術(shù)不夠成熟之時(shí),研究者們只能從解決某個(gè)特定問題起步,參數(shù)量低于百萬的小模型由此誕生。例如谷歌旗下的AI公司DeepMind,讓AlphaGO對(duì)上百萬種人類專業(yè)選手的下棋步驟進(jìn)行專項(xiàng)“學(xué)習(xí)”。
而小模型多了之后,硬件例如芯片的適配問題迫在眉睫。故,當(dāng)英偉達(dá)推出統(tǒng)一生態(tài)CUDA之后,GPU+CUDA迅速博得計(jì)算機(jī)科學(xué)界認(rèn)可,成為人工智能開發(fā)的標(biāo)準(zhǔn)配置。
現(xiàn)如今紛紛涌現(xiàn)的大模型具備多模態(tài)能力,能夠處理文本、圖片、編程等問題,也能夠覆蓋辦公、教育、醫(yī)療等多個(gè)垂直領(lǐng)域。這也就意味著,適應(yīng)主流生態(tài)并非唯一的選擇:在大模型對(duì)芯片需求量暴漲之時(shí),芯片廠商或許可以只適配1-2個(gè)大模型,便能完成以往多個(gè)小模型的訂單。
也就是說,ChatGPT的出現(xiàn),為初創(chuàng)芯片廠商們提供了彎道超車的機(jī)會(huì)。這就意味著,AI芯片市場(chǎng)格局將發(fā)生巨變:不再是個(gè)別廠商的獨(dú)角戲,而是多個(gè)創(chuàng)新者的群戲。
當(dāng)算力成為稀缺貨,同時(shí)適應(yīng)主流生態(tài)不再成為必選項(xiàng)時(shí),存算一體難掩光芒。此時(shí),要不要投入,要投入多少,成為擺在AI芯片廠商面前的第二道難題。
對(duì)此,“過來人”芯片巨頭NVIDIA摸爬滾打多年給出的答案是,勇于創(chuàng)新,重金投入:
每一個(gè)新興技術(shù)的研發(fā)廠商,在前期無疑要面臨技術(shù)探索碰壁,下游廠商不認(rèn)同等各個(gè)層面的問題。而在早期,誰先預(yù)判到未來的發(fā)展趨勢(shì),并勇于邁出探索的腳步,鋪下合理的資源去嘗試,就會(huì)搶到先機(jī)。
當(dāng)數(shù)據(jù)中心浪潮還未鋪天蓋地襲來、人工智能訓(xùn)練還是小眾領(lǐng)域之時(shí),英偉達(dá)已經(jīng)投入重金,研發(fā)通用計(jì)算GPU和統(tǒng)一編程軟件CUDA,為英偉達(dá)謀一個(gè)好差事——計(jì)算平臺(tái)。
而在當(dāng)時(shí),讓GPU可編程,是“無用且虧本”的:不知道其性能是否能夠翻倍,但產(chǎn)品研發(fā)會(huì)翻倍。為此,沒有客戶愿意為此買單。但預(yù)判到單一功能圖形處理器不是長(zhǎng)遠(yuǎn)之計(jì)的英偉達(dá)毅然決定,在所有產(chǎn)品線上都應(yīng)用CUDA。
在芯東西與英偉達(dá)中國(guó)區(qū)工程和解決方案高級(jí)總監(jiān)賴俊杰博士的采訪中,賴俊杰表示:“為了計(jì)算平臺(tái)這一愿景,早期黃仁勛快速調(diào)動(dòng)了英偉達(dá)上上下下非常多的資源。”
遠(yuǎn)見+重金投入,在2012年,英偉達(dá)拿到了創(chuàng)新者的獎(jiǎng)勵(lì):2012年,深度學(xué)習(xí)算法的計(jì)算表現(xiàn)轟動(dòng)學(xué)術(shù)圈,作為高算力且更為通用、易用的生產(chǎn)力工具,GPU+CUDA迅速風(fēng)靡計(jì)算機(jī)科學(xué)界,成為人工智能開發(fā)的“標(biāo)配”。
在AI大算力芯片的征途上,存算一體芯片迎來了自己的“黃金期”,超前投入,是為正解。
PART-02非技術(shù)、資金雄厚者,勿進(jìn)
窺見到存算一體的種種好處,現(xiàn)階段,存算一體芯片玩家陣營(yíng)日益龐大。
(圖源:偲睿洞察《AI大算力芯片行業(yè)報(bào)告-百舸爭(zhēng)流,創(chuàng)新者先》)
據(jù)偲睿洞察不完全統(tǒng)計(jì),自2019年起,新增的AI芯片廠商,多數(shù)在布局存算一體:在2019-2021年新增的AI芯片廠商有20家,在這之中,有10家選擇存算一體路線。
這無一不說明著,存算一體將成為繼GPGPU、ASIC等架構(gòu)后的,一顆冉冉升起的新星。而這顆新星,并不是誰都可以摘。
在學(xué)界、產(chǎn)界、資本一致看好存算一體的境況下,強(qiáng)勁的技術(shù)實(shí)力、扎實(shí)的人才儲(chǔ)備以及對(duì)遷移成本接受度的精準(zhǔn)把控,是初創(chuàng)公司在業(yè)內(nèi)保持競(jìng)爭(zhēng)力的關(guān)鍵,也是擋在新玩家面前的三大門檻。
強(qiáng)勁的技術(shù)實(shí)力,永遠(yuǎn)是芯片領(lǐng)域的最高山。
首先是存算一體“涉獵廣泛”,涉及到芯片制造的全環(huán)節(jié):從最底層的器件,到電路設(shè)計(jì),架構(gòu)設(shè)計(jì),工具鏈,再到軟件層的研發(fā);其次是其“牽一發(fā)而動(dòng)全身”:在每一層做相應(yīng)改變的同時(shí),還要考慮各層級(jí)之間的適配度。
我們一層一層來看,一顆存算一體芯片被造出來,有怎樣的技術(shù)難題。
首先,在器件選擇上,廠商就“如履薄冰”:存儲(chǔ)器設(shè)計(jì)決定芯片的良率,一旦方向錯(cuò)誤將可能導(dǎo)致芯片無法量產(chǎn)。
其次是電路設(shè)計(jì)層面。電路層面有了器件之后,需要用其做存儲(chǔ)陣列的電路設(shè)計(jì)。而目前在電路設(shè)計(jì)上,存內(nèi)計(jì)算沒有EDA工具指導(dǎo),需要靠手動(dòng)完成,無疑又大大增加了操作難度。
緊接著,架構(gòu)層面有電路之后,需要做架構(gòu)層的設(shè)計(jì)。每一個(gè)電路是一個(gè)基本的計(jì)算模塊,整個(gè)架構(gòu)由不同模塊組成,存算一體模塊的設(shè)計(jì)決定了芯片的能效比。模擬電路會(huì)受到噪聲干擾,芯片受到噪聲影響后運(yùn)轉(zhuǎn)起來會(huì)遇到很多問題。
這種情況下,需要芯片架構(gòu)師足夠了解模擬存內(nèi)計(jì)算的工藝特點(diǎn),同時(shí)針對(duì)這些特點(diǎn)去設(shè)計(jì)架構(gòu),在此基礎(chǔ)上,還要考慮到架構(gòu)與軟件開發(fā)的適配度。軟件層面架構(gòu)設(shè)計(jì)完成后,還需要開發(fā)相應(yīng)的工具鏈。
(圖源:偲睿洞察《AI大算力芯片行業(yè)報(bào)告-百舸爭(zhēng)流,創(chuàng)新者先》)
而由于存算一體的原始模型與傳統(tǒng)架構(gòu)下的模型不同,編譯器要適配完全不同的存算一體架構(gòu),確保所有計(jì)算單元能夠映射到硬件上,并且順利運(yùn)行。
一條完整的技術(shù)鏈條下來,考驗(yàn)著器件、電路設(shè)計(jì)、架構(gòu)設(shè)計(jì)、工具鏈、軟件層開發(fā)各個(gè)環(huán)節(jié)的能力,與協(xié)調(diào)各個(gè)環(huán)節(jié)的適配能力,是耗時(shí)耗力耗錢的持久戰(zhàn)。
同時(shí),根據(jù)以上環(huán)節(jié)操作流程可以看到,存算一體芯片亟需經(jīng)驗(yàn)豐富的電路設(shè)計(jì)師、芯片架構(gòu)師。
鑒于存算一體的特殊性,能夠做成存算一體的公司在人員儲(chǔ)備上需要有以下兩點(diǎn)特征:
1、帶頭人需有足夠魄力。在器件選擇(RRAM、SRAM等)、計(jì)算模式(傳統(tǒng)馮諾依曼、存算一體等)的選擇上要有清晰的思路。這是因?yàn)椋嫠阋惑w作為一項(xiàng)顛覆、創(chuàng)新技術(shù),無人引領(lǐng),試錯(cuò)成本極高。能夠?qū)崿F(xiàn)商業(yè)化的企業(yè),創(chuàng)始人往往具備豐富的產(chǎn)業(yè)界、大廠經(jīng)驗(yàn)和學(xué)術(shù)背景,能夠帶領(lǐng)團(tuán)隊(duì)快速完成產(chǎn)品迭代。
2、在核心團(tuán)隊(duì)中,需要在技術(shù)的各個(gè)層級(jí)中配備經(jīng)驗(yàn)豐富的人才。例如架構(gòu)師,其是團(tuán)隊(duì)的核心。架構(gòu)師需要對(duì)底層硬件,軟件工具有深厚的理解和認(rèn)知,能夠把構(gòu)想中的存算架構(gòu)通過技術(shù)實(shí)現(xiàn)出來,最終達(dá)成產(chǎn)品落地;
3、此外,據(jù)量子位報(bào)告顯示,國(guó)內(nèi)缺乏電路設(shè)計(jì)的高端人才,尤其在混合電路領(lǐng)域。存內(nèi)計(jì)算涉及大量的模擬電路設(shè)計(jì),與強(qiáng)調(diào)團(tuán)隊(duì)協(xié)作的數(shù)字電路設(shè)計(jì)相比,模擬電路設(shè)計(jì)需要對(duì)于工藝、設(shè)計(jì)、版圖、模型pdk以及封裝都極度熟悉的個(gè)人設(shè)計(jì)師。
而這一系列的人才與技術(shù),都要以落地效果為終極目標(biāo)——落地才是第一生產(chǎn)力。在交付時(shí),客戶考量的并不僅僅是存算一體技術(shù),而是相較于以往產(chǎn)品而言,存算一體整體SoC的能效比、面效比和易用性等性能指標(biāo)是否有足夠的提升,更重要的是,遷移成本是否在承受范圍內(nèi)。
如果選擇新的芯片提升算法表現(xiàn)力需要重新學(xué)習(xí)一套編程體系,在模型遷移上所花的人工成本高出購買一個(gè)新GPU的成本,那么客戶大概率不會(huì)選擇使用新的芯片。
因此,存算一體在落地過程中是否能將遷移成本降到最低,是客戶在選擇產(chǎn)品時(shí)的關(guān)鍵因素。
在大模型背景下,存算一體芯片憑借著低功耗但高能效比的特性,正成為芯片賽道,冉冉升起的一顆新星。現(xiàn)如今,存算一體市場(chǎng)風(fēng)云未定,仍處于“小荷才露尖尖角”階段。
但我們不可否認(rèn)的是,存算一體玩家已然構(gòu)筑了三大高墻,非技術(shù)實(shí)力雄厚,人才儲(chǔ)備扎實(shí)者,勿進(jìn)。
本文為專欄作者授權(quán)微新創(chuàng)想發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表微新創(chuàng)想立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系http://www.i0562.net/。