人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

AI的大模型時(shí)代 ≠ 只有大模型的AI時(shí)代

聲明:本文來自于微信公眾號(hào) 量子位(ID:QbitAI),作者:量子位,授權(quán)微新創(chuàng)想轉(zhuǎn)載發(fā)布。

什么樣的技術(shù)能經(jīng)歷時(shí)間洗禮還歷久彌新?

答案或許可以歸總為一個(gè)“三部曲”般的規(guī)律——興起發(fā)展大規(guī)模應(yīng)用,外加這個(gè)過程再一次演進(jìn)式的迭代。

以史為鑒,引領(lǐng)第一次工業(yè)革命的是蒸汽機(jī),當(dāng)它演進(jìn)成為內(nèi)燃機(jī)并開始普及時(shí),第二次工業(yè)革命的顛覆者——電能本身以及與它相關(guān)的各種設(shè)備正處于初創(chuàng)期,而在電力設(shè)備走向微電子的迭代革新時(shí),各種燃油引擎還在持續(xù)改良和普及中。

從這個(gè)規(guī)律來看,大語言模型(簡稱LLM)出現(xiàn)后雖然霸占了所有與AI相關(guān)的關(guān)鍵詞,吸引了所有人的注意力,但這并不代表“LLM之前無AI”。

大模型出盡風(fēng)頭的同時(shí),此前以決策為特長的老一代機(jī)器學(xué)習(xí)應(yīng)用,以及側(cè)重感知能力的“傳統(tǒng)”深度學(xué)習(xí)應(yīng)用也沒閑著,它們正走過喧囂的青春期,步入穩(wěn)扎穩(wěn)打的實(shí)戰(zhàn)階段。

何以為證?

某芯片大廠就推出了一連串的AI實(shí)戰(zhàn)手冊(cè),分別鎖定制造與能源、醫(yī)藥、金融、交通與物流,以及教育行業(yè)的AI實(shí)踐。

在今年更新的物流交通和醫(yī)療健康A(chǔ)I實(shí)戰(zhàn)手冊(cè)中,就記錄了很多已經(jīng)或正在落地的AI應(yīng)用,及如何將它們順利部署和充分釋放其性能加速潛力,當(dāng)然還有它們?cè)谝恍┒炷茉數(shù)念^部企業(yè)深入一線的應(yīng)用實(shí)例。

所以,AI不是只有大模型。AI的大模型時(shí)代也 ≠ 只有大模型的AI時(shí)代。

成熟的AI,早就已經(jīng)上崗了

或許你還不敢相信,現(xiàn)在哪怕小小的快遞背后,都已經(jīng)有AI技術(shù)在加持了。

沒錯(cuò),而且近乎涉足了物流全流程:下單、發(fā)貨、分揀、轉(zhuǎn)運(yùn)、配送……AI現(xiàn)在統(tǒng)統(tǒng)都要“管一管”。

以經(jīng)典的OCR(光學(xué)字符識(shí)別)技術(shù)為例,它在物流“技術(shù)界”的地位可謂是舉足輕重,大幅提高了工作效率。

比如發(fā)貨時(shí)的寄件人填報(bào)地址、身份信息,電商倉庫核對(duì)出貨的貨品信息,都可以借助OCR,“啪地一下”,實(shí)現(xiàn)一鍵錄入。

隨著AI技術(shù)的愈發(fā)完善和應(yīng)用的加深,這種速度做到了“沒有最快只有更快”。

我們熟知的韻達(dá)快遞就是如此,在三段碼OCR識(shí)別過程中,它原本希望AI能將OCR識(shí)別的準(zhǔn)確率達(dá)到95%。

結(jié)果現(xiàn)在的AI卻給韻達(dá)“上了一課”,不僅準(zhǔn)確率直接飆到接近98%,甚至?xí)r間也給“打了下去”:從130ms降至114ms。

性能測(cè)試結(jié)果基于韻達(dá)于2022年10月進(jìn)行的測(cè)試

而且OCR識(shí)別還僅僅是AI涉足物流行業(yè)的小小一隅,一張圖來看感受下它現(xiàn)在所起到的power:

嗯,AI如此all in,怪不得國內(nèi)物流的速度都要起飛了呢。

不過朋友,這還僅僅是AI加速千行百業(yè)的一個(gè)案例,其實(shí)我們現(xiàn)在每天的出行,同樣也是充斥著AI的“味道”。

例如AI視頻分析技術(shù),可以針對(duì)高速公路上的路況做到實(shí)時(shí)地分析。

不論是車流流量監(jiān)控、車輛車牌識(shí)別,亦或是事故預(yù)警等等,AI可謂是將一切盡收眼底。

如此一來,便可以有效且精準(zhǔn)地對(duì)路面狀況做到把控。

再如機(jī)場(chǎng),在AI技術(shù)加持下的攝像頭,也可以細(xì)粒度識(shí)別航空器、車輛、人員,以及違邊等情況,這樣便對(duì)飛行區(qū)域的安全提供了一定的保障。

……

從以上幾個(gè)小小用例中不難看出,“成熟”的AI,或者說幾年前那些當(dāng)紅明星類的AI應(yīng)用看似風(fēng)光不在,但它們實(shí)則已深入到我們生活中的方方面面,并且主打的就是一個(gè)“節(jié)支增效”。

那么如此“節(jié)支增效”背后,到底是怎么做到的?

不賣關(guān)子,直接上答案——

提供幫助的正是英特爾的平臺(tái),特別是至強(qiáng)??可擴(kuò)展處理器。同樣,我們前文所指的某芯片大廠也是英特爾,給出多個(gè)行業(yè)AI實(shí)戰(zhàn)手冊(cè)的還是它。

但解鎖如此能力的,可不僅僅是一顆CPU這么簡單,而是有英特爾軟件層面上的優(yōu)化加成;換言之,就是“軟硬一體”后的結(jié)果。

簡單歸結(jié):至強(qiáng)??可擴(kuò)展處理器及其內(nèi)置的AI加速器,以及OpenVINO??,oneAPI等一系列AI框架和優(yōu)化軟件打輔助。

當(dāng)前影響AI應(yīng)用性能的要素?zé)o非兩個(gè):算力和數(shù)據(jù)訪問速度。

目前最新第四代至強(qiáng)??可擴(kuò)展處理器的單顆CPU核數(shù)已經(jīng)增長到最高60核。而在數(shù)據(jù)訪問速度上,各級(jí)緩存大小、內(nèi)存通道數(shù)、內(nèi)存訪問速度等都有一定程度的優(yōu)化,另外在CPU Max系列中還集成了HBM高帶寬內(nèi)存技術(shù)

此外,在CPU指令集上也做了優(yōu)化,內(nèi)置了英特爾??高級(jí)矩陣擴(kuò)展(英特爾??AMX)等硬件加速器,負(fù)責(zé)矩陣計(jì)算,加速深度學(xué)習(xí)工作負(fù)載,堪稱CPU加速AI應(yīng)用的C位。

它有點(diǎn)類似于GPU里的張量核心(Tensor Core)。

AMX由兩部分組成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模塊,用來執(zhí)行矩陣乘法指令。它可同時(shí)支持INT8和BF16數(shù)據(jù)類型,且BF16相較于FP32計(jì)算性能更優(yōu)。

有了AMX指令集加持,性能比前一代至強(qiáng)??可擴(kuò)展處理器內(nèi)置的矢量神經(jīng)網(wǎng)絡(luò)指令集VNNI提升達(dá)8倍,甚至更高。

除了核心硬件平臺(tái)外,實(shí)際情況中幫助這些行業(yè)實(shí)戰(zhàn)AI應(yīng)用落地的,還有一系列英特爾“親生”但不“私享”的AI軟件工具。

例如前面提到的OCR加速就離不開OpenVINO??的優(yōu)化,它刪減了很多訓(xùn)練部分所需的冗余計(jì)算,主要支持推理部分。

而且也是專門針對(duì)英特爾硬件打造的優(yōu)化框架,只需5行代碼就可以完成原有框架的替換。

用戶可以針對(duì)不同業(yè)務(wù)場(chǎng)景,來優(yōu)化OpenVINO??運(yùn)行參數(shù)。

這樣一套軟硬件組合拳打下來,英特爾不僅充分釋放了CPU計(jì)算潛力,而且在實(shí)際的推理場(chǎng)景中也實(shí)現(xiàn)了近乎GPU的性能,同時(shí)還有成本低、門檻低、易上手等附加優(yōu)勢(shì)。

然而,這些僅僅是已經(jīng)成熟上崗的AI技術(shù)在英特爾??平臺(tái)得到的優(yōu)化,英特爾的能力還遠(yuǎn)不止如此。

這就要說回大模型了。

當(dāng)紅大模型,也在被加速

目前大語言模型正被全球各大科技公司競(jìng)相追逐,畢竟現(xiàn)在科技圈都將它視為未來發(fā)展的趨勢(shì)所在。

雖然相比那些成熟的AI技術(shù)和應(yīng)用,它距大規(guī)模落地還有段距離,但其技術(shù)領(lǐng)先性不容置疑,乃至“老一輩”的AI應(yīng)用也有望在與它結(jié)合,或被它改造后重?zé)ㄐ律?/p>

英特爾作為基礎(chǔ)算力輸出者和應(yīng)用性能加速器,同樣在這場(chǎng)你追我趕的競(jìng)技場(chǎng)中未雨綢繆,早有布局。

首先,大模型再先進(jìn),也需要有更多人用上它,才可充分變現(xiàn)其價(jià)值。要想“玩轉(zhuǎn)”它,在其龐大的體量面前,成本便是一個(gè)老大難的問題。

因此,英特爾就祭出了一款增強(qiáng)型的“減(量)重(化)神(工)器(具)”,可以讓一個(gè)十億參數(shù)的大語言模型瘦身3/4,增強(qiáng)其準(zhǔn)確性,還能有效地提升大模型在英特爾??平臺(tái)上的推理性能。

具體而言,所用到的是SmoothQuant技術(shù),英特爾將其適配到自己的平臺(tái),并實(shí)現(xiàn)其增強(qiáng)。此方法已經(jīng)整合至英特爾??Neural Compressor。這是一個(gè)包含量化、剪枝(稀疏性)、蒸餾(知識(shí)提煉)和神經(jīng)架構(gòu)搜索等多種常用模型壓縮技術(shù)的開源Python庫,它已經(jīng)支持多款英特爾??架構(gòu)的硬件,并且已經(jīng)兼容TensorFlow、PyTorch、ONNX Runtime 和MXNet等主流框架。

其次,在硬件層面上,英特爾也有所發(fā)力。

例如最近大火的ChatGLM-6B,其借助第四代至強(qiáng)??可擴(kuò)展處理器內(nèi)置的英特爾??AMX,讓模型微調(diào)計(jì)算速度得以大幅提升;利用至強(qiáng)??CPU Max系列處理器集成的HBM,滿足大模型微調(diào)所需的大內(nèi)存帶寬。

英特爾? AMX 技術(shù)架構(gòu)

除了CPU,英特爾還有專用的深度學(xué)習(xí)加速芯片Habana??Gaudi??2,其能在單個(gè)服務(wù)器內(nèi)部署8張加速卡(稱為Habana處理單元,即Habana Processing Unit,簡稱為HPU),每張卡內(nèi)存高達(dá)96GB,可提供足夠的空間來容納大模型。

因此即使是BLOOMZ這樣擁有1760億參數(shù)的千億級(jí)大語言模型,經(jīng)英特爾優(yōu)化后也能將性能時(shí)延控制在3.7秒。對(duì)于參數(shù)量為70億的較小模型BLOOMZ-7B,在Gaudi??2的單設(shè)備時(shí)延約為第一代Gaudi??的37.21%;而當(dāng)設(shè)備數(shù)量都增加為8后,這一百分比進(jìn)一步下降至約24.33%。

BLOOMZ 在Gaudi??2和第一代Gaudi??上的推理時(shí)延測(cè)試結(jié)果

而后在軟件層面上,針對(duì)像ChatGLM這樣大受歡迎的大語言模型,英特爾還可以通過為其創(chuàng)建 OpenVINO? stateful模型來實(shí)現(xiàn)優(yōu)化:壓縮權(quán)重以降低內(nèi)存帶寬使用率,提升推理速度。

這便是英特爾“軟硬一體”打法在大模型應(yīng)用上的直接體現(xiàn)了。而且硬件還不再僅限于CPU,更是有可在訓(xùn)練和推理性能上都可與GPU比肩,在性價(jià)比上饞哭大家的Gaudi??。

最后在安全方面,英特爾也是做到了“魚與熊掌兼得”:基于英特爾??SGX/TDX的可信執(zhí)行環(huán)境(TEE)可為大模型提供更安全的運(yùn)行環(huán)境,還不需要拿性能做交換。

這便是英特爾在AI大模型時(shí)代中的“加速之道”了。

還會(huì)帶來怎樣的變革?

縱觀AI技術(shù)的發(fā)展之路,不難發(fā)現(xiàn)英特爾在其中履行著一條非常清晰的準(zhǔn)則——用起來才是硬道理。甚至只在數(shù)據(jù)中心和邊緣中用都不夠,最好每個(gè)人的每臺(tái)電腦,每個(gè)信息終端設(shè)備都有獨(dú)立加速AI應(yīng)用的能力才能“芯”滿意足。

因此英特爾已將創(chuàng)新使命調(diào)整為:在各種硬件產(chǎn)品中加入AI能力,并通過開放、多架構(gòu)的軟件解決方案,推動(dòng)AI應(yīng)用的普及,促進(jìn)“芯經(jīng)濟(jì)”的崛起。

英特爾的“加速之道”不僅是讓技術(shù)更快落地和普及,更是要以用促用,以用促新,以用促變,為下一世代的技術(shù)變革埋下伏筆。

那么英特爾這條路上是否有一個(gè)終極目標(biāo)?

或許正如Intel Innovation2023上不斷重復(fù)和強(qiáng)調(diào)的:

讓AI無處不在(AI Everywhere)。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開。 必填項(xiàng)已用 * 標(biāo)注