人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

數(shù)據(jù)標(biāo)注“流水線(xiàn)”里,藏著大模型的秘密

編者按:本文來(lái)自微信公眾號(hào) 財(cái)經(jīng)十一人(ID:lcaijingEleven),作者:劉以秦,編輯:謝麗容,微新創(chuàng)想經(jīng)授權(quán)轉(zhuǎn)載。

海南人阿黃學(xué)的是設(shè)計(jì)專(zhuān)業(yè),之前做了5年設(shè)計(jì)工作,今年公司倒了,現(xiàn)在他給AI大模型做數(shù)據(jù)標(biāo)注。

他用過(guò)ChatGPT和文心一言,也知道外面有很多人在高喊“大模型前景廣闊”,“所有行業(yè)都值得用大模型再做一遍”。但他從沒(méi)認(rèn)為自己的工作是在“參與未來(lái)”。他做的工作是給AI大模型做數(shù)據(jù)標(biāo)注,通俗地說(shuō),是給大模型找錯(cuò)、修改、打分。坐在工位上,阿黃熟練又機(jī)械地點(diǎn)著鼠標(biāo),“又是同樣的錯(cuò)誤”,他心想,“大模型挺傻的。”

中國(guó)上一波AI浪潮始于2017年,到今天,主要服務(wù)于自動(dòng)駕駛和人臉識(shí)別的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)已經(jīng)很成熟。給上一代AI模型做標(biāo)注工作,主要以“打點(diǎn)”和“畫(huà)框”為主,就是讓機(jī)器學(xué)習(xí)什么是“人臉”,什么是“障礙物”。現(xiàn)在的大模型的標(biāo)注更像是在做閱讀理解,讓AIGC(生成式AI)學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容。

阿黃每天的工作就是坐在電腦前,等待系統(tǒng)隨機(jī)給他一組數(shù)據(jù),包含1個(gè)問(wèn)題和5個(gè)回答。他需要先標(biāo)注出這個(gè)問(wèn)題屬于什么類(lèi)型,隨后給5個(gè)回答分別打分并排序。分?jǐn)?shù)區(qū)間為0-5分,如果打分低于3分,還要標(biāo)注出具體原因,例如“答非所問(wèn)(0分)”、“嚴(yán)重跑題(1分)”、“存在邏輯問(wèn)題,存在事實(shí)性錯(cuò)誤,比例較小給2分”等。

新技術(shù)帶動(dòng)了中國(guó)大模型熱潮,沉寂了幾年的數(shù)據(jù)標(biāo)注行業(yè)迎來(lái)新機(jī)會(huì),一位業(yè)內(nèi)人士告訴《財(cái)經(jīng)十一人》,最近數(shù)據(jù)標(biāo)注公司的訂單量明顯多了,基本都是大模型的需求。

大模型通過(guò)海量數(shù)據(jù)和巨大算力的共同作用,讓機(jī)器變得更像人。注入海量數(shù)據(jù)后,大模型會(huì)掌握一定的邏輯思維和通識(shí),也就是成為一個(gè)“預(yù)訓(xùn)練模型”,但僅僅是“注入”還遠(yuǎn)遠(yuǎn)不夠。

預(yù)訓(xùn)練模型就像是一個(gè)未經(jīng)馴化的“野獸”,因?yàn)閿?shù)據(jù)基本是無(wú)差別抓取,其中會(huì)有互聯(lián)網(wǎng)上常見(jiàn)的誘導(dǎo)性?xún)?nèi)容、錯(cuò)誤信息、陰謀論、攻擊性?xún)?nèi)容等。必須通過(guò)不斷調(diào)優(yōu)來(lái)讓這頭“野獸”更加合乎常理,被社會(huì)接受。

標(biāo)注師的工作就是“調(diào)優(yōu)”,給機(jī)器生成的內(nèi)容挑錯(cuò)、修改、打分。相當(dāng)于給機(jī)器一個(gè)具體反饋,低分是“懲罰”,高分就是“獎(jiǎng)勵(lì)”,理想狀態(tài)下,機(jī)器會(huì)逐漸往高分的方向進(jìn)化。

數(shù)據(jù)就是養(yǎng)料,所謂的“理想狀態(tài)”,指的是機(jī)器能持續(xù)獲得足夠多且有質(zhì)量的數(shù)據(jù),這樣才能“健康成長(zhǎng)”。但現(xiàn)在的大模型數(shù)據(jù)標(biāo)注還不夠“理想”。

此前,業(yè)內(nèi)將中國(guó)公司的大模型距離GPT4還有明顯差距的其中一個(gè)主要原因,歸結(jié)于算力資源不夠。

也有不少業(yè)內(nèi)人士提到數(shù)據(jù)質(zhì)量較低,但數(shù)據(jù)質(zhì)量為何較低,從數(shù)據(jù)標(biāo)注的“流水線(xiàn)”上,能找到一部分原因。

1、本科生組成的標(biāo)注流水線(xiàn)

阿黃是在招聘網(wǎng)站上看到某標(biāo)注基地在招人,入職前他上網(wǎng)搜了一下數(shù)據(jù)標(biāo)注的相關(guān)的信息,看到的都是畫(huà)框型標(biāo)注。當(dāng)年,數(shù)據(jù)標(biāo)注被稱(chēng)為AI領(lǐng)域的流水線(xiàn)工廠(chǎng),通常集中在東南亞、非洲或是中國(guó)的河南、山西、山東等人力資源豐富的地區(qū)。為了控制成本,標(biāo)注公司的老板們會(huì)在縣城里租一塊場(chǎng)地,擺上電腦,有訂單了就在附近招人兼職來(lái)做,沒(méi)單子就解散休息。簡(jiǎn)單來(lái)說(shuō),這個(gè)工種有點(diǎn)類(lèi)似馬路邊上的臨時(shí)裝修工。

大模型時(shí)代的數(shù)據(jù)標(biāo)注工作顯然不一樣了。阿黃的辦公環(huán)境相比過(guò)去好了不少,窗明幾凈的寫(xiě)字樓,有自己的工位,很寬敞,上下班要打卡,看起來(lái)和互聯(lián)網(wǎng)公司里的白領(lǐng)們差不多。事實(shí)上也是如此,阿黃的同事基本是本科畢業(yè)學(xué)歷。

不過(guò),他依然覺(jué)得自己是個(gè)流水線(xiàn)工人。

數(shù)據(jù)標(biāo)注行業(yè)流傳的一句話(huà)是“有多少智能,就有多少人工”,這句話(huà)放到今天依然適用。有媒體報(bào)道,OpenAI的前期數(shù)據(jù)標(biāo)注員大多在肯尼亞,主要工作是幫大模型過(guò)濾掉“有害”內(nèi)容,標(biāo)注員月薪在200到300美元之間。

阿黃和同事們的月薪約5000元,“按完成的題目數(shù)量計(jì)費(fèi)”。他說(shuō),入行的門(mén)檻不算高,且工作節(jié)奏不快,“基本上6、7點(diǎn)以后大家都下班了。”收入在當(dāng)?shù)夭凰愕停D鲜〗y(tǒng)計(jì)局披露的2022年海南省城鎮(zhèn)私營(yíng)單位就業(yè)人員年平均工資為65519元(相當(dāng)于月薪5460元),“以前做設(shè)計(jì)的時(shí)候沒(méi)日沒(méi)夜的加班,也就這個(gè)水平。”

阿黃對(duì)這份工作基本滿(mǎn)意。唯一不太滿(mǎn)意的主要原因是“無(wú)聊”,且看不清未來(lái)的方向。他最大的焦慮是,學(xué)歷、專(zhuān)業(yè)對(duì)于這份工作沒(méi)有特別的加成作用。未來(lái)也很難有相關(guān)的職業(yè)發(fā)展路徑,他們并不能從這份工作中積累到相關(guān)知識(shí),熟悉更多技術(shù)。

阿黃最喜歡標(biāo)注的是文案撰寫(xiě)類(lèi)的問(wèn)答,比如“寫(xiě)一段宣傳稿”,因?yàn)锳I生成的答案質(zhì)量都不錯(cuò),不需要標(biāo)注員更多介入,完成得很輕松。稍微難一些的是涉及到事實(shí)核查的問(wèn)答,例如問(wèn)題是“如何建立稅收風(fēng)險(xiǎn)管理體系”,根據(jù)工作流程,他只需要去百度上搜索稅收相關(guān)的內(nèi)容。當(dāng)然了,不是所有的內(nèi)容都能用,例如貼吧、社區(qū)上個(gè)人用戶(hù)發(fā)布的內(nèi)容就不行,“要找更權(quán)威一點(diǎn)的”。但他無(wú)法保證準(zhǔn)確。

還有些一看就是用戶(hù)問(wèn)來(lái)為難大模型的問(wèn)題,例如“扭蛋和雞蛋哪個(gè)更好吃”?那些“一本正經(jīng)胡說(shuō)八道”的回答基本都出現(xiàn)在這里。阿黃認(rèn)為這是機(jī)器現(xiàn)在還“挺傻”的表現(xiàn),即使他們反復(fù)標(biāo)注,機(jī)器依然在犯同樣的錯(cuò)誤。

和過(guò)去數(shù)據(jù)標(biāo)注的不同之處在于,“畫(huà)框”是有標(biāo)準(zhǔn)答案的,但是很多大模型相關(guān)的內(nèi)容沒(méi)有標(biāo)準(zhǔn)答案,有些問(wèn)題本身就會(huì)有多個(gè)正確答案。不過(guò)阿黃也不需要去思考到底哪種回答更好,如果遇到有爭(zhēng)議的內(nèi)容,他只需要提交給工作群里的“老師”,以“老師”的回答為準(zhǔn)即可。“老師”可以理解為行業(yè)經(jīng)驗(yàn)更豐富或是更理解客戶(hù)需求的標(biāo)注師。

標(biāo)注完成后,還會(huì)有審核抽查,阿黃說(shuō),一次大約抽查2-3道題,審核員認(rèn)為標(biāo)注得不對(duì),就會(huì)打回來(lái)重新標(biāo)。審核員主要來(lái)自數(shù)據(jù)需求方,也就是科技公司,標(biāo)注師多是外包服務(wù)商員工。

這條數(shù)據(jù)標(biāo)注流水線(xiàn)目前主要由標(biāo)注師和審核員組成。完成數(shù)據(jù)標(biāo)注后,科技公司會(huì)對(duì)大模型做測(cè)試,看看哪些方面還有不足,再針對(duì)性的做下一輪標(biāo)注和調(diào)試。未來(lái),這條“流水線(xiàn)”上還會(huì)針對(duì)大模型出現(xiàn)更多細(xì)分崗位,例如模型評(píng)估師(指導(dǎo)大模型調(diào)優(yōu)方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標(biāo)注師、專(zhuān)業(yè)領(lǐng)域標(biāo)注師等。

2、需要更多高質(zhì)量數(shù)據(jù)

阿黃供職的機(jī)構(gòu)是目前國(guó)內(nèi)在通用大模型領(lǐng)域跑在最前面的百度智能云,百度的文心一言今年3月16日發(fā)布,他今年4月入職,入職后培訓(xùn)一周上崗。

他還記得一開(kāi)始數(shù)據(jù)量很少,會(huì)出現(xiàn)無(wú)題可做的情況,后來(lái)工作越來(lái)越忙。數(shù)據(jù)標(biāo)注行業(yè)波動(dòng)性很強(qiáng),AI產(chǎn)業(yè)繁榮時(shí),標(biāo)注需求隨之上漲;AI產(chǎn)業(yè)稍有回落,數(shù)據(jù)標(biāo)注會(huì)第一個(gè)受影響。

阿黃和同事們基本不用加班,如果數(shù)據(jù)量充足,他一天能做約80道題。他所在的百度智能云海口數(shù)據(jù)標(biāo)注基地宣稱(chēng)是國(guó)內(nèi)第一個(gè)大模型數(shù)據(jù)標(biāo)注基地,該基地目前共有約200名標(biāo)注師。也就是說(shuō),這個(gè)基地一天能標(biāo)注約16000道題。

一位AI大模型行業(yè)人士告訴《財(cái)經(jīng)十一人》,目前這個(gè)量和理想中的預(yù)設(shè)相比,“太小了”。現(xiàn)在的大模型動(dòng)輒千億參數(shù)量,如果沒(méi)有與之匹配的標(biāo)注工作量,就很難對(duì)預(yù)訓(xùn)練大模型有明顯的優(yōu)化。

百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳告訴《財(cái)經(jīng)十一人》,百度海口數(shù)據(jù)基地目前主要承擔(dān)的是基礎(chǔ)的數(shù)據(jù)標(biāo)注工作,也就是訓(xùn)練機(jī)器的通識(shí)能力。如果涉及到更專(zhuān)業(yè)的領(lǐng)域,例如寫(xiě)代碼、醫(yī)療、金融等,就要與專(zhuān)業(yè)團(tuán)隊(duì)合作。比如,政務(wù)大模型中,用戶(hù)通常會(huì)問(wèn)很多“專(zhuān)精”的問(wèn)題,例如“社保斷繳5年怎么辦?”這需要標(biāo)注師熟悉大量的政府文件,并能從中找到準(zhǔn)確答案。

大模型時(shí)代已經(jīng)逐步演變成機(jī)器輔助人類(lèi)標(biāo)注,例如有些回答篇幅特別長(zhǎng),標(biāo)注師看完就要花很長(zhǎng)時(shí)間,系統(tǒng)可以提前標(biāo)注出關(guān)鍵內(nèi)容,幫助標(biāo)注師提升效率,但并不能提升專(zhuān)業(yè)度。

在全球大模型領(lǐng)域跑在最前面的OpenAI在數(shù)據(jù)標(biāo)注上也有一套方法——找了多家數(shù)據(jù)公司來(lái)共同完成數(shù)據(jù)標(biāo)注,其中包括目前估值已經(jīng)超過(guò)70億美元的創(chuàng)業(yè)公司Scale AI。OpenAI自己也組建了一個(gè)幾十名哲學(xué)博士(PhDs)團(tuán)隊(duì)來(lái)做數(shù)據(jù)質(zhì)檢。標(biāo)注好的數(shù)據(jù)訓(xùn)練模型,反復(fù)多次直至模型可用。OpenAI成立8年,花費(fèi)10億美元用于模型訓(xùn)練。

OpenAI的數(shù)據(jù)標(biāo)注方式是先做出預(yù)訓(xùn)練模型,再用強(qiáng)化學(xué)習(xí)加上人工反饋來(lái)調(diào)優(yōu),也就是RLHF(Reinforcement Learning from Human Feedback)。

在RLHF的過(guò)程中,人工的專(zhuān)業(yè)性越高,能夠給出的反饋也越高效。一些科技公司認(rèn)為數(shù)據(jù)質(zhì)量是OpenAI的競(jìng)爭(zhēng)力之一,此后包括谷歌在內(nèi)的不少美國(guó)科技公司都在效仿這一模式。

一位知名AI公司創(chuàng)始人告訴《財(cái)經(jīng)十一人》,現(xiàn)在中文大模型的數(shù)據(jù)來(lái)源是兩類(lèi),一類(lèi)是開(kāi)源的數(shù)據(jù)集;一類(lèi)是通過(guò)爬蟲(chóng)爬來(lái)的中文互聯(lián)網(wǎng)數(shù)據(jù)。中文大模型表現(xiàn)不夠好的主要原因之一就是互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量,“比如,專(zhuān)業(yè)人士在查找資料的時(shí)候一般不會(huì)用百度。”

大模型領(lǐng)域的新趨勢(shì)是垂直大模型。過(guò)去也有垂直領(lǐng)域的數(shù)據(jù)標(biāo)注,最典型的是醫(yī)療數(shù)據(jù)。AI公司們很難找到足夠多的醫(yī)療專(zhuān)業(yè)人士來(lái)做標(biāo)注,提供更高報(bào)酬只是基本,一些AI公司還會(huì)提供科研資源、論文發(fā)表等方面的協(xié)助,才有可能搞定一個(gè)專(zhuān)家。

OpenAI還在繼續(xù)重金投入數(shù)據(jù)相關(guān)工作。現(xiàn)在國(guó)內(nèi)一線(xiàn)的大模型產(chǎn)品也都在優(yōu)化階段,今年8月31日,12款大模型完成備案,已經(jīng)上線(xiàn)的部分產(chǎn)品依然存在或多或少的問(wèn)題。

相比有錢(qián)也不一定能買(mǎi)到的算力來(lái)說(shuō),數(shù)據(jù)更多時(shí)候是“一分耕耘一分收獲”,中國(guó)數(shù)據(jù)體量龐大,且市場(chǎng)上已經(jīng)有大量數(shù)據(jù)服務(wù)商和數(shù)據(jù)工具。

一位已經(jīng)上線(xiàn)的大模型產(chǎn)品負(fù)責(zé)人告訴《財(cái)經(jīng)十一人》,“科技公司不是無(wú)所不能的,精力有限且投入就要看到回報(bào)”。投入在參數(shù)量、算力,或是各類(lèi)測(cè)評(píng)結(jié)果、論文、合作伙伴、商業(yè)化方面,能夠給大模型直接帶來(lái)回報(bào),包括收入、融資、影響力等。“在數(shù)據(jù)方面長(zhǎng)期投入會(huì)有兩個(gè)問(wèn)題,一是回報(bào)周期長(zhǎng);二是先行者很有可能會(huì)吃虧,例如我花了很多錢(qián)和時(shí)間,做了很多數(shù)據(jù),別人可能花很少的錢(qián)就可以直接打包買(mǎi)走。”

3、“人工”會(huì)越來(lái)越少

目前數(shù)據(jù)標(biāo)注市場(chǎng)主要有兩類(lèi)參與者,一類(lèi)是第三方標(biāo)注公司,另一類(lèi)是頭部科技公司自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。此外還有一些中間商,對(duì)接公司需求和標(biāo)注團(tuán)隊(duì)。

百度是大型科技公司中對(duì)數(shù)據(jù)標(biāo)注投入相對(duì)較多的一家。百度智能云提供的數(shù)據(jù)顯示,該公司目前已經(jīng)與各地政府合作共建了10多個(gè)數(shù)據(jù)標(biāo)注基地,累計(jì)提供超過(guò)1.1萬(wàn)個(gè)就業(yè)崗位,間接帶動(dòng)5萬(wàn)人就業(yè)。京東、字節(jié)跳動(dòng)等公司也有自己的數(shù)據(jù)標(biāo)注基地。

目前數(shù)據(jù)標(biāo)注依然以人工為主,機(jī)器輔助。短期內(nèi)數(shù)據(jù)標(biāo)注師會(huì)是一個(gè)不錯(cuò)的職業(yè)選擇。不過(guò),長(zhǎng)期來(lái)看,和上一輪AI標(biāo)注人一樣,這個(gè)職業(yè)恐怕會(huì)逐步消亡。

2022年下半年,OpenAI在拉丁美洲和東歐等地區(qū)招募了約1000名遠(yuǎn)程外包員工,其中約60%普通員工負(fù)責(zé)基礎(chǔ)的數(shù)據(jù)標(biāo)注,另外40%是程序員,他們共同讓ChatGPT學(xué)會(huì)編程。

如果大模型的編程能力達(dá)到一定水平,程序員不僅不需要再做標(biāo)注了,可能連程序員也不用做了。同理,大模型越來(lái)越聰明,自學(xué)習(xí)能力越來(lái)越強(qiáng)之后,那么第一個(gè)被取代的恐怕就是那些給大模型做標(biāo)注的人。

從過(guò)往的經(jīng)驗(yàn)看,數(shù)據(jù)標(biāo)注員本身就不是一份長(zhǎng)期穩(wěn)定的工作。2007年,人工智能專(zhuān)家李飛飛帶隊(duì)做了ImageNet的數(shù)據(jù)標(biāo)注工作,花了兩年半時(shí)間標(biāo)注了1500萬(wàn)張圖片并將其開(kāi)源,直接為后來(lái)的圖像識(shí)別類(lèi)公司打下了基礎(chǔ),不需要再招募大量人工做基礎(chǔ)標(biāo)注,只需要再做專(zhuān)業(yè)上的優(yōu)化。

大模型發(fā)展的一個(gè)重要方向就是自動(dòng)訓(xùn)練。AI技術(shù)已經(jīng)可以輔助人工做標(biāo)注,未來(lái)AI的滲透會(huì)越來(lái)越深,大模型本身就適合于數(shù)據(jù)標(biāo)注場(chǎng)景。目前AI公司商湯宣稱(chēng)已經(jīng)在智能駕駛領(lǐng)域應(yīng)用大模型自動(dòng)標(biāo)注技術(shù);今年4月,海康威視在其財(cái)報(bào)會(huì)議上也提到將AI技術(shù)用于自動(dòng)化標(biāo)注,并稱(chēng)標(biāo)注數(shù)量能提升10倍。谷歌、微軟、特斯拉等科技公司也都發(fā)布了自動(dòng)標(biāo)注系統(tǒng)相關(guān)產(chǎn)品。

百度智能云自研的標(biāo)注系統(tǒng)中也已經(jīng)有不少技術(shù)輔助功能,除了在文本中標(biāo)出重點(diǎn)之外,還會(huì)自動(dòng)給內(nèi)容分類(lèi),把專(zhuān)業(yè)的內(nèi)容匹配給對(duì)應(yīng)的專(zhuān)業(yè)人員。

胡馳說(shuō),現(xiàn)在機(jī)器還無(wú)法完全做到自己訓(xùn)練自己,“機(jī)器都還只是半吊子水平,怎么讓自己進(jìn)步呢?”他認(rèn)為,至少在目前,最終的決定權(quán)還是要在人工手里,機(jī)器標(biāo)注依然存在局限性。

人工智能的發(fā)展基于三要素:數(shù)據(jù)、算法和算力。如果用火箭來(lái)比喻,算法是引擎,算力是加速器,數(shù)據(jù)是燃料。想要讓大模型發(fā)揮更大作用,充足的“燃料”必不可少。

經(jīng)歷了大半年大模型熱潮后,投資人和從業(yè)者們都已經(jīng)相對(duì)冷靜下來(lái),隨著一些通用大模型的開(kāi)源力度加大,再?gòu)念^做一個(gè)類(lèi)似的產(chǎn)品已經(jīng)很難吸引資本和市場(chǎng),“不少做大模型的創(chuàng)業(yè)者很難回答出他們的壁壘究竟是什么”,一位關(guān)注AI的投資人告訴《財(cái)經(jīng)十一人》,“如果沒(méi)有明確的技術(shù)壁壘,就要用商業(yè)化能力來(lái)證明自己,要做好商業(yè)化,建立數(shù)據(jù)能力是第一步。”

本文為專(zhuān)欄作者授權(quán)微新創(chuàng)想發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀(guān)點(diǎn),不代表微新創(chuàng)想立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問(wèn),請(qǐng)聯(lián)系http://www.i0562.net/。

您可能還喜歡...

發(fā)表回復(fù)

您的郵箱地址不會(huì)被公開(kāi)。 必填項(xiàng)已用 * 標(biāo)注