人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

紅杉等一線資本云集,Hugging Face是怎么成為AI創造力中心的?

這個掌控表情符號的人正在推動AI重寫規則。

圖片

前言:這是一檔由【微新創想】與聚焦創業投資市場的品牌咨詢公司【賦雅FOYA】聯合出品,每周為大家帶來有趣、有料的海外獨角獸商業故事。

作者丨適道

編輯丨海腰

圖源丨Hugging Face官方

Hugging Face是一家估值20億美元的AI獨角獸,有24個投資人,包括Lux Capital,紅杉資本等。

在大模型領域,我們已經看多了巨額融資,例如OpenAI獲得微軟的百億美元投資,以及最近InflectionAI獲得微軟和英偉達的13億美元融資。

但是Hugging Face這家估值“僅20億美元”的公司,卻是目前AI領域的創造力中心之一。

因為它是一個“構建未來的AI開源社區”,被稱為“AI領域的Github ”,不僅有人數眾多的開發者和產品經理在它的社區里研究和發布自己訓練或微調的AI模型,客戶也超過5000個(其中3000個是付費客戶)。

圖片

Hugging Face的一個重要組成部分是名為Transformers的自然語言處理庫,其Transformers庫在GitHub上擁有62000顆星和14000個分叉。這意味著開發人員和數據科學社區正在積極使用和改進Hugging Face的技術。

根據Hugging Face的說法,Transformers提供了API,可以輕松下載和訓練最先進的預訓練模型。使用預訓練模型可以降低計算成本、減少碳足跡,并節省大量訓練模型的時間。

Hugging Face 提供了一個免費增值模型,客戶可以使用其推理API,獲得基礎的AI推理能力以及免費的社區支持;其付費服務允許客戶輕松訓練模型,提高推理API的性能等。

它的其他產品和服務還包括Datasets(應用于多模態模型的數據集),Hub(模型和數據集的托管服務), Tokenizers(高速分詞器,幫助把數據轉化成模型能理解的形式)等。

這家具有巨大潛力的AI開源獨角獸,由一位出身法國小鎮,在都柏林大學上學的極客Clem Delangue創立。正是他在大學時期就具備的極客精神和開源精神,讓他在機器學習的道路上探索,并最終形成了Hugging Face獨特的社區文化和企業文化。

這位非典型的創業者對于AI本身有深刻理解,也對創業,開源社區以及融資有自己的意見。

本文結合Hugging Face的投資人紅杉資本對它的深度報道以及創投圈著名播客20VC的主理人Harry Stebbings對Clem Delangue的深度訪談,梳理出Hugging Face從0到1的進化道路,以及Clem Delangue的創業故事。

(編者注:20VC是創投圈著名的播客,主理人Harry Stebbings與美國最熱門的創投大佬都有過對話。(比如Benchmark的Bill Gurley,ARK Invest的Cathie Wood,Accel創始人Arthur Patterson/Jim Swartz,以及紅杉資本的Doug Leone)。

圖片

Hugging Face的開源精神

起源于創始人23歲的大學時代

當Clem Delangue還是都柏林大學的學生時,就打造了一個叫UniShared的教育平臺,它旨在解決學習資源全球性分配不公問題,向全球每個人提供大學教育的好處。這使23歲的Clem Delangue登上了TEDx的講臺。

在Delangue的少年時代,他的世界并沒有超出法國北部小鎮La Bassée的邊界。在Delangue的家鄉,年輕的他的探索機會有限,然而互聯網的到來打破了這一切?!爱斘业玫阶约旱牡谝慌_電腦時,它就像一扇窗戶,讓我看到了更大的世界,那種感覺真是令人震驚。” 他回憶道。

Delangue的UniShared并沒有改變世界,但這為他種下了開源和分享的精神種子,也讓Google向他遞上了橄欖枝。不過Delangue拒絕了這個機會,因為他覺得在小型、靈活的環境中更加舒適。

他為一家名叫Moodstocks的巴黎計算機視覺創業公司工作。Moodstocks開發一款應用,當用戶掃描物品就能立即查看相關評論和電商門戶。這是Delangue與機器學習的初次接觸,他感到十分震撼。

在巴黎的一次會議上,Delangue偶遇了著名的Apple市場營銷專家Guy Kawasaki(他打造了當年十分著名的麥金塔電腦系列廣告),Delangue走近正在簽名的Kawasaki,并向他介紹自己和他的應用。

Kawasaki對這項技術表示懷疑,尤其是對它隨機識別野生物種的能力。因為在當時,機器學習仍需依靠工程師指定相對短暫、固定的定義列表和規則才能獲得準確的結果?!八f的大意是,你無法創建規則來識別世界上所有的物體?!盌elangue回憶道。

于是,Delangue給Kawasaki做了一個演示,他將智能手機對準Kawasaki的水瓶。令Kawasaki驚訝的是,應用正確地識別了品牌并提取了社交媒體上的評論。

對于Delangue,那一刻真正的激動人心的不僅僅是他的應用程序的工作效果,更重要的是他看到了機器學習以新方式連接人與人的潛力。

“兩個從未見過面的人——一位法國極客工程師和這位美國硅谷的家伙——他們因為機器學習發現他們其實喜歡同一個飲料品牌?!?Delangue說。毫無疑問,機器學習有巨大的潛力——但是當與用戶社區一同開發時,它的潛力更大。

在離開Moodstocks之后,Delangue在一些初創公司中負責產品和市場營銷工作。

2016年,他渴望再次為自己做點什么。在紐約,他與Julien Chaumond(一位在法國經濟部門工作的計算機工程師)聯系上了。他認識Julien多年,Julien是一位精英數學家,也是他的朋友,兩人長久以來都對彼此有著專業上的認可與尊重。

兩人決定一起參加斯坦福大學的在線工程課程,并如他們一貫的方式,聚集了三十多人的學習小組,Thomas Wolf(一位受過科學訓練的專利律師)就是其中之一。在課程結束時,Julien和Delangue邀請Thomas與他們一起工作。

他們共同設定的目標是解決機器學習領域中一個最為棘手的問題:利用NLP技術,構建一個開放領域的、會話式的AI聊天機器人。一個可以和你談論任何事情的機器人。Siri從2011年開始出現;Alexa從2014年開始?!八鼈儤O其無聊,只會做生產力相關的事情。我們對建立一個有趣的會話式AI感到興奮?!盌elangue說。

在2023年,打造一個人性化的聊天機器人聽起來像是一個顯而易見的目標。但在2016年,依賴深度神經網絡進行學習的NLP領域(與過去基于統計、規則的NLP相比)還處于萌芽階段,他們的目標幾乎接近科幻。聊天機器人需要整合多種學習模型,進行信息提取,理解情感,并生成答案。

這些模型需要對大量的數據進行訓練,而管理這些數據(包括如何收集足夠的數據,標記它,托管它)是他們面臨的首個重大挑戰。正是對不可能的挑戰,使得Hugging Face走上了當前的軌道,成為全球最大的開源AI社區。

從一開始,Hugging Face團隊就展現出屬于開源社區特有的慷慨和民主精神,Delangue和他的聯合創始人賦予員工權力,擁有他們自己的產品,為他們的聊天機器人創建和發布功能。

最終,這個機器人活躍在社交網絡、移動APP上,用戶們發送了超過十億條信息。隨著時間的推移,它采用了開源的策略。

圖片

發布自定義版本BERT模型的嘗試

讓Hugging Face轉型開源社區

沒有什么時刻能比Hugging Face發布其自定義版本的機器學習模型BERT(一種基于Transfomer的變種模型)更好地體現這種精神了。

當時,機器學習的進步常常通過冗雜、理論性的學術文章傳達。例如,當Google在2018年10月首次發布BERT時,它對大多數用戶來說過于復雜,而且BERT只在Google的TensorFlow平臺上可用。

Hugging Face團隊希望BERT能被更多開發者和用戶使用。一周內,他們創建了一個可以使用PyTorch機器學習框架的BERT工作版本。然后,他們將其轉化為開源,并在Github上免費贈送給任何想要使用或進一步微調和修改它的人。

“那是個分水嶺時刻”, Hugging Face在紅杉資本的主管投資人Pat Grady說,“人們都在說,‘我的天,我可以使用一個最新的語言模型?!郧斑@是不可能的。這讓Hugging Face在當時規模還很小的自然語言處理人群中成為了英雄。” 當Grady后來問Delangue是什么激發他們把BERT發布給全世界的,他被他的答案的直接性所打動?!拔覀冎皇怯X得,這是許多人會喜歡使用的東西”,Delangue回答。

圖片

Delangue也在與20VC主管人Harry訪談時聊到了開源對AI的重要性:“AI的大部分進步都是基于開放科學和開源的,因為AI的開放,所有人都能用最新算法搭建應用,這形成了非常有趣的正反饋和改進,專家實驗的循環使我們能夠非常快速的推進AI的發展。沒有開放科學,沒有開源,沒有Google分享他們的《Attention Is All You Need》論文,分享他們的Bert論文,也許AI發展的進度會比現在慢很多年。

機器學習社區對自定義版本BERT模型的反應證實了Delangue多年前在都柏林大學時的感覺——分享知識對每個人都有益。那時,Hugging Face的使命改變了。Delangue和他的聯合創始人決定開始分享他們在構建聊天機器人過程中學到的關于機器學習的所有東西。漸漸地,他們開始成為工程師、研究人員和機器學習領域愛好者的首選資源。

在構建他們的BERT適配版的過程中,Delangue和他的團隊成為Transformer模型的專家。所有的AI模型都接受大量數據的訓練,Transformer能從未標記的數據中產生優秀的結果。這種無監督學習形式為數據管理員節省了大量的時間,并使更多的數據可用于訓練機器學習系統。

Hugging Face團隊看到了Transformer的潛力,并將Hugging Face建立為開發它們的首選開源中心。機器學習社區也注意到了這一點——編程者和研究者開始涌向Hugging Face,他們帶來新的洞察和專業知識,使大量的機器學習項目和工具互相影響。

如今,任何想要使用Transformer的人都可以在Hugging Face訪問約20萬種不同的公共模型。

Delangue意識到,鑒于這些工具的巨大潛力,理解它們需要一個社區:圍繞共同目標、需求和價值觀組織起來的人們。

隨著他們轉向開源,Hugging Face正開始成為Delangue希望能夠建立的社區。

紅杉資本合伙人Sonya Huang說:“真正善于創建社區的人實際上非常少。Delangue理解用戶——他就是用戶——并且他對草根社區有直覺。他以極其真實的方式培育它?!?/p>

Huang還被Delangue展現出來的開源精神所打動。她指出,Delangue沒有雇傭專職社區經理與Hugging Face的用戶接觸,而是自己做這件事,經常在Twitter上發布bug修復信息,與超過1000名AI研究人員和追求生物技術、影像和語言處理領域AI突破的10000多家公司一起解決功能問題。

至今,Hugging Face不僅沒有單一的社區經理,還期望其160名員工每個人都積極參與這個在線社區。“我們覺得如果我們開始擁有社區經理,那就是將所有成員都應負的責任外包出去?!?Delangue說。為此,每個員工都可以訪問公司的官方Twitter和LinkedIn賬戶。如果AI的未來要依賴眾包,Delangue正在確保Hugging Face將自己定位為眾人的來源。

今天, Hugging Face社區的龐大規模推動了其戰略地位的慣性,使它成為機器學習的進化策源地,例如,視覺大模型Stable Diffusion選擇將其模型、數據集和演示發布到Hugging Face時,它激發了用戶引領的活動,修改和改進模型(在他們的演示空間里產生了如“一個橡皮鴨在講臺上發表演講”和“在被輻射的皮卡丘”等杰作)。

2023年3月,Delangue在推特上宣布他將在即將到來的舊金山之行中與Hugging Face的用戶舉行一個臨時聚會。在幾小時內,超過400人使用他在推特上分享的密碼ossftw(開源軟件永遠勝利)進行了注冊。

到了正式舉行時,它已經贏得了“AI的伍德斯托克”的稱號。大約5000人(和三頭羊駝)參加了活動。從活動的視頻中,你可以看到一種類似于狂歡派對與機器人競賽交叉的氛圍。AI公司擁擠在攤位中。其中一家,在幾天前的黑客馬拉松中組建的AI教育公司,在此活動上進行了公開發布。

Delangue和一個身穿亮黃色緊身衣,身體是一個巨大的Hugging Face表情符號的吉祥物跳舞。他向推動AI前進的每一個人(所以,基本上是全場的人)表示感謝。“這個活動是對開源力量的慶祝,”Delangue告訴他們。“記住,在AI領域,我們所處的位置全都歸功于開放科學和開源。”

圖片

AI原生創業公司將顛覆舊有的公司

在短時間內,人工智能已經疾速發展。大型語言模型已經從幫助Gmail為用戶提供建議的簡短回復的后臺技術,演變成了一些更奇妙(在某些情況下,也更可怕)的東西。文生圖工具和ChatGPT在短時間內擴大了我們對可能性的想象,而ChatGPT成為了歷史上增長最快的應用程序。

數以百萬計的開發者和產品經理涌入AI領域,擠滿了這個長期以來只有博士和工程師出入的空間。我們現在都在使用AI,而這群終端用戶即將在整個空間上施加更大的影響。

在Delangue的觀點中,任何對AI未來有所投資的人都應該成為Hugging Face社區的一部分?!叭绻脩舨焕斫膺@項技術是如何構建的,”他說,“它會帶來很多風險,很多誤解?!?/p>

圖片

Delangue認為,對尚未實現的通用人工智能的崛起的擔憂是錯位的。

他同意Andrej Karpathy,(前特斯拉AI總監,現在是OpenAI的人工智能專家)于2017年提出的觀點——AI是Software 2.0。在這個觀點中,AI是現代世界運作方式的重大進步,它也已經開始塑造經濟。但是,它不是萬能的。

“AI是構建所有技術的新范式,但它不是新的人類形式,它不是超級感知生物。但它確實擁有龐大的潛力,它會比互聯網大,比傳統軟件大。它將為技術創造新的能力,與大多數技術公司編寫軟件一樣,大多數技術公司將編寫AI?!?Delangue說。

Delangue從他的經驗談通用大模型與開源小模型的適用性問題:“有兩種AI世界觀,一種是一個通用的大模型解決所有問題,另一種是許多開源小模型解決不同的問題。選擇哪一種路線,取決于你的使用情況,限制情況和你想做什么。

如果你是Facebook,那一個巨大的模型能為你的用戶做任何你想幫他們做的事情;如果你是一個消費品公司,那么你需要針對你的實際場景選擇和優化AI模型,這些模型要更快,更便宜,更高效。所以,如何選擇,取決于你如何定位你自己。“

對于企業是直接使用大公司模型的API還是自己訓練和微調開源模型,Delangue的觀點是:“直接使用OpenAI的API在開始階段更快,更容易,但是從長期來看,創業者面臨的挑戰更大,因為你沒有真正建立核心競爭力。

如果一個使用AI的創業公司沒有能力優化模型,那么它面臨的風險是在與競爭對手競爭時,無法使自己脫穎而出。如果創業公司想讓自己具有差異化競爭能力,就必須針對它的用戶做一些真正有價值的事情,并能持續進行優化。就像傳統軟件公司需要編寫代碼來構建技術產品一樣,AI公司也要在機器學習范式中訓練或定制自己的模型?!?/p>

Delangue進一步指出,這是新公司顛覆舊有企業的巨大機會:因為舊企業會選擇容易的解決方案,而其他更需要AI的公司會選擇更具顛覆性的方式,這就是具有模型訓練能力的AI原生創業公司的機會。它們自己訓練模型,自己微調模型,它們在同樣的任務上可以比只使用現成API的公司好得多,它們就有很大機會顛覆舊有的解決方案。

圖片

AI發展太快,現有的盈利方式

可能3-5年后就不適用了

對于Hugging Face的商業模式,Delangue介紹道:“我們就是經典的免費+增值付費模式(一種經典的開源軟件商業模式,基礎版本免費,更高級的功能收費)?!八€透露公司目前已經有包括Bloomberg, Grammarly在內的3000家付費客戶。

對于公司目前的第一要務,Delangue認為并不是盈利:“我們的主要優先事項是作為一個具有網絡效應的平臺,被更多人采納和使用, 這也是我們的KPI。

“在AI這樣的領域,你期望公司愿意為AI付費,所以如果Hugging Face繼續成為公司使用的第一AI平臺,很明顯我們將能夠從中獲得大量的收入,并建立一個好的業務?!?/p>

“對于盈利,我們必須把它看作是逐步解鎖一些學習的階段。從六位數的收入開始,公司成員從中學習,看看它是如何運作的,然后是七位數、八位數和九位數的收入。每一步你都在學習,特別是在AI領域,因為底層技術的發展速度非???,可能我們今天賺錢的方式在三年后或五年后就不適用了。”

圖片

非典型創始人:

投資人不該搶創業者的活

在與20VC的訪談中,Delangue還介紹了自己的融資原則。

首先,在兩輪融資之間,他不會與任何外部投資者交談。因為建立公司已經足夠困難,必須百分之百的專注于這件事。

第二,當他融資時,通常會進行得非??欤坏┮呀洬@得足夠公司發展的資金,就不再與不熟悉的新投資人接觸。因為很多投資人并不真的對創業者正在建立的業務足夠了解或感興趣。尤其是像Hugging Face這樣在種子輪時做聊天機器人,之后又做AI開源社區的,這兩輪的投資人,是完全不同的。

第三,他在選定投資人后,會與這位投資人共度3天時間,深度地互相了解和盡調,并且搞清楚一些重要問題:我們的目標一致嗎?我們的期望相似嗎?我們能在之后保持一個良好的互相支持的關系么?

對于風險投資人,Delangue認為部分投資人遺忘了風險投資對于創業公司的幫助首先是財務幫助,而把大部分時間都花在了其他事情上,有時甚至表現得像CEO,他認為這其實并不是他們的工作。

“更糟糕的是,我感覺有時候創業者是為投資者而建立公司,而投資者表現得像創業者。有時這上會導致公司崩潰,因為不幸的是,與創業者相反,投資人會同時管理很多不同的被投公司,所以他們只能在每家公司上花費很短的時間。即使他們是世界上最聰明的人,由于時間的限制,他們對技術的理解有時可能過于簡單化,例如對公司和其他事物的理解?!彼@么表述自己對于風險投資人的不同看法。

而對于自己最喜歡的投資人,Delangue表示是Richard Socher:他是NLP領域最杰出和最有影響力的研究者之一,現在是You.com的創始人。Richard和Delangue相識很早,在很多方面都幫助過Delangue和Hugging Face,無論是科學,商業還是創業方面。

本文為微新創想原創,未經授權不得轉載,否則微新創想將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯系http://www.i0562.net/。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注