Databricks 以 13 億美元收購 OpenAI 競爭對手 MosaicML:打造企業定制化生成式 AI 模型的未來
站長之家(ChinaZ.com) 6月27日消息:Databricks 同意以約 13 億美元的估值收購生成式人工智能初創公司 MosaicML,此舉旨在滿足企業構建類似 ChatGPT 的工具的快速增長需求。
總部位于舊金山的數據存儲和管理初創公司 Databricks 表示,此次交易將其支持人工智能的數據管理技術與 MosaicML 的語言模型平臺相結合,使企業能夠利用專有數據自行構建低成本的語言模型。目前,大多數企業依賴于在網絡上公開數據中訓練的第三方語言模型。
同樣總部位于舊金山的 MosaicML 成立于 2021 年,將成為 Databricks 的一個獨立服務。據 MosaicML 的聯合創始人兼首席執行官 Naveen Rao 稱,該公司專注于將使用生成式人工智能的成本從數千萬美元降低到每個模型數十萬美元。MosaicML 目前擁有 62 名員工,并已籌集了 6400 萬美元的資金。
預計該交易將在 Databricks 截至于 7 月 31 日的第二季度結束時完成。
生成式人工智能應用程序旨在根據用戶的自然語言提示生成原創文本、圖像和計算機代碼。自從 AI 初創公司 OpenAI 在去年 11 月推出 ChatGPT 在線生成式 AI 聊天機器人以來,企業對該技術的興趣大幅增長。
像 Anthropic 和 OpenAI 這樣的公司會向企業授權現成的語言模型,然后企業在其基礎上構建生成式 AI 應用程序。由于這些模型的強勁商業需求,生成式 AI 市場迅速擴大,為像 MosaicML 這樣的初創公司創造了機會,他們聲稱可以以更低的成本提供類似的 AI 模型,并根據公司的數據進行定制。
Databricks 首席執行官 Ali Ghodsi 表示:「如果你從零開始構建一個模型,就知道要為其提供什么內容。」Ghodsi 說,現成的模型因已在互聯網數據上進行了訓練,其中充斥著可能會扭曲結果的無關信息。他說,許多公司也擔心與外部供應商共享其數據所涉及的隱私和安全問題。
一些機器學習專家和 AI 供應商表示,像 ChatGPT 這樣的大型語言模型的計算和綜合能力超過了小型模型,但后者在特定領域具有有限但強大的功能。畢馬威美國人工智能負責人 Sreekar Krishna 表示,數據管理和確定哪些模型最適合特定的用途仍然面臨持續的挑戰。
「數據一直是成功的關鍵因素,」Krishna 說,隨著大型語言模型的出現,對數據的需求只會增加。
企業技術領導者正面臨著準備他們的數據,以用于 AI 模型的壓力。數據是所有算法的基礎,因為它們用于教授算法從中提取模式并做出預測。像 Replit 這樣的公司,提供編程工具,已經在使用 Databricks 作為數據管道,并將這些信息傳輸到 MosaicML 來訓練代碼生成模型。
Databricks 技術被稱為 Lakehouse,旨在為 AI 應用準備和管理企業數據,統一數據、分析和 AI 編程工具到一個系統中。Databricks 通過出租分析、AI 及其他基于云的軟件,以利用 AI-ready 數據為構建企業技術系統提供「鎬和鏟子」,從中賺取收入。去年,Databricks 報告了超過 10 億美元的年收入。
據 PitchBook 數據這家市場分析公司稱,全球生成性 AI 市場的支出預計將在今年年底達到 426 億美元,并以每年 32% 的復合年增長率增長到 2026 年的 981 億美元。它表示,生成式 AI 初創企業獲得的風險投資從 2022 年總額 48 億美元增長到了 2023 年前 5 個月的 127 億美元。
Databricks 成立于十年前,由加州伯克利的一組數據科學家創建,經過 2021 年 8 月的 16 億美元籌資輪后,私募市場估值為 380 億美元。它的投資者包括摩根士丹利的 Counterpoint Global、安德烈森·霍洛維茨、貝萊·吉福德、UC 投資以及 ClearBridge 投資。
生物制藥服務公司 Syneos HeAlth 的首席信息和數字官 Larry Pickett 表示,專門的醫療數據訓練模型的當前成本估計為 100 萬至 200 萬美元。分析人士說,那些「特定領域」的模型對公司來說比 ChatGPT 更有用,因為它們擁有更多行業術語和專業知識。
但 Pickett 期望 Syneos HeAlth 可以通過使用較小的預訓練模型,而不是基于 OpenAI 完整數據語料庫來構建的模型,花費顯著的較少資金。「并非每個人、每個應用都需要 GPT-4,」Krishna 說,他指的是 OpenAI 的大型語言模型。大型語言模型正在變得精細,用于非常特定的應用,他說,「到了那個時候,它非常小,可以嵌入任何手機中」。