Databricks 發布應用生成式人工智能的 Apache Spark 英文 SDK:可使用英文編寫代碼
站長之家(ChinaZ.com) 7月11日消息:Databricks 日前發布 Apache Spark 的英文 SDK,這是一個變革性的工具,旨在豐富 Spark 體驗。
開發者可以使用英文指令編寫程序,例如「2022 USA national auto sales by brand」(美國 2022 年汽車銷量),編譯器會將英文指令轉換為 PySpark 或 SQL 代碼來執行指令。
據官方介紹,Apache Spark?在全球 208 個國家和地區的年下載量超過 10 億次,極大地推動了大規模數據分析的發展。英文 SDK 創新性地應用了生成式人工智能(Generative AI),使 Spark 比以往任何時候都更加友好和易于使用。
GitHub Copilot 已經徹底改變了人工智能輔助代碼開發領域。雖然它功能強大,但它希望用戶理解生成的代碼才能提交。審核人員也需要理解代碼才能進行審核。這可能是限制其更廣泛應用的一個因素。它偶爾也會在上下文方面遇到困難,尤其是在處理 Spark 表和 DataFrames 時。例如出現不存在的 dept_id 列,這需要開發者發現并進行修正。
這是 Databricks 希望解決的問題。他們發現,大型語言模型非常了解 Spark,因為 Spark 社區在過去 10 年貢獻了大量開放且高質量的文本,例如 API 文件、開源項目、問答和教程等。
因此,Databricks 團隊使用了語言模型開發了一套英文版 SDK,用戶可以直接在代碼中使用英文指令來獲取結果,從而減少所需編寫的代碼量。
Apache Spark 英文版 SDK 是一個極其簡單但功能強大的工具,可以顯著增強用戶的開發過程。它旨在簡化復雜的任務,減少所需的代碼量,并讓用戶更加專注于從數據中獲取見解。
Databricks 表示,雖然英文版 SDK 仍處于開發的早期階段,但對其潛力感到非常興奮。鼓勵用戶探索這個創新工具,親身體驗其好處,并考慮為該項目做出貢獻。不要只是觀察革命——成為革命的一部分。
此前 Databricks 同意以約 13 億美元的估值收購生成式人工智能初創公司 MosaicML,此舉旨在滿足企業構建類似 ChatGPT 的工具的快速增長需求。