一個應用狂賺15億!打造差異化生成式AI秘密武器,數據是關鍵
聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權微新創想轉載發布。
【新智元導讀】有的生成式AI應用,已經吸金15億美元了。風頭無限的背后,構建應用的關鍵,竟然在于這家企業的技術。
生成式AI應用,現在已經風頭無兩,動輒狂吸數億美元的投資!
可以說,全世界的大科技公司和獨角獸們,已經為生成式AI打造了豐富的生態系統,版圖還在不斷擴張。
在10月24日剛剛結束的生成式AI構建者大會上,亞馬遜云科技就提出了為用戶構建完整端到端生成式AI的技術堆棧。
具體來說,亞馬遜云科技從5個方面來助力企業和開發者釋放生成式AI潛力:
-選擇合適的應用場景,從典型場景入手創新業務模式
-借助專門構建的生成式AI工具和基礎設施,快速構建高性價比的生成式AI應用
-夯實數據基座,使用私有化數據,打造差異化競爭優勢
-借助云原生服務,加速AI原生應用構建,助力業務敏捷創新
-借助開箱即用的生成式AI服務,消除重復性工作并專注創新本身
根據IDC在2023年2月發布的全球CIO快速調研,金融、能源、醫療、法律行業的頭部機構,在1年內都會嘗試引進大模型以及生成式AI能力。
如今我們可以看到,這項預測已經成真。
為生成式AI定制數據
生成式AI,可以用一個公式呈現,即提示詞+上下文+大模型=輸出結果。
舉個栗子,當一位客戶想要更換球鞋的顏色,他會提出「我買的鞋子可以換成棕色的嗎?」,提出問題便是提示詞。
那么上下文是指,之前購買的歷史對話信息,以及客戶訂單記錄等數據。
然后需要尋求大模型,檢索退換貨相關策略,然后根據以往的售后處理案例,再給出結果。
這樣,一個生成式AI應用真正的價值就體現了。
但我們要清楚的是,這其中的基礎模型,并不是生成式AI的全部。
若說,在這些華麗的應用背后,有著一個非常關鍵要素——數據。
相比于傳統的應用,生成式AI在數據的利用上,有一套特有的流程。
其所需的能力涉及到從數據/語料加工、基礎模型訓練/調優,到數據治理、知識召回、提示工程等一系列模塊。
玩轉數據,可是個技術活
目前,已經有72%的頭部科技公司指出,「管理數據」已經是阻止他們擴展AI用例的最大挑戰之一。
就拿現在最為火熱的向量數據庫來說,它可以可加速AI應用程序的開發,并簡化由AI驅動的應用程序工作負載的運作。
然而,作為一項相對較新的技術,目前能夠做出高質量向量數據庫的企業,并不多。
與此同時,用戶的隱私等問題,也讓企業對于私有數據的采用望而卻步。
對于垂直領域模型的訓練微調,都需要一定的數據累積。
但有些數據是無法共享,拿來公開訓練的,比如醫療領域大模型,涉及患者個人、病歷等私人重要信息。
另外,數據質量管控不到位、數據源分散或者出現數據孤島、缺乏數據素養等問題,在很多企業中不知不覺積累了很多「數據負債」。
全球領先的解決方案
顯然,面對如此復雜多變的挑戰,企業需要一套全面且一站式的解決方案,才能真正讓讓生成式AI技術實現賦能。
簡而言之,就是一個強大的「數據底座」。
其中包括,能夠存儲各種類型的數據庫,然后能夠提供將多個數據源打通的服務,最后,還需要確保數據安全并對其進行管理。
數據是每個企業的核心資產,構建差異化優勢的基礎
數據作為企業最為核心的資產之一,是在生成式AI浪潮中構建差異化優勢的基礎。
為此,亞馬遜云科技針對生成式AI的各項需求場景,特別定制了專有的數據庫。
場景一:用戶個人信息
對于一個生成式AI應用來說,要想讓給出的結果更加貼合用戶的需求,就需要結合每個用戶自身的特點。
在把這些信息結合到Prompt里一起發送給LLM之后,就可以得到更加個性化的輸出了。
針對這一需求,亞馬遜云科技打造了Amazon RDS和Amazon Aurora這兩個關系數據庫解決方案。
其中,Amazon RDS是一項托管式關系數據庫服務,總共提供了7種熱門數據庫引擎。
Amazon Aurora則是亞馬遜云科技專為云平臺打造的關系型數據庫,具有著高性能、高可用、可擴展性強等特點,而且成本僅有同級數據庫的1/10。
場景二:會話歷史信息
除了個人信息外,用戶對話的上下文信息,對于生成式AI應用的準確性來說也至關重要。
通過將歷史對話記錄和用戶最新提出的問題相結合,并一起發送給大模型,便可以實現更好的用戶體驗。
對此,亞馬遜云科技打造了Amazon DynamoDB和Amazon DocumentDB。
前者是快速且靈活的NoSQL數據庫,對規模沒有限制。非常適合無服務器的事件驅動型架構、遍及全球的彈性服務,以及高吞吐量工作負載。
后者是基于云原生架構,全面兼容MongoDB的托管NoSQL數據庫。
場景三:私域知識庫信息
眾所周知,通用大模型存在著幻覺、信息時效性差,以及包括token長度限制等各種問題。
尤其是對于企業內部的信息來說,如果讓LLM自由發揮,很容易就給出了錯誤答案。
但如果能有私有知識的加持,LLM就可以給出更為精準有效的回答。
為了利用這些私域知識,我們可以通過Embedding模型把它們變成向量,并存放在向量數據庫里。
當有查詢到來時,通過同樣的Embedding模型生成新的向量,和向量數據庫里的數據做相似度計算,返回最相近的結果。
可以說,如果把LLM比作是容易失憶的大腦,那么向量數據庫就是這個大腦的海馬體。
對此,亞馬遜云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。
Amazon Aurora/Amazon RDS PostgreSQL,能夠兼容開源PostgreSQL,易于學習。
Amanzon OpenSearch具備向量和倒排召回能力,可利用現有集群,同時能提供日志檢索能力。
Amazon Kendra是基于機器學習的端到端智能檢索服務,能夠幫助用戶使用自然語言搜索非結構化文本。
場景四:輸出結果緩存
緩存,是一種存儲數據的組件,作用就在于能夠讓數據的請求更快地返回。
直白講,我們每次用網頁查詢后的信息,都會被緩存,當下次再訪問的時候,加載就更快了。
對于生成式AI應用來說,用戶發出請求時,需要調用模型,輸出結果。
但是,就像ChatGPT這樣的爆火應用,每天收到大量請求,就會出現高并發階段,存儲數據量暴增,數據庫的磁盤IO就成為了瓶頸。
因為,數據庫的速度和吞吐量,是影響生成式AI應用程序整體性能的重要因素。
這時,就需要一種訪問更快的組件——緩存,來提升系統的整體性能。
就是將之前調用LLM輸入輸出結果進行緩存,當后續請求與之前輸入「相似」時,直接就返回內存數據庫調用結果,完成輸出。
這樣一來,就做到了就無需調用模型就能得到結果,不僅提高了應用的反應率,還降低了模型的調用成本。
亞馬遜云科技對此提供了三種解決方案。
通過針對Redis或Memcached引擎的亞毫秒級的響應時間,Amazon ElastiCache可用作高可用性內存緩存,以減少訪問延遲、提高吞吐量并減輕關系數據庫或NoSQL數據庫的負載。
Amazon ElastiCache for Redis可以提供查詢結果緩存、持久會話緩存和整頁緩存。
另外,Amazon MemoryDB for Redis專為帶有微服務架構的現代化應用程序而構建,與Redis兼容、持久的內存數據庫服務,可提供超快的性能。
通過解決這四大場景的需求,亞馬遜云科技也就保障了每個企業都可以充分利用核心的數據,來構建自己獨有的優勢。
數據質量決定了模型質量,是構建應用的關鍵
數據質量,不僅決定了模型質量,同時也是構建生成式AI應用的關鍵。
而數據治理,便是這些應用落地的保障。
Gartner數據顯示,到2025年,尋求擴大數字業務規模的組織中有80%將因不采用現代的數據和分析治理方法而失敗。
只有實施正確的管理策略,團隊才能隨時訪問高質量的數據。
但是在實踐中,創建正確的管理控制,往往既復雜又耗時。
ETL是指數據的提取、轉換和加載過程。以往,業務數據往往需要通過ETL,才能進行分析從而提供洞察。
然而,這一過程非常耗時且復雜,需要管理復雜的轉換代碼和數據管道,以及投入一批具備專業ETL技能的工程師,曾被亞馬遜云科技CEO Adam描述為「不討好、不可持續的黑洞」。
數據集成不應是一項人工工作的無底洞,我們需要快速、輕松地連接到所有數據,并加以使用。
而「Zero ETL」,就是亞馬遜云科技邁出的關鍵一步。
Amazon Zero ETL能夠大大幫助客戶簡化數據ETL,減少數據質量問題。
具體來說,它沒有ETL流水線,可以實現交易數據的實時分析和機器學習,還能綜合來自多個Aurora數據庫的數據見解。
此外,亞馬遜云科技數據服務可以與外部數據庫實現Zero的集成。
讓數據實現一體化融合,將其數據庫、數據服務底層打通,由此,數據就實現了「無感知」流動。
另外,亞馬遜云科技提出了敏感數據保護方案——Amazon DataZone。
它使用內置治理的統一平臺,能夠跨組織邊界解鎖數據價值。
它支持整個集團的數據發現、管理跨部門的訪問和使用生命周期,對數據的共享方式和授權人進行全面的控制和知曉審計的能力。
在以往,數據協作過程中,往往存在著重重困難。
比如指標定義不一致、可用數據難發現、數據權限難管理等。
通過Amazon DataZone,開發者和業務人員可以通過清晰指標的定義進行數據分析,開發者可以放心使用目錄管理中的數據,還能在同一個平臺上對數據進行可視化的訂閱和授權。
這樣,以上困難就都一一解決了。
而賦予Amazon DataZone關鍵能力的,就是可信賴數據集,和簡化數據訪問。
有了可信賴數據集,就可以對數據進行目錄化,找到和發現數據。
而有了簡化數據訪問,終端用戶就可以導航到Amazon DataZone的數據門戶,并選擇一個項目,來瀏覽他們的數據資產。
拉美最大的私營金融機構伊塔烏聯合銀行,就在使用Amazon DataZone進行簡化數據治理。
數據安全與合規是重中之重
數據安全與合規,貫穿了從模型訓練、到微調,再到部署的整個過程,是重中之重。
LLM的火爆,雖然促進了眾多生成式AI的繁榮,卻也同時帶來許多新的安全挑戰。
提示注入、數據泄漏、過度依賴LLM生成的內容、訓練數據污染等問題,林林總總防不勝防。
尤其是,通用模型使用少量的私有數據集自定義,就可以執行面向特定領域的任務。這個過程中,私有數據集的安全性和保密性,顯然極為重要。
那么,我們該如何保護數據隱私,讓數據更安全呢?
首先,Amazon Bedrock服務,就提供了數據隱私保護,嚴格做到了「您的數據由您自己控制」。
Amazon Bedrock服務后端實現的架構
它保證了客戶的數據不會被用于訓練Amazon Titan模型,也不會被共享給其他基礎模型提供商。
客戶的數據(提示詞、響應、微調模型)是按用戶隔離的,會被保留在相應的地理區域。
而且,客戶在Amazon Bedrock中的數據是被加密傳輸和存儲的,可以使用自帶的密鑰。
其次,Amazon DataZone可以保護數據在不同賬號之間安全共享。
它可以保證跨組織的數據治理,確保授權的用戶以授權的目的,訪問被授權的數據。
在工作流的發布與訂閱模式、數據的授權、通過數據項目和域來訪問數據、基于實際使用量的計費、組織結構的復制、與API的集成商,它都保證了數據的安全。
全新生成式BI誕生
對于許多企業來說,都希望通過數據驅動業務,形成數據飛輪。
只有數據被充分利用和挖掘,才能發揮出巨大的商業價值。
舉個例子,如果銷售團隊能更好地了解從免費賬戶到付費賬戶的轉化率,他們就能優化營銷和銷售計劃,從而增加收入。
但是,理解數據需要花費大量的時間、精力和知識。如何在海量數據中完成分析,并實現可視化,對于一個企業來說至關重要。
尤其是,對于那些不懂底層數據邏輯,以及沒有任何代碼基礎的企業用戶。
當前,業界常見解決方案是——BI工具,解決了大數據「最后一公里」的問題。
但是,在生成式AI爆發的當下,如何利用最新技術幫助企業釋放數據價值,做出商業決策?
亞馬遜云科技在自家的BI工具——Amazon QuickSight,推出了生成式BI功能。
通過將Amazon Quicksight的功能與Amazon Bedrock提供的大語言模型功能相結合,將其稱之為生成式BI。
現在,企業用戶中任何一個人都可以通過自然語言的提問,了解數據。
甚至,業務分析師還可以使用自然語言在幾秒鐘內快速編寫和微調視覺效果,并將其添加到儀表板中。
無需學習語法,便可直接使用自然語言創建新的計算。
現在,創建一個新的儀表板或計算只需問幾個問題即可,非常簡單。
另外,業務用戶還可以使用自然語言提示來生成分析報告,或在Amazon Quicksight中對其數據進行可視化演示。
只需用文字鍵入故事描述,就可以使用相關儀表板中的數據,創建你想要的效果。
比如可以讓其生成對亞馬遜云科技免費試用賬號最感興趣的客戶分類報告,在報告生成后,他們可以根據需要對其進行修改,并與業務團隊共享。
加速生成式AI技術革命
構建生成式AI應用,充滿了挑戰性。
這個過程中,涉及到接入和管理多家基礎模型,還要連接不同的數據源,數據隱私和安全性需要保證。
金山辦公的WPS AI,成功將大語言模型的能力全面引入了產品。
而背后的功臣之一,就是亞馬遜云科技。
客戶的數據隱私和安全,一直是WPS的第一優先級。
構建各種AI的過程中,亞馬遜云科技不會使用客戶數據來改進模型,也不會將客戶數據與他人共享。客戶數據均保留在該客戶所在的區域中。
因此,Amazon Bedrock成功地助力WPS,加速了各種生成式AI的構建。它支持的領先大語言模型,在多個文字處理場景都符合金山辦公的需求。
通過亞馬遜云科技的技術,西門子也解決了諸多業務難題。
此前,西門子中國IT面對的難題有,企業內部信息分散、數據資料增長迅速、數據信息你傳遞能力不足等等。
對此,亞馬遜云科技基于西門子數據(如西門子的產品和解決方案),開發了一款智能回答助手——小禹。
它是西門子中國業務知識一體化的解決方案,部署在西門子安全環境中。
除了GPT本身擁有的龐大知識庫外,小禹還集成了西門子獨特的知識系統,如西門子的各種產品和服務、平臺和工具、內部流程等。
它能夠及時響應,自動提取知識,快速定位內容(比如產品描述、用戶手冊、技術規格、營銷材料、常見問題解答、法規等)。
它既省時,又減少了人工維護成本,還增加了信息透明度和知識共享。
從2023年初項目立項,到9月手機版發布,小禹持續在各個領域運用生成式AI能力,加速了西門子中國業務的發展。
在亞馬遜云科技的助力之下,各大企業的生成式AI技術一定會繼續蓬勃發展,發生更多革命性變化。
生成式AI帶來的生產力提高和新用例,會給全球經濟帶來巨大影響。
肉眼可見的是,這個時間點正在加速到來。
參考資料:
https://news.crunchbase.com/venture/biggest-rounds-of-june-ai-inflection-cleancapital/