聲音類 AI 產品的創業探索
聲明:本文來自于微信公眾號 AI新智能(ID:alpAIworks),作者:Stars,授權微新創想轉載發布。
機器與人類交互的最直接方式無非就三種,視覺、觸覺和聽覺。大語言模型滿足了視覺上對文字的交互,而聽覺就需要語音模型來補齊了。
找到AI新賽道
隨著大語言模型的技術日趨成熟,尋找新的增長點,探索未完全開發的AI市場成為了一個必然的趨勢。
其中,人類與機器之間的交互無疑是一個重要的方向。
圖1目前部分國產大語言模型列表
機器與人類交互的最直接方式無非就三種,視覺、觸覺和聽覺。
大語言模型滿足了視覺上對文字的交互,而聽覺就需要其它類型的AI來補齊了。
在聽覺方面,聲音創作類AI作為語音領域的一個細分方向,近年來發展迅速,不斷有新的應用場景被開發出來。
聲音AI的研究可以追溯到20世紀90年代,早期很多工作集中在語音識別和語音合成等基礎技術上。
進入21世紀后,隨著深度學習在語音識別和語音合成方面的廣泛應用,聲音AI的能力得到了極大提升。現在不僅可以做到非常準確的語音轉文字和文字轉語音,而且可以學習并模擬特定人物的聲音特征。
這無疑大大拓寬了AI的應用范圍。
2
一款聲音類AI的創業探索
在語音創作工具領域,大餅AI變聲是一個典型的在聲音方面的AI探索案例。
2021年,畢業于卡內基梅隆大學的凌天格創立了上海格子互動信息技術有限公司(以下簡稱格子互動),并在同年就開發出第一款應用“ HALO 劇本殺”。顧名思義,這款應用是一個專注于線上劇本殺的應用。
格子互動通過將各類優秀劇本和DM(劇本殺主持人)資源整合起來,迅速收獲了一批忠實用戶。格子互動也獲得源碼資本種子業務“源碼一粟”的種子輪投資。
圖2“Halo有戲”官網截圖
在擁有了一個穩定收入來源和聲音數據源后,格子互動啟了它的野心征途:“大餅AI變聲”,正式走向了聲音類 AI賽道。
通過前期劇本殺應用的長期積累,格子互動獲得了大量的DM的優質干聲(指僅有人聲不含其它雜音的聲音)。在擁有了數字資源后,格子互動就著手于將資源變換為實際可利用的 AI模型。將干聲訓練為了一個個可供使用的語音模型。
由此格子互動便推出了大餅AI變聲,其主要功能就是一個多功能的語音轉換工具。它能夠實時地把輸入的人聲,轉換成不同風格的語音輸出,實現語音的變聲效果。
這對于需要頻繁配音的內容創作者來說,可以極大地提高內容產出效率。
目前來看,大餅AI變聲未來可以通過定制化聲音模型訓練提供定制化的變聲服務,將定制化模型變為商業化主要道路。同時降本增效,持續技術投入,將模型定制成本逐漸降低,以此快速實現商業化。
3
拓寬聲音AI的應用視野
語音轉換或者說變聲僅僅只是聲音AI的冰山一角。擺脫了“變聲”這一單一方向后,語音內容生成語音生成類 AI會有更大的發展空間。
語音生成類 AI的發展,可以賦能大量與人聲相關的行業,大幅提升效率,增加成果轉化速度。
1.有聲書
有聲書類別中,人類配音目前最大的優勢就是情感的豐富性和角色的多樣性和音色的多變性。然而人工錄制有聲讀物仍需要人工朗讀與校對,各項成本都不會因為邊際效應而降低。而 AI配音則可以快速產出內容,文字量甚至可以達到500萬字/天。目前,喜馬拉雅等傳統聽書軟件已經紛紛下場開始了這項業務內容。
2.網絡視頻快速配音
在短視頻快速發展的當下,有大量的AI配音視頻的產生。如魔音工坊等平臺更有完整的 AI配音方案輔助完成一期短視頻。AI配音提升了視頻的產出效率,作者只需要準備好合格的文案就可以快速產出內容。同時避免了觀眾對于某一個特定視頻博主聲音的依賴性,能夠更長期的穩定運營一個頻道。
3.虛擬主播
虛擬主播行業是近幾年誕生的新興直播種類。主播常以一種虛擬二次元形象出現。在視覺效果上,主播已不需要實際露臉,而是以自身的獨特設定(例如萌化動物,某種獨特性格)為基礎完成每次直播。但是目前的直播中缺少了重要的聲音因素,使得角色設定中缺少了一部分內容。而當下的 AI變聲搭配 AI語音生成就可以很好的解決這一問題,加強了主播的娛樂性。
4.游戲內配音
與虛擬主播類似的就是游戲了。但是不同的是游戲行業不需要實時的語音變化,而是需要更精細的調節。不論是任何獨特的角色設定和背景故事,都可以使用 AI提供專屬的、唯一且穩定的音源。不僅提高了游戲的沉浸感,還能夠大幅提升配音音源的穩定性。AI配音的出現極大降低了由于配音的不確定性帶來的風險(如配音演員更替、演員受傷、聲線變換等等),降低了運營風險。
圖3由ElectricNoir創作的互動型小說,語音均由AI錄制
總的來說,聲音AI不再局限于單一的“變聲”,而能夠廣泛應用于內容創作的各個方面,大幅提升效率并打開更多創作可能性。這將推動語音AI技術在各創意產業中的深入應用。
但是目前來看,AI語音生成仍然有情感缺失等不足。而且在面對漢語這類有多音字詞的語言時,生成語調與換氣等仍有較大的問題。
目前各類云已提供了基于云上的文本到語音(Text-to-Speech, TTS)系統,從微軟的Azure到國內的阿里云騰訊云都有這方面的服務。
除此之外,語音生成技術都有開源的開源方案和完備的論文支撐。這意味著后入局的企業必須要雙管齊下,努力擴大自身的技術護城河的同時,通過商業互補建立起數字資源圍欄。
4
聲音類AI的風險
在找到了語音生成類 AI的基礎商業方向之后,風險控制就成了開發中的重要一環。目前語音生成 AI仍有很多風險敞口。
1.誤導信息傳播:因為語音生成AI可以創造極其逼真的人聲,有可能被用于制造假新聞或深度偽造(Deepfakes),為了傳播誤導性信息或進行欺詐活動。
2.侵犯隱私:語音生成AI需要大量的語音數據進行訓練。如果這些數據沒有得到適當的處理和保護,可能會侵犯個人隱私。
3.冒名行騙:高級的語音生成AI可以模仿特定的人的聲音,這可能被用于冒充他人進行欺詐。
4.就業影響:隨著語音生成AI的應用越來越廣泛,一些需要人類聲音的行業(例如:廣播、旁白、語音合成等)可能會受到影響,導致就業機會的減少。
5.倫理和道德問題:例如,使用某人的聲音(尤其是未經其同意)進行語音合成可能涉及到倫理和道德問題。
6.安全問題:隨著語音生成技術的發展,很可能會出現新的安全問題,例如語音驅動的身份驗證系統可能會遭到攻擊。
在國內需要著重控制風險,尤其是詐騙風險。應適時掌握法律動態發展,根據法律法規要求快速調整應用。應考慮與語音內容審核結合,對用戶生成內容進行審查后,再提供發布服務。
5
文末總結
在走過了長期的“互聯網+”生態后,“AI+”可能可以成為下一個業務的增長點。
企業可積極布局AI賦能業務,與時俱進把握發展機遇。
聲音AI+游戲,AI+影視,AI+閱讀,AI+直播,通過聲音類AI還可以賦能多種業務,極大提升業務效率降低方案實施成本。
通過聲音AI可以賦能大量產業,提升產業效能。