在對(duì)話式AI領(lǐng)域,創(chuàng)造兼具人性化與多樣性的語(yǔ)音始終是技術(shù)難點(diǎn)。人們渴望聽到與自己相似的自然聲音,而非千篇一律的"播音腔"。

初創(chuàng)公司Rime推出的Arcana文本轉(zhuǎn)語(yǔ)音(TTS)模型正突破這一瓶頸。僅需輸入簡(jiǎn)單的特征描述,該系統(tǒng)就能即時(shí)生成不同性別、年齡、族裔和語(yǔ)言的"無(wú)限"語(yǔ)音變體。目前該技術(shù)已為達(dá)美樂(lè)、Wingstop等品牌帶來(lái)15%的銷售增長(zhǎng)。

"高質(zhì)量的擬真語(yǔ)音只是基礎(chǔ),"Rime CEO莉莉·克利福德表示,"真正的突破在于能沿人口統(tǒng)計(jì)學(xué)維度創(chuàng)造無(wú)限變化的語(yǔ)音庫(kù)。"

會(huì)"表演人性"的語(yǔ)音模型

Rime的多模態(tài)自回歸TTS模型基于真實(shí)自然對(duì)話訓(xùn)練(非專業(yè)配音)。用戶只需輸入如"30歲加州軟件行業(yè)女性"或"澳大利亞男性"等文本提示,即可獲得獨(dú)特語(yǔ)音。

"每次生成都是全新聲音,"克利福德強(qiáng)調(diào)。專為高并發(fā)商業(yè)場(chǎng)景設(shè)計(jì)的Mist v2版本,讓企業(yè)能定制符合業(yè)務(wù)需求的語(yǔ)音形象。系統(tǒng)還提供8款預(yù)設(shè)語(yǔ)音角色:

盧娜(Z世代樂(lè)觀女性)

奧利恩(非裔開朗中年男性)

埃斯特(華裔溫柔長(zhǎng)者)等

該模型不僅能切換語(yǔ)言,還可實(shí)現(xiàn)耳語(yǔ)、嘲諷等語(yǔ)氣,甚至能通過(guò)<笑>標(biāo)簽插入從輕笑到大笑的真實(shí)笑聲。技術(shù)白皮書指出:"它能根據(jù)上下文推斷情緒,自然地說(shuō)'呃'等口頭禪,這些涌現(xiàn)行為我們?nèi)栽谔剿髦小?quot;

捕捉真實(shí)對(duì)話的奧秘

Arcana的三大訓(xùn)練階段:

1基于開源大語(yǔ)言模型(LLM)預(yù)訓(xùn)練,學(xué)習(xí)通用語(yǔ)言聲學(xué)模式

2使用海量專有數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)

3篩選最優(yōu)說(shuō)話人樣本進(jìn)行針對(duì)性優(yōu)化

訓(xùn)練數(shù)據(jù)涵蓋社會(huì)語(yǔ)言學(xué)特征(階級(jí)、性別等背景)、個(gè)人語(yǔ)言習(xí)慣及副語(yǔ)言線索(語(yǔ)調(diào)、停頓等)。公司甚至在舊金山地下室自建錄音室,通過(guò)Craigslist招募普通人錄制自然對(duì)話而非劇本朗讀,最終實(shí)現(xiàn)98-100%的準(zhǔn)確率。

"如果只用專業(yè)配音,永遠(yuǎn)達(dá)不到這種親密度,"克利福德揭秘道,"我們的核心競(jìng)爭(zhēng)力就在于這些真實(shí)樣本。"

創(chuàng)造定制聲音的"個(gè)性化引擎"

Rime開發(fā)了A/B測(cè)試工具"個(gè)性化引擎",通過(guò)API反饋數(shù)據(jù)分析最佳語(yǔ)音方案。不同行業(yè)成功標(biāo)準(zhǔn)各異——餐飲業(yè)可能是追加薯?xiàng)l或雞翅的推薦成功率。數(shù)據(jù)顯示,使用Rime后客戶與AI交談意愿提升4倍,20%通話結(jié)束時(shí)會(huì)向機(jī)器人道謝。

目前該系統(tǒng)每月處理近1億通電話,"撥打達(dá)美樂(lè)或Wingstop時(shí),80-90%概率聽到Rime語(yǔ)音。"克利福德透露。未來(lái)公司將重點(diǎn)發(fā)展本地化部署以降低延遲,預(yù)計(jì)2025年底90%業(yè)務(wù)將轉(zhuǎn)為本地運(yùn)行。

"當(dāng)客戶說(shuō)'不需要轉(zhuǎn)人工'時(shí),我們知道革命正在發(fā)生。"克利福德總結(jié)道。這項(xiàng)技術(shù)證明,當(dāng)AI語(yǔ)音足夠人性化,商業(yè)轉(zhuǎn)化便水到渠成。

精選文章:

櫥窗藝術(shù)的復(fù)興:為何實(shí)體展示依然不可替代

"它重新定義了汽車品牌的角色":CUPRA跨界時(shí)尚設(shè)計(jì)的顛覆之路

突破常規(guī):MVRDV以錯(cuò)動(dòng)體塊打造臺(tái)北垂直拼圖住宅

Sergio Membrillas 談保持真實(shí)的藝術(shù):插畫、演變以及在創(chuàng)作過(guò)程中尋找樂(lè)趣

樂(lè)高新園區(qū)將打造全球最大樂(lè)高圖書館 采用員工主導(dǎo)設(shè)計(jì)理念