- +1
谷歌Gemini 3.1 Flash TTS模型:帶來對AI語音前所未有的精細控制
谷歌旗下DeepMind人工智能部門近日正式推出了一款全新的文本轉(zhuǎn)語音模型——Gemini 3.1 Flash TTS。
與以往機械生硬的同類產(chǎn)品不同,該模型允許用戶通過文字指令來控制語音風格、表達方式以及語速節(jié)奏。谷歌在其官方博客中介紹,X平臺上發(fā)布的演示視頻清晰展示了Gemini 3.1 Flash TTS在語音控制方面的強大能力,用戶可以靈活調(diào)整模型的語氣和音調(diào)。可供選擇的風格選項包括"熱情洋溢"、"驚喜愉悅"以及"信息傳遞"等多種模式。
除此之外,該模型還支持多種主流語言的地區(qū)口音選擇。僅英語一項便提供了豐富的方言版本,涵蓋美式"加州谷"口音、"南方"口音,以及多種英式變體,如"布里克斯頓"口音和"標準英式"發(fā)音,此外還有"跨大西洋"口音等更多選擇。
Gemini 3.1 Flash TTS還配備了導演級別的精細控制功能,允許用戶對模型的說話風格和語速進行深度調(diào)整。與此同時,該模型還內(nèi)置了多種格式模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養(yǎng)生指導、新聞播報以及客服支持等場景風格。谷歌表示,用戶可以通過定義使用環(huán)境并提供具體的對話指令來"設置舞臺",并且支持將這些配置導出為API代碼,方便開發(fā)者進行集成與二次開發(fā)。
Q&A
Q1:Gemini 3.1 Flash TTS和普通語音模型有什么區(qū)別?
A:Gemini 3.1 Flash TTS最大的不同在于它提供了極為精細的語音控制能力。用戶可以通過文字指令直接調(diào)整語音的風格、表達方式和語速,還能選擇"熱情洋溢""驚喜愉悅"等具體情緒風格,而傳統(tǒng)語音模型大多只能輸出單一、機械的聲音,靈活性遠不及此。
Q2:Gemini 3.1 Flash TTS支持哪些語言和口音?
A:目前該模型支持多種主流語言的地區(qū)口音選擇。以英語為例,可選口音非常豐富,包括美式"加州谷"口音、"南方"口音,以及英式"布里克斯頓"口音、"標準英式"發(fā)音,還有"跨大西洋"口音等多種變體,充分滿足不同場景的語音需求。
Q3:Gemini 3.1 Flash TTS有哪些實際應用場景?
A:該模型內(nèi)置了多種實用場景模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養(yǎng)生指導、新聞播報和客服支持等。用戶可以直接套用模板,也可以自定義環(huán)境設置和對話指令,并將配置導出為API代碼,適合開發(fā)者進行應用集成。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




