谷歌Gemini 3.1 Flash TTS模型：帶來對AI語音前所未有的精細控制

2026-04-17 13:05

來源：澎湃新聞·澎湃號·湃客

聽全文

谷歌旗下DeepMind人工智能部門近日正式推出了一款全新的文本轉(zhuǎn)語音模型——Gemini 3.1 Flash TTS。

與以往機械生硬的同類產(chǎn)品不同，該模型允許用戶通過文字指令來控制語音風格、表達方式以及語速節(jié)奏。谷歌在其官方博客中介紹，X平臺上發(fā)布的演示視頻清晰展示了Gemini 3.1 Flash TTS在語音控制方面的強大能力，用戶可以靈活調(diào)整模型的語氣和音調(diào)。可供選擇的風格選項包括"熱情洋溢"、"驚喜愉悅"以及"信息傳遞"等多種模式。

除此之外，該模型還支持多種主流語言的地區(qū)口音選擇。僅英語一項便提供了豐富的方言版本，涵蓋美式"加州谷"口音、"南方"口音，以及多種英式變體，如"布里克斯頓"口音和"標準英式"發(fā)音，此外還有"跨大西洋"口音等更多選擇。

Gemini 3.1 Flash TTS還配備了導演級別的精細控制功能，允許用戶對模型的說話風格和語速進行深度調(diào)整。與此同時，該模型還內(nèi)置了多種格式模板，包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養(yǎng)生指導、新聞播報以及客服支持等場景風格。谷歌表示，用戶可以通過定義使用環(huán)境并提供具體的對話指令來"設置舞臺"，并且支持將這些配置導出為API代碼，方便開發(fā)者進行集成與二次開發(fā)。

Q&A

Q1：Gemini 3.1 Flash TTS和普通語音模型有什么區(qū)別？

A：Gemini 3.1 Flash TTS最大的不同在于它提供了極為精細的語音控制能力。用戶可以通過文字指令直接調(diào)整語音的風格、表達方式和語速，還能選擇"熱情洋溢""驚喜愉悅"等具體情緒風格，而傳統(tǒng)語音模型大多只能輸出單一、機械的聲音，靈活性遠不及此。

Q2：Gemini 3.1 Flash TTS支持哪些語言和口音？

A：目前該模型支持多種主流語言的地區(qū)口音選擇。以英語為例，可選口音非常豐富，包括美式"加州谷"口音、"南方"口音，以及英式"布里克斯頓"口音、"標準英式"發(fā)音，還有"跨大西洋"口音等多種變體，充分滿足不同場景的語音需求。

Q3：Gemini 3.1 Flash TTS有哪些實際應用場景？

A：該模型內(nèi)置了多種實用場景模板，包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養(yǎng)生指導、新聞播報和客服支持等。用戶可以直接套用模板，也可以自定義環(huán)境設置和對話指令，并將配置導出為API代碼，適合開發(fā)者進行應用集成。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#谷歌