搜狗輸入法“變聲”功能上線 支持千人千聲一鍵轉(zhuǎn)換
發(fā)帖時間:2025-11-23 07:44:51
導讀:5月21日搜狗輸入法就化身為了現(xiàn)實版的變聲“阿笠博士”,正式推出“變聲”功能。搜狗輸入聲鍵
該功能由搜狗知音團隊支持,法功北京西城外圍預約(高端外圍)外圍vx《189-4143》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達可以將任意說話人的線支聲音實時變換到指定說話人的音色。
不再是持千動畫,也不再是人千科幻想象,AI再次帶來夢想成真一刻。轉(zhuǎn)換
在動畫片《名偵探柯南》中,變聲阿笠博士送給柯南的搜狗輸入聲鍵變聲領結(jié)是柯南破案的重要道具,得益于它,法功柯南可以將聲音偽裝成其他人,線支在不暴露身份的持千北京西城外圍預約(高端外圍)外圍vx《189-4143》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達情況下巧妙破案。
但或許你未曾想過,人千有一天,轉(zhuǎn)換這個變聲領結(jié)會真的變聲出現(xiàn)在現(xiàn)實世界中,并且只需要在手機上輕輕一點就可以實現(xiàn)完美變聲。
沒錯,現(xiàn)在通過搜狗輸入法就OK。
現(xiàn)實版“柯南變聲領結(jié)”
今天(5月21日),搜狗輸入法就化身為了現(xiàn)實版的“阿笠博士”,正式推出“變聲”功能。
該功能由搜狗知音團隊支持,可以將任意說話人的聲音實時變換到指定說話人的音色。
簡而言之,只要用戶在語音輸入中輸入想說的話,再選擇一個喜愛的角色,就會瞬間把聲音轉(zhuǎn)化成該角色的聲音,效果直逼柯南的“變聲領結(jié)”。
雖然效果實現(xiàn)起來一步到位,但背后技術實現(xiàn)并不簡單。
搜狗知音的語音技術團隊,克服了諸多難以想象的現(xiàn)實困難。
其中最核心的問題是,每一個人的音調(diào)、音色和語言節(jié)奏都不盡相同,正如同世上沒有兩片相同的樹葉一樣,世上也沒有兩個完全相同的說話人。
如何將“千人千聲”通過技術處理,變?yōu)橥环N指定聲音,同時還不丟失原說話人的語言習慣?
這不僅搜狗面臨的挑戰(zhàn),也是國際上承認的技術難題。
技術剖析
搜狗知音主要從語音表征學習、語音合成等領域的展開突破。
首先,搜狗知音團隊使用表征學習技術,先學習到源端說話人語音的音色、內(nèi)容和韻律三大特征。
其次,將學習到的源端說話人音色特征替換成目標說話人。
最后,基于搜狗知音的端到端語音合成技術,使用內(nèi)容(源端)、韻律(源端)、音色(目標端)三類特征合成最終變聲音頻,達到各個方位的相似和自然。
在表征學習上,對目標音色語料進行聲紋特征編碼,提取說話人的音色embedding,再分別從輸入音頻中學習內(nèi)容和韻律embedding。
把“說話人歸一化”模塊對內(nèi)容embedding進行統(tǒng)一規(guī)整,去除音色信息。
通過對音頻特征的壓縮編碼及特征抽取,學習表征韻律的風格特征。
然后基于表征學習得到的特征,通過Attention和Decoder模塊進行加權(quán)特征編碼,并利用WaveRNN神經(jīng)網(wǎng)絡聲碼器恢復成波形,最終得到帶有目標音色的音頻。
這樣一來,由源端音色到指定音色的轉(zhuǎn)化就變得輕易而精密了。
在以上技術原理的支持下,搜狗知音的“變聲”功能擁有三大功能亮點:
首先,還原度極高,變聲到指定角色的音色與該角色的原始音色十分相似,幾乎可以做到以假亂真。
其次,自由空間大,搜狗這一“變聲”功能對用戶本身的音色沒有任何限制,每個人均可變聲到預先指定的音色,真正具有“任意人變聲到同一人”的能力。
最后,搜狗知音打破了音色轉(zhuǎn)換的局限,將用戶輸入的語音內(nèi)容、語速、停頓、情感等均轉(zhuǎn)化為超高逼真度的指定角色聲音,因此可以達到更自然的變聲溝通。
目前,在搜狗知音“變聲”功能中可供選擇的角色橫跨互聯(lián)網(wǎng)、明星類、動漫類等多個類別,有近20種聲音,包含周星馳、蠟筆小新、小豬佩奇等多個經(jīng)典的角色,甚至還收錄了搜狗CEO王小川的聲音。
在聊天過程中,用戶可以使用他們的聲音完成“變裝”,增添聊天過程中的趣味程度。
當然,用戶一鍵使用最新技術的背后,也離不開工程師們的付出。
而且在類似的國際前沿的技術突破領域,中國AI公司正在用研究和論文打響名氣。
在搜狗知音團隊此次最新技術發(fā)布前,搜狗還聯(lián)合清華天工研究院在5月17日的語音頂級峰會ICASSP 2019上,發(fā)布了關于“基于模態(tài)注意力的端到端音視覺語音識別”的學術論文。
全球AI華山論劍,中國創(chuàng)新正在 making different~