小米官方揭秘小米AI技術 一文看懂小愛同學進化的奧秘
時間:2025-11-22 06:56:12 來源:骨軟筋酥網 作者:焦點 閱讀:211次
2020年,小米小米學進小米AI技術持續發展背后,官方藏著無數位工程師們的揭秘技術杭州富陽(預約外圍)找外圍vx《1662-044-1662》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達付出和堅持
在2020年小米開發者大會(MIDC)上,小米集團副總裁、愛同奧秘集團技術委員會主席崔寶秋宣布小愛同學5.0正式上線。小米小米學進小愛同學由語音助手正式升級為智能生活助手。官方
在小愛同學持續進化的揭秘技術背后,是愛同奧秘小米AI技術的強大支撐和不斷深耕,也離不開小米AI實驗室工程師們的小米小米學進努力。
2020年,官方小米AI實驗室克服多項技術難點,揭秘技術在計算機視覺、愛同奧秘計算機語音、小米小米學進計算機聲學、官方自然語言處理、揭秘技術知識圖譜、機器學習、論文與競賽等方面均卓有成效。小米自研AI技術已經全面賦能了小米各項業務——手機、AIoT、互聯網等,HDR技術助力小米10 Pro/至尊紀念版奪得DXOMARK評測第一。
小米公司2020,小米AI努力前行,突破邊界,在自研創新的路上越來越堅定。2021,我們希望用人工智能的技術和產品,為你帶來更美好和更智能的生活。
一、計算機語音
計算機語音,就是對人說的話進行處理,這是一個很常用的技術,在小愛同學里面的語音交互、語音生成等都用到了計算機語音技術。
2020年,小米AI實驗室做了大量的工作,在語音的喚醒、識別、生成等方面取得了重大的突破。
1、語音喚醒
2020年,小米自研兩麥語音喚醒、低功耗語音喚醒方案分別上線了小愛音箱Art、小愛音箱Art電池版和Redmi小愛觸屏音箱Pro 8英寸電池版,技術上取得了重大突破。
我們通過技術升級,杭州富陽(預約外圍)找外圍vx《1662-044-1662》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達讓誤喚醒率降低了25%、喚醒延遲優化了33%,Redmi小愛觸屏音箱Pro 8英寸電池版在喚醒性能沒有降低的情況下,待機時長增加了30%。
在喚醒方面,小米語音喚醒技術為了兼顧低功耗與高性能,采用了雙級喚醒策略。低功耗待機喚醒詞檢測模型,利用子采樣與共享隱含層等技術,減少模型資源消耗的同時保證召回率在一個較高的水平。
高性能誤喚醒檢測模型,采用粗粒度建模單元,結合局部信息與長時上下文信息,高效抑制誤喚醒。通過從海量數據中自動挖掘高區分度訓練樣本,再經過數據擴充技術,提高喚醒模型在低信噪比與小音量場景下的魯棒性。
2、語音識別
2020年,小米語音識別在技術創新和業務應用上均取得了明顯的進步,主要包括4個方面:
第一,多通道端到端語音識別算法的研究取得一系列重要進展。論文《MULTI-CHANNEL AUTOMATIC SPEECH RECOGNITION USING DEEP COMPLEX UNET》作為研究成果之一已入選IEEE信號處理協會的旗艦活動 SLT 2021會議。
文章實驗結論表明,提出的算法與亞馬遜AI團隊最近提出的神經波束形成方法相比具有約10%的性能提升。論文發布后,此研究繼續取得突破,相比于經過工業界長期驗證的遠場語音識別傳統解決方案,自研多通道端到端方案取得20%的相對提高,并入選小米集團年度技術大獎前20位。
第二,包括手機、音箱、電視等線上主要業務業務識別準確率大幅提高,相比去年同期識別錯誤率下降50%+。為小愛同學提供了更加精準的環境感知能力,進一步提升了小愛同學用戶語音交互體驗。
第三,在細分人群和細分場景等方面取得了明顯的改進。2020年,小米語音對音樂點播、翻譯查詞等頭部場景的中英文混合識別能力進行了專項優化,英文歌曲識別準確率較改善前提升100%,翻譯查詞識別準確率提升50%。另外,針對兒童等細分人群識別準確率低的問題也進行了專門的聲學調教,童音識別準確率提升近10個百分點。第四,動態識別、并行推理等新技術應用改善了線上服務能力。動態識別技術極大地提高了對突發或新增內容的支持力度,對新熱資源、網絡新梗、突發名詞等已實現分鐘級動態增強。在語音識別業務 batch 推理優化方面,小米的在線語音識別業務通過深度優化 Kaldi 中模型推理模式,將原來的單序列模式改為 batch 模式,幫助業務的吞吐量提升3倍。
3、語音合成
2020年,小愛同學在聲音體驗上做了很多創新,如奶萌泡芙童聲、多情感語音、粵語合成、定制聲音等,不僅滿足了用戶對聲音情感化以及多樣化的需求,還通過黑科技帶給用戶更個性化的聲音體驗。小愛同學聲音體驗升級的背后,其實正是小米自研語音合成技術的迭代創新。
語音合成的工程師們付出了很大的努力,對端到端語音合成技術的框架做了重大升級,也就是“第二代端到端語音合成技術”,只需目標發音人少量的錄音數據,便可實現在音色和情感自然度等層面的合成效果高保真還原。
此外,工程師們進行了創新性探索,首先通過在模型中加入聲紋編碼和風格編碼,使得目標音色在利用其他數據完善自己對各類型文本駕馭能力的同時,保存了本真聲音特點,如童聲的奶萌,青蔥和茉莉的開心、關心;其次,我們上線了基于深度神經網絡的聲碼器,使得生成的聲音在音質上和對細節的刻畫上更趨于自然飽滿。

用心打磨粵語整體鏈路體驗,我們對超過兩萬句回復做了符合粵語表述的優化,只為讓粵語功能更地道、更好用。粵語功能將跟隨小愛同學5.0在手機端上線,小米小愛音箱、小愛音箱Pro、小愛音箱Art、小愛音箱Art 電池版四款音箱已全量上線。
2020年2月,在小米10發布會上亮相了黑科技“定制聲音”,用戶只需要20句話就能夠復刻自己、戀人、親人的聲音。作為目前行業內唯一一家大規模落地語音助手場景的公司,我們在不斷給用戶帶來溫情和爽點功能的背后,也曾面臨各種挑戰,例如如何基于少量低音質數據、如何實現海量聲音模型云端智能調度、如何降低服務成本等,是這個功能落地背后工程師們一直致力解決的“難題”。
但在小米投資企業深聲科技的幫助下,小愛同學的工程師們花了大量時間精力打磨優化,在短短幾個月時間攻克了難題,最終帶給用戶更流暢更逼真的效果體驗。
4、聲紋識別
2020年,聲紋識別技術持續擴充新能力,優化提升關鍵指標,以覆蓋更多應用場景。擴充新能力層面,我們新增了兒童細粒度識別,進一步保護兒童內容健康。此外,我們將聲紋的注冊成本由原先的5句降低到3句,大幅降低了用戶的注冊成本。
近期,小米聲紋的工程師更進一步,通過前沿的深度學習技術,直接將3句降成0句,用戶幾乎零注冊成本就可以使用聲紋能力。目前該技術已在小米電視5上線,大大提高了聲紋用戶覆蓋率。
在識別準確率與誤識率層面,經過一年的迭代優化,我們達到了業界領先水平。
目前小米自研的聲紋能力,已落地在手機、音箱、電視等多種設備上,誕生了聲紋鎖、個性化聊天響應、聲紋追劇、聲紋支付等很多用戶非常喜愛的場景功能。
二、計算機聲學
小米聲學技術致力于研發業界領先的智能聲學技術,以物理聲學、心理聽覺、信號處理、深度學習為理論基礎,開展陣列增強、通話降噪、智能感知、音頻聲場、聲學測量等技術領域的研究工作,全面支持小米集團各個業務線的聲學算法需求,其中通話降噪、麥克風陣列、協同喚醒、組合立體聲、全屋播放、揚聲器均衡等算法達到行業領先水平,已在多款小愛同學產品上線。
1、協同喚醒
大家都知道,當我們只有一個智能設備時,下達指令非常簡單且直接。但隨著用戶家里的智能設備越來越多,在使用和操作方面也變得更加復雜,小米一直在思考如何讓智能生活變得足夠簡單輕松、沒有負擔和門檻——小愛同學5.0,就是那個能幫你決策最佳執行設備的“智能生活助手”。
小米希望通過全場景智能協同,為用戶提供多設備跨場景的靈活應答和執行能力,能夠智能地選出最符合預期的設備喚醒應答、調起能力最匹配的設備執行指令、通過最適合的設備觸達提醒。
首先在協同喚醒方面,當你用語音喚醒小愛同學時,小愛同學將會從設備距離、活躍狀態、形態等綜合條件判斷,選擇最優的設備應答并傾聽,避免一呼百應。在控制功耗、不增加時延的同時,實現與其他設備的高效協同,突破原本“就近喚醒原則”的限制,實現根據場景不同喚醒不同設備的協同喚醒。
其次是協同響應方面,小愛同學解決了空間位置關系感知、設備能力統一建模、用戶上下文狀態管理等方面的技術難題,讓小愛同學在接收并理解你指令后,自主選擇出設備能力最能滿足當前語義需求的設備,更好的滿足你的需求。
最后是協同提醒方面,借助小米IoT生態的優勢,小愛同學會即時通過海量小米智能設備獲知環境狀態,加上對用戶家居控制習慣的學習記憶,預測你潛在的設備控制需求,適時主動為你作出提醒和建議,例如說晚安提醒你關燈,溫度高時提醒你開空調或風扇。
2、陣列增強
在日常生活場景中,如果說話的人距離智能設備的麥克風較遠,加上周圍存在的噪聲、多徑反射和混響,會導致麥克風收取信號的質量下降,嚴重影響語音識別率。
針對這一問題,2019年,小米聲學與語音團隊聯合推出了自主研發的陣列喚醒算法,并于2月20日上線小米AI音箱,有效提升噪聲場景平均喚醒率及回聲場景平均喚醒率。
9月20日發布的小愛音箱Pro及小愛音箱全量采用六麥自主研發的陣列喚醒算法,成為小米首款落地的全自主研發的智能音箱。
2020年,小愛音箱Art、小愛音箱Art電池版、Redmi小愛觸屏音箱Pro 8英寸電池版陸續發布,均搭載了小米自研兩麥陣列增強技術,采用兩麥盲源分離降噪前端,通過盲源分離、降噪、回聲消除等技術,在多聲源的嘈雜環境、音箱自身播放音樂時,都能結合語音增強技術,消除噪音的強干擾,獲得干凈、準確的人聲音頻。
未來,這項技術將應用到更多的小米設備中。
3、組合立體聲/全屋播放
小米AI實驗室聲學團隊,依托自研分布式技術,持續研發出了基于Wi-Fi組網的分布式放音技術,并實現了國內智能音箱首次落地組合立體聲的放音能力。
2020年,聲學團隊分布式放音技術全面升級,跟隨小愛音箱Art發布立體聲2.0,持續在全屋播放場景深挖技術,打通了設備端與云端的復雜信息同步,創新性地實現了語音支持全屋播放,用戶只需說一句“全屋播放XXX的音樂”,即可實現同賬號同Wi-Fi下的所有設備自動組網、并自動同步播放相同音頻。在實現語音自動組網的同時,也仍然支持APP內操作組建播放組,滿足用戶不同場景的不同播放需求。
除此以外,組合立體聲功能在2020年還實現了支持藍牙、Auxin場景,用戶可以通過藍牙或Auxin模式,自由地在組合立體聲上播放自己喜愛的音樂。
4、聲學標準
結合小米在硬件產品上的交互經驗和數據累積,2020年,聲學實驗室完成了《智能語音設備聲學硬件準入標準和設計建議》企業標準報批,并且作為起草單位參與了《信息技術智能語音交互測試》國家標準和《智能家居終端技術要求及等級評估方法》IEEE標準的制定。
建立適用于智能語音交互產品的遠場語音前端系統測評規范,旨在從用戶體驗角度建立一套科學完善的系統性能測評標準,為技術改進和方案選型提供有力支撐,促進語音技術產業良性發展。
三、自然語言處理
1、MiNLP平臺
經過兩年多的打造,小米AI實驗室從0到1,推出了一個技術領先、應用廣泛、有小米特色的自然語言處理平臺(下稱MiNLP平臺)。目前MiNLP平臺已經升級到了3.0版本,包含數十項NLP功能,已有30多個業務使用該平臺,每天調用量達到80億次。2020年11月,我們開源了MiNLP平臺中文分詞工具,后續還將陸續開源詞性標注、命名實體識別、句法分析、語義分析工具。
分詞是自然語言處理的基礎,對小愛同學理解用戶意圖起著重要的作用。小愛同學之前采用開源分詞,準確性不高且未針對業務場景進行優化。MiNLP平臺通過對分詞功能進行升級,在語料自動標注、領域數據增強、深度學習模型、人工干預機制、多端支持等方面有了很大的創新,先進的MiNLP平臺為小愛同學提供強大基礎技術支撐。
2、機器翻譯
我們經常遇到的翻譯是語音輸入——大家說話然后把它翻譯成其他語言。在機器翻譯過程中,第一步是通過語音識別系統將語音識別成文字,然后通過文字翻譯系統,將文字翻譯成另外一種文字。在這個過程當中,語音識別系統可能會發生錯誤,且錯誤率一直較高。
針對這個問題,小米AI實驗室給出了一些解決方法,其中,提出了基于對抗訓練的抗噪語音翻譯技術,簡單來說,就是訓練時盡量構造一些可能出錯的句子一起加入訓練。
同時,小米通過技術探索,對現有主流的神經機器翻譯模型進行了優化,在移動端設備上實現了基于低計算能力CPU的高質量低延時的離線翻譯。
3、多模態內容理解
“多模態”,簡單來說就是:擁有各種傳感器的智能設備,除了能聽(耳)會說(嘴)外,同時還能利用攝像頭(眼)觀察、利用底盤云臺(腳)移動等,從而全面的理解用戶意圖,和用戶進行溝通,滿足用戶的需求。
作為多模態融合的應用場景之一,小米在視覺模塊上投入了較多精力,全面擴充了小愛同學的視覺能力,包括集成鍵盤輸入、語言輸入、圖像輸入的多模態輸入能力,自動截屏進行翻譯、識物的語音與屏幕融合能力,還有新版掃一掃集成的六大核心功能:掃文檔、翻譯、掃碼、識物、掃題、名片,全新的小愛同學5.0實現了多場景視覺能力提升,小愛同學的“眼睛”更好用了。
從語音輸入走向視覺輸入,未來的人工智能不僅會是生活的工具,也將會朝著人機交互、情感交互的的趨勢發展,而如你我所見,小米的人工智能,一直在追求更自然地交互、更懂用戶的需求的方向上努力,從未停下腳步。
4、人機對話
語音交互中的全雙工連續對話能力,是目前業界比較關注的熱點。全雙工語音交互的特點是具備“邊說邊聽,可隨時打斷”的能力。小愛同學是首個在手機上實現自然連續對話的智能語音助理。作為小米人工智能應用前沿探索的先鋒,小愛同學經歷了幾代的技術積累與成長,也正朝著人文化、智能化的方向邁進。
小愛同學5.0的對話式主動智能,改變過去語音助手有問才有答的產品形態,小愛同學將會自己和你溝通,像人一樣發起問題來增進對你的了解,擁有了關于你的記憶,背后強大的全場景主動服務能力也得以更好的施展。
為了讓小愛同學能像人一樣,擁有“記憶”,小米克服了很多難點,首先,有賴于小米NLP技術支持的30多個業務場景、日調用次數達80億的深厚積累,用戶對小愛同學說過的話會經過NLP分析處理,并主動學習其中關于用戶的知識,另外,小愛同學還能計算哪些問題可以主動向用戶提問,并在合適的時機加入到對話式主動智能的溝通隊列中。
然后是記憶的存儲,用戶專屬的小愛同學云端大腦會為用戶建立多維度的個人畫像,實現了全設備個人信息互聯互通,每次交互都可以結合個人畫像進行計算,產生出面向用戶的個性化結果。
四、知識圖譜
知識圖譜,簡單理解就是知識庫,包括小愛同學的問答、搜索、推薦等能力都有涉及。知識圖譜對小愛應用場景支持更廣泛,除了知識問答場景外,支持音樂、視頻、古詩、菜譜、復雜推理、閑聊等場景。我們還在小愛同學中增加了字、詞、篇章、古詩的教育類能力,強化了“世界之最”以及“十萬個為什么”知識專項。
小愛同學背后的知識圖譜技術的提升主要體現在以下幾個方面:
知識融合:多源異構知識融合技術不僅支持了文本知識融合還支持了多模態知識的融合;
知識構建:知識自動構建技術已經可以支持用戶定制及敏捷擴展,可以更高效的支撐更多的業務;
知識關聯:目前已經可以支持復雜的關系推理和知識推薦場景;
概念圖譜:概念圖譜體系持續擴展,目前概念體系擴展到了97%的實體;
實體鏈接:實體鏈接技術更加成熟,效果在小愛場景上準召都到98%以上。
2021年,小米將打造更自動化的知識圖譜構建技術、更智能化的知識表示和知識推理應用、更開放化的知識圖譜社區、更特色化的知識內容。
2020年,小米AI技術持續發展背后,藏著無數位工程師們的付出和堅持,也融合著小米期望將AI科技融入智能生活的美好愿景。
未來,小米AI實驗室將繼續攻克一個又一個難題,探索科技新高度,用人工智能的技術和產品,為每一個人帶來更美好和更智能的生活。
在2020年小米開發者大會(MIDC)上,小米集團副總裁、愛同奧秘集團技術委員會主席崔寶秋宣布小愛同學5.0正式上線。小米小米學進小愛同學由語音助手正式升級為智能生活助手。官方
在小愛同學持續進化的揭秘技術背后,是愛同奧秘小米AI技術的強大支撐和不斷深耕,也離不開小米AI實驗室工程師們的小米小米學進努力。
2020年,官方小米AI實驗室克服多項技術難點,揭秘技術在計算機視覺、愛同奧秘計算機語音、小米小米學進計算機聲學、官方自然語言處理、揭秘技術知識圖譜、機器學習、論文與競賽等方面均卓有成效。小米自研AI技術已經全面賦能了小米各項業務——手機、AIoT、互聯網等,HDR技術助力小米10 Pro/至尊紀念版奪得DXOMARK評測第一。
小米公司2020,小米AI努力前行,突破邊界,在自研創新的路上越來越堅定。2021,我們希望用人工智能的技術和產品,為你帶來更美好和更智能的生活。
一、計算機語音
計算機語音,就是對人說的話進行處理,這是一個很常用的技術,在小愛同學里面的語音交互、語音生成等都用到了計算機語音技術。
2020年,小米AI實驗室做了大量的工作,在語音的喚醒、識別、生成等方面取得了重大的突破。
1、語音喚醒
2020年,小米自研兩麥語音喚醒、低功耗語音喚醒方案分別上線了小愛音箱Art、小愛音箱Art電池版和Redmi小愛觸屏音箱Pro 8英寸電池版,技術上取得了重大突破。
我們通過技術升級,杭州富陽(預約外圍)找外圍vx《1662-044-1662》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達讓誤喚醒率降低了25%、喚醒延遲優化了33%,Redmi小愛觸屏音箱Pro 8英寸電池版在喚醒性能沒有降低的情況下,待機時長增加了30%。
在喚醒方面,小米語音喚醒技術為了兼顧低功耗與高性能,采用了雙級喚醒策略。低功耗待機喚醒詞檢測模型,利用子采樣與共享隱含層等技術,減少模型資源消耗的同時保證召回率在一個較高的水平。
高性能誤喚醒檢測模型,采用粗粒度建模單元,結合局部信息與長時上下文信息,高效抑制誤喚醒。通過從海量數據中自動挖掘高區分度訓練樣本,再經過數據擴充技術,提高喚醒模型在低信噪比與小音量場景下的魯棒性。
2、語音識別
2020年,小米語音識別在技術創新和業務應用上均取得了明顯的進步,主要包括4個方面:
第一,多通道端到端語音識別算法的研究取得一系列重要進展。論文《MULTI-CHANNEL AUTOMATIC SPEECH RECOGNITION USING DEEP COMPLEX UNET》作為研究成果之一已入選IEEE信號處理協會的旗艦活動 SLT 2021會議。
文章實驗結論表明,提出的算法與亞馬遜AI團隊最近提出的神經波束形成方法相比具有約10%的性能提升。論文發布后,此研究繼續取得突破,相比于經過工業界長期驗證的遠場語音識別傳統解決方案,自研多通道端到端方案取得20%的相對提高,并入選小米集團年度技術大獎前20位。
第二,包括手機、音箱、電視等線上主要業務業務識別準確率大幅提高,相比去年同期識別錯誤率下降50%+。為小愛同學提供了更加精準的環境感知能力,進一步提升了小愛同學用戶語音交互體驗。
第三,在細分人群和細分場景等方面取得了明顯的改進。2020年,小米語音對音樂點播、翻譯查詞等頭部場景的中英文混合識別能力進行了專項優化,英文歌曲識別準確率較改善前提升100%,翻譯查詞識別準確率提升50%。另外,針對兒童等細分人群識別準確率低的問題也進行了專門的聲學調教,童音識別準確率提升近10個百分點。第四,動態識別、并行推理等新技術應用改善了線上服務能力。動態識別技術極大地提高了對突發或新增內容的支持力度,對新熱資源、網絡新梗、突發名詞等已實現分鐘級動態增強。在語音識別業務 batch 推理優化方面,小米的在線語音識別業務通過深度優化 Kaldi 中模型推理模式,將原來的單序列模式改為 batch 模式,幫助業務的吞吐量提升3倍。
3、語音合成
2020年,小愛同學在聲音體驗上做了很多創新,如奶萌泡芙童聲、多情感語音、粵語合成、定制聲音等,不僅滿足了用戶對聲音情感化以及多樣化的需求,還通過黑科技帶給用戶更個性化的聲音體驗。小愛同學聲音體驗升級的背后,其實正是小米自研語音合成技術的迭代創新。
語音合成的工程師們付出了很大的努力,對端到端語音合成技術的框架做了重大升級,也就是“第二代端到端語音合成技術”,只需目標發音人少量的錄音數據,便可實現在音色和情感自然度等層面的合成效果高保真還原。
此外,工程師們進行了創新性探索,首先通過在模型中加入聲紋編碼和風格編碼,使得目標音色在利用其他數據完善自己對各類型文本駕馭能力的同時,保存了本真聲音特點,如童聲的奶萌,青蔥和茉莉的開心、關心;其次,我們上線了基于深度神經網絡的聲碼器,使得生成的聲音在音質上和對細節的刻畫上更趨于自然飽滿。

用心打磨粵語整體鏈路體驗,我們對超過兩萬句回復做了符合粵語表述的優化,只為讓粵語功能更地道、更好用。粵語功能將跟隨小愛同學5.0在手機端上線,小米小愛音箱、小愛音箱Pro、小愛音箱Art、小愛音箱Art 電池版四款音箱已全量上線。
2020年2月,在小米10發布會上亮相了黑科技“定制聲音”,用戶只需要20句話就能夠復刻自己、戀人、親人的聲音。作為目前行業內唯一一家大規模落地語音助手場景的公司,我們在不斷給用戶帶來溫情和爽點功能的背后,也曾面臨各種挑戰,例如如何基于少量低音質數據、如何實現海量聲音模型云端智能調度、如何降低服務成本等,是這個功能落地背后工程師們一直致力解決的“難題”。
但在小米投資企業深聲科技的幫助下,小愛同學的工程師們花了大量時間精力打磨優化,在短短幾個月時間攻克了難題,最終帶給用戶更流暢更逼真的效果體驗。
4、聲紋識別
2020年,聲紋識別技術持續擴充新能力,優化提升關鍵指標,以覆蓋更多應用場景。擴充新能力層面,我們新增了兒童細粒度識別,進一步保護兒童內容健康。此外,我們將聲紋的注冊成本由原先的5句降低到3句,大幅降低了用戶的注冊成本。
近期,小米聲紋的工程師更進一步,通過前沿的深度學習技術,直接將3句降成0句,用戶幾乎零注冊成本就可以使用聲紋能力。目前該技術已在小米電視5上線,大大提高了聲紋用戶覆蓋率。
在識別準確率與誤識率層面,經過一年的迭代優化,我們達到了業界領先水平。
目前小米自研的聲紋能力,已落地在手機、音箱、電視等多種設備上,誕生了聲紋鎖、個性化聊天響應、聲紋追劇、聲紋支付等很多用戶非常喜愛的場景功能。
二、計算機聲學
小米聲學技術致力于研發業界領先的智能聲學技術,以物理聲學、心理聽覺、信號處理、深度學習為理論基礎,開展陣列增強、通話降噪、智能感知、音頻聲場、聲學測量等技術領域的研究工作,全面支持小米集團各個業務線的聲學算法需求,其中通話降噪、麥克風陣列、協同喚醒、組合立體聲、全屋播放、揚聲器均衡等算法達到行業領先水平,已在多款小愛同學產品上線。
1、協同喚醒
大家都知道,當我們只有一個智能設備時,下達指令非常簡單且直接。但隨著用戶家里的智能設備越來越多,在使用和操作方面也變得更加復雜,小米一直在思考如何讓智能生活變得足夠簡單輕松、沒有負擔和門檻——小愛同學5.0,就是那個能幫你決策最佳執行設備的“智能生活助手”。
小米希望通過全場景智能協同,為用戶提供多設備跨場景的靈活應答和執行能力,能夠智能地選出最符合預期的設備喚醒應答、調起能力最匹配的設備執行指令、通過最適合的設備觸達提醒。
首先在協同喚醒方面,當你用語音喚醒小愛同學時,小愛同學將會從設備距離、活躍狀態、形態等綜合條件判斷,選擇最優的設備應答并傾聽,避免一呼百應。在控制功耗、不增加時延的同時,實現與其他設備的高效協同,突破原本“就近喚醒原則”的限制,實現根據場景不同喚醒不同設備的協同喚醒。
其次是協同響應方面,小愛同學解決了空間位置關系感知、設備能力統一建模、用戶上下文狀態管理等方面的技術難題,讓小愛同學在接收并理解你指令后,自主選擇出設備能力最能滿足當前語義需求的設備,更好的滿足你的需求。
最后是協同提醒方面,借助小米IoT生態的優勢,小愛同學會即時通過海量小米智能設備獲知環境狀態,加上對用戶家居控制習慣的學習記憶,預測你潛在的設備控制需求,適時主動為你作出提醒和建議,例如說晚安提醒你關燈,溫度高時提醒你開空調或風扇。
2、陣列增強
在日常生活場景中,如果說話的人距離智能設備的麥克風較遠,加上周圍存在的噪聲、多徑反射和混響,會導致麥克風收取信號的質量下降,嚴重影響語音識別率。
針對這一問題,2019年,小米聲學與語音團隊聯合推出了自主研發的陣列喚醒算法,并于2月20日上線小米AI音箱,有效提升噪聲場景平均喚醒率及回聲場景平均喚醒率。
9月20日發布的小愛音箱Pro及小愛音箱全量采用六麥自主研發的陣列喚醒算法,成為小米首款落地的全自主研發的智能音箱。
2020年,小愛音箱Art、小愛音箱Art電池版、Redmi小愛觸屏音箱Pro 8英寸電池版陸續發布,均搭載了小米自研兩麥陣列增強技術,采用兩麥盲源分離降噪前端,通過盲源分離、降噪、回聲消除等技術,在多聲源的嘈雜環境、音箱自身播放音樂時,都能結合語音增強技術,消除噪音的強干擾,獲得干凈、準確的人聲音頻。
未來,這項技術將應用到更多的小米設備中。
3、組合立體聲/全屋播放
小米AI實驗室聲學團隊,依托自研分布式技術,持續研發出了基于Wi-Fi組網的分布式放音技術,并實現了國內智能音箱首次落地組合立體聲的放音能力。
2020年,聲學團隊分布式放音技術全面升級,跟隨小愛音箱Art發布立體聲2.0,持續在全屋播放場景深挖技術,打通了設備端與云端的復雜信息同步,創新性地實現了語音支持全屋播放,用戶只需說一句“全屋播放XXX的音樂”,即可實現同賬號同Wi-Fi下的所有設備自動組網、并自動同步播放相同音頻。在實現語音自動組網的同時,也仍然支持APP內操作組建播放組,滿足用戶不同場景的不同播放需求。
除此以外,組合立體聲功能在2020年還實現了支持藍牙、Auxin場景,用戶可以通過藍牙或Auxin模式,自由地在組合立體聲上播放自己喜愛的音樂。
4、聲學標準
結合小米在硬件產品上的交互經驗和數據累積,2020年,聲學實驗室完成了《智能語音設備聲學硬件準入標準和設計建議》企業標準報批,并且作為起草單位參與了《信息技術智能語音交互測試》國家標準和《智能家居終端技術要求及等級評估方法》IEEE標準的制定。
建立適用于智能語音交互產品的遠場語音前端系統測評規范,旨在從用戶體驗角度建立一套科學完善的系統性能測評標準,為技術改進和方案選型提供有力支撐,促進語音技術產業良性發展。
三、自然語言處理
1、MiNLP平臺
經過兩年多的打造,小米AI實驗室從0到1,推出了一個技術領先、應用廣泛、有小米特色的自然語言處理平臺(下稱MiNLP平臺)。目前MiNLP平臺已經升級到了3.0版本,包含數十項NLP功能,已有30多個業務使用該平臺,每天調用量達到80億次。2020年11月,我們開源了MiNLP平臺中文分詞工具,后續還將陸續開源詞性標注、命名實體識別、句法分析、語義分析工具。
分詞是自然語言處理的基礎,對小愛同學理解用戶意圖起著重要的作用。小愛同學之前采用開源分詞,準確性不高且未針對業務場景進行優化。MiNLP平臺通過對分詞功能進行升級,在語料自動標注、領域數據增強、深度學習模型、人工干預機制、多端支持等方面有了很大的創新,先進的MiNLP平臺為小愛同學提供強大基礎技術支撐。
2、機器翻譯
我們經常遇到的翻譯是語音輸入——大家說話然后把它翻譯成其他語言。在機器翻譯過程中,第一步是通過語音識別系統將語音識別成文字,然后通過文字翻譯系統,將文字翻譯成另外一種文字。在這個過程當中,語音識別系統可能會發生錯誤,且錯誤率一直較高。
針對這個問題,小米AI實驗室給出了一些解決方法,其中,提出了基于對抗訓練的抗噪語音翻譯技術,簡單來說,就是訓練時盡量構造一些可能出錯的句子一起加入訓練。
同時,小米通過技術探索,對現有主流的神經機器翻譯模型進行了優化,在移動端設備上實現了基于低計算能力CPU的高質量低延時的離線翻譯。
3、多模態內容理解
“多模態”,簡單來說就是:擁有各種傳感器的智能設備,除了能聽(耳)會說(嘴)外,同時還能利用攝像頭(眼)觀察、利用底盤云臺(腳)移動等,從而全面的理解用戶意圖,和用戶進行溝通,滿足用戶的需求。
作為多模態融合的應用場景之一,小米在視覺模塊上投入了較多精力,全面擴充了小愛同學的視覺能力,包括集成鍵盤輸入、語言輸入、圖像輸入的多模態輸入能力,自動截屏進行翻譯、識物的語音與屏幕融合能力,還有新版掃一掃集成的六大核心功能:掃文檔、翻譯、掃碼、識物、掃題、名片,全新的小愛同學5.0實現了多場景視覺能力提升,小愛同學的“眼睛”更好用了。
從語音輸入走向視覺輸入,未來的人工智能不僅會是生活的工具,也將會朝著人機交互、情感交互的的趨勢發展,而如你我所見,小米的人工智能,一直在追求更自然地交互、更懂用戶的需求的方向上努力,從未停下腳步。
4、人機對話
語音交互中的全雙工連續對話能力,是目前業界比較關注的熱點。全雙工語音交互的特點是具備“邊說邊聽,可隨時打斷”的能力。小愛同學是首個在手機上實現自然連續對話的智能語音助理。作為小米人工智能應用前沿探索的先鋒,小愛同學經歷了幾代的技術積累與成長,也正朝著人文化、智能化的方向邁進。
小愛同學5.0的對話式主動智能,改變過去語音助手有問才有答的產品形態,小愛同學將會自己和你溝通,像人一樣發起問題來增進對你的了解,擁有了關于你的記憶,背后強大的全場景主動服務能力也得以更好的施展。
為了讓小愛同學能像人一樣,擁有“記憶”,小米克服了很多難點,首先,有賴于小米NLP技術支持的30多個業務場景、日調用次數達80億的深厚積累,用戶對小愛同學說過的話會經過NLP分析處理,并主動學習其中關于用戶的知識,另外,小愛同學還能計算哪些問題可以主動向用戶提問,并在合適的時機加入到對話式主動智能的溝通隊列中。
然后是記憶的存儲,用戶專屬的小愛同學云端大腦會為用戶建立多維度的個人畫像,實現了全設備個人信息互聯互通,每次交互都可以結合個人畫像進行計算,產生出面向用戶的個性化結果。
四、知識圖譜
知識圖譜,簡單理解就是知識庫,包括小愛同學的問答、搜索、推薦等能力都有涉及。知識圖譜對小愛應用場景支持更廣泛,除了知識問答場景外,支持音樂、視頻、古詩、菜譜、復雜推理、閑聊等場景。我們還在小愛同學中增加了字、詞、篇章、古詩的教育類能力,強化了“世界之最”以及“十萬個為什么”知識專項。
小愛同學背后的知識圖譜技術的提升主要體現在以下幾個方面:
知識融合:多源異構知識融合技術不僅支持了文本知識融合還支持了多模態知識的融合;
知識構建:知識自動構建技術已經可以支持用戶定制及敏捷擴展,可以更高效的支撐更多的業務;
知識關聯:目前已經可以支持復雜的關系推理和知識推薦場景;
概念圖譜:概念圖譜體系持續擴展,目前概念體系擴展到了97%的實體;
實體鏈接:實體鏈接技術更加成熟,效果在小愛場景上準召都到98%以上。
2021年,小米將打造更自動化的知識圖譜構建技術、更智能化的知識表示和知識推理應用、更開放化的知識圖譜社區、更特色化的知識內容。
2020年,小米AI技術持續發展背后,藏著無數位工程師們的付出和堅持,也融合著小米期望將AI科技融入智能生活的美好愿景。
未來,小米AI實驗室將繼續攻克一個又一個難題,探索科技新高度,用人工智能的技術和產品,為每一個人帶來更美好和更智能的生活。
(責任編輯:時尚)
相關內容
- ·揚州外圍伴游(微信156-8194-*7106)揚州外圍伴游酒吧外圍上門外圍女姐美女本地上門
- ·鄭州模特包夜(電話微信181-8279-1445)提供一二線城市可以真實可靠快速安排30分鐘到達
- ·常州外圍(外圍上門)外圍預約(微信156-8194-*7106)提供高端外圍上門真實靠譜快速安排不收定金見人滿意付款
- ·長春包夜空姐預約(微信156-8194-*7106)提供頂級外圍女上門,伴游,空姐,網紅,明星,車模等優質資源,可滿足你的一切要求
- ·湛頭外圍預約(外圍模特)外圍上門(微信156-8194-*7106)高端外圍預約快速安排30分鐘到達
- ·杭州外圍(外圍女)外圍預約(微信156-8194-*7106)真實上門外圍上門外圍女,快速安排30分鐘到達
- ·常州包夜空姐預約(電話微信181-8279-1445)提供頂級外圍女上門,可滿足你的一切要求
- ·濟南包夜外圍上門外圍女姐(電話微信181-8279-1445)一二線城市均可安排、高端一手資源、高質量外圍女模特空姐、學生妹應有盡有
最新內容













