炬芯科技：在智能語音領域深耕聲音前處理技術

隨着智能時代的飛速發展，尚未成熟的AI產品在發佈會現場總會出現一些尷尬的演示瞬間。編者還記憶猶新的是2018年小米AIoT開發者大會上，雷軍多次對話小愛智能藍牙音箱時，結果小愛同學不予配合。雷軍問“三個木叫什麼”，小愛同學回答“你是電，你是光，你是唯一的神話”。由此可見，技術相對較成熟的智能音頻產品依然不夠完善。據行業專家分析，任何智能化產品如果需要涉及到語音交互，拾音技術的優化迫在眉睫，雷總出現的尷尬就原於硬件對聲音的拾取和判斷，也就是“聽的到？”和“聽的懂？”的問題。

然後，聽到和聽懂的第一步在於準確的獲取用戶的聲音（即拾音），否則無論雲端的虛擬助手多麼智能，也是無頭蒼蠅。麥克風陣列是語音交互的第一步，簡單來講，麥克風陣列是由2個及以上麥克風按一定規則排列組成，在特定空間對聲音進行獲取和處理的錄音系統，在智能音箱落地中有關鍵作用。市場可見，不僅傳統的芯片公司，語音技術巨頭和有深厚技術背景的初創公司紛紛加入這一領域。

小編走訪一直對聲音技術深耕多年的國產芯片原廠炬芯科技得知，拾音其實分爲遠場拾音（1米外）和近場拾音（20cm內）。比如，以Siri爲代表的智能手機就是近場拾音，採用的是單麥克風，可在近距離、低噪聲的情況下拾取符合語音識別需求的聲音。但是一旦將智能手機放在有噪聲的較遠的距離，Siri的識別率就會直線下降，單麥克風的侷限就凸顯了出來。不僅如此，由於噪聲、混響等因素的存在，遠場拾音還要與遠講語音識別算法相匹配，才能真正做到“聽清和聽懂”。

據業內技術大咖介紹，早在20世紀七八十年代，麥克風陣列已經被應用到語音信號處理中，進入90年代以來，基於麥克風陣列的語音信號處理算法逐漸成爲一個新的研究熱點。近年來隨着語音交互成爲趨勢，麥克風陣列逐漸進入消費市場領域，日趨火熱。

提到真正的語音交互智能設備，不得不說起亞馬遜在2014年底推出的Echo智能音箱，其採用6+1麥克風陣列，支持5米遠講語音操控。Echo雖然是第一款真正意義上的智能音箱設備，再加上亞馬遜強大的技術和資源支持，它依然需要4年甚至更長的時間去打磨產品，直到2018年才陸續被消費者認知和選擇。由此可見，語音交互和對聲音的前處理技術仍然需要升級，應該研發出更強悍的主控芯片，通過硬件解決好拾音和傳送功能，讓聲音的傳達變得更加的精準和效率。

小編此次走訪的是中國領先的低功耗消費類系統級芯片設計廠商炬芯科技，爲無線音頻及智能耳穿戴、智能多媒體、智慧計算及物聯網等產品領域提供專業芯片及完整解決方案。在音頻領域，炬芯已經推出了衆多藍牙和wifi智能產品方案，深受國內外品牌商的青睞，源於炬芯一直堅持“對聲音體驗的無限追求”的初衷，且一直不斷的投入和升級技術團隊，方纔成爲領先的聲音前處理技術芯片設計公司。