有獎調查 | 召喚KWS/ASR愛好者

2020-06-24 09:10 作者:電堂科技 0人讀過 | 我要投稿

參與KWS\ASR （關鍵詞喚醒\語音識別）調研贏獎品

今天，你有沒有跟手機上的Siri玩成語接龍？下班回家后，你家的Echo有沒有熱情地歡迎你回來？

不知不覺中，AI已經(jīng)深入到我們生活的方方面面，而語音交互成為最基本最直接的AI控制方式。語音交互生態(tài)的成熟，將會帶動越來越多的設備語音化、智能化，使語音真正成為人機交互的界面。

語音識別，云端還是終端

語音識別技術是指機器自動將人的語音的內容轉成文字，又稱?Automatic Speech Recognition，即ASR技術。

語音識別方案主要有三大部分組成：語義識別平臺，CPU主控，以及MIC（麥克風）陣列。

當前主流的語音識別方案是在終端上進行聲音采集和前處理，語音識別算法則放在服務器（即云端）上運行。這是因為作為CPU主控，目前嵌入式終端上的CPU性能還不夠強勁。這種方案有泄漏隱私（把終端上的語音數(shù)據(jù)發(fā)給服務器）和無網(wǎng)狀態(tài)不能使用等缺點。隨著終端CPU性能日益強大，未來的語音識別所有功能都能夠終端上實現(xiàn)。

關鍵詞喚醒，可以在終端

不過，目前我們也不用消極等待。關鍵詞喚醒功能（Key-word-spotting, KWS）是可以在終端上實現(xiàn)的。關鍵詞喚醒是指設定一個喚醒詞，如Siri的“Hi Siri”，只有用戶說了喚醒詞后，終端上的語音識別功能才會處于工作狀態(tài)，否則處于休眠狀態(tài)。這樣做主要是為了降低功耗，增加續(xù)航時間。所有的手持設備對功耗都很敏感，絕不可能讓語音識別功能一直處于工作狀態(tài)。

ST已經(jīng)和中國合作伙伴OpenAILab一起，將算法移植到了STM32L4、STM32F4、STM32F7和STM32H7平臺上。下面的視頻就是基于STM32L496的探索開發(fā)板。近場模型標準版只需要占用STM32L4 12MIPS, 200kB的Flash和26kB的RAM。