人民網
人民網>>IT

Siri、小度和小冰 它們是怎麼做到和你相談甚歡的

陸成寬
2019年08月19日08:14 | 來源:科技日報
小字號
原標題:Siri、小度和小冰 它們是怎麼做到和你相談甚歡的

  你知道小冰嗎?你呼叫過小度嗎?你和小娜互動過嗎?你使用過Siri嗎?如果都沒有,那你就out了。它們都是當下很火爆的智能語音機器人,很多人都和它們聊過天。

  日前,美國投資機構Mangrove Capital Partners發布了2019年《語音技術報告》。報告分析了語音助理服務的日益普及,並預測蘋果2020年將推出Siri操作系統。那麼,究竟什麼是語音技術?它有哪些應用?語音操作系統又是什麼?為此,記者採訪了相關專家。

  通過純語音信息實現與機器交互

  與圖像識別、機器學習一樣,智能語音是人工智能的一個分支。在人工智能異常火熱的當下,從Siri到小度,從小冰到小娜,智能語音正在融入人們的生活之中。

  所謂智能語音技術,就是研究人與計算機直接以自然語音的方式進行有效溝通的各種理論和方法,涉及語音識別、內容理解、對話問答等。一般來說,智能語音就是利用計算機對語音信息進行自動處理和識別的技術。

  “從引擎模塊的角度講,智能語音技術包括語音前端處理(含語音增強)、語音識別、語音合成、語義理解對話管理和聲紋識別等模塊。其中,語音識別就是將語音信息通過計算機自動處理轉化成文字的過程,也叫語音轉寫,它包括語音分段、端點檢測、特征提取、解碼以及后處理等過程。”中國科學院聲學研究所(以下簡稱中科院聲學所)研究員趙慶衛告訴科技日報記者。

  目前,智能語音技術主要應用於智能家居、虛擬助手、可穿戴設備、智能車載、智能客服、智能醫療、陪伴機器人等方面。所謂虛擬助手,就是智能語音助手,它的核心在於人類通過純語音信息實現與機器的交互,讓智能機器“助手”幫忙完成指派的任務。

  在趙慶衛看來,語音操作系統是一個比較大膽的設想,基於語音的人機交互有很大的發展潛力,所以不少互聯網企業都看好這個方向。目前,亞馬遜已經打造了一個智能語音雲平台(Alexa),平台上有各種智能語音應用(8萬種技能),在這個平台上,用戶可以通過語音發出一系列指令,比如購物、搜索、聽音樂、講故事等。

  智能語音技術的前世今生

  事實上,智能語音技術的研究起源於20世紀50年代。1952年,美國貝爾實驗室制造了一台6英尺高的自動數字識別機“Audrey”,它可以識別數字0—9的發音,且准確度高達90%以上。並且它對熟人的精准度高,而對陌生人則偏低。1958年,中科院電子所的聲學研究室利用電子管實現了10個元音的識別。“由於那時計算能力很弱,智能語音隻能做一些特別簡單的字母或數字的識別。”趙慶衛說道。

  20世紀60年代到70年代初,語音識別的研究取得了一定進展。“此時,智能語音技術開始形成系統的框架,提出了基於線性預測編碼(LPC)技術的特征提取方法和動態時間規整(DTW)技術,並且使用模板匹配的方法做一些簡單的語音識別(小詞匯量、特定人、孤立詞)”。

  從20世紀70年代中期到80年代,語音識別的框架有了突破,統計模型逐步取代模板匹配的方法,隱含馬爾科夫模型成為語音識別系統的基礎模型。同時,也採用高斯混合模型作為聲學模型的主要建模方法,連接詞識別和中等詞匯量連續語音識別得到了較大發展。

  “到90年代的時候,基礎的神經網絡語音識別模型已經提出。但當時神經網絡語音識別模型之所以沒能取得較大的突破,主要是因為當時服務器的計算能力不夠強以及訓練語音數據的量不夠多。”趙慶衛說,90年代時的神經網絡語音識別模型沒能替代傳統方法,此時智能語音技術還是以隱含馬爾科夫模型和高斯混合模型為基本框架。

  從20世紀90年代到21世紀初,非特定人、大詞匯量、連續語音識別系統的研究成為國際語音界研究方向的主流。1997年,IBM首個聽寫產品Via Voice問世,用戶隻要對著話筒說出想要輸入的文字,系統就會自動識別並輸出文字。

  2002年,中科院自動化所推出了“天語”中文語音系列產品——Pattek ASR﹔2005年,中科院聲學所推出國內第一個自主研發的電信級語音識別平台,首次實現了國產語音識別軟件的規模應用,在中國移動23個省的增值業務上線應用,佔據了國內80%市場份額,使美國公司對中國語音識別市場的壟斷成為歷史。

  深度神經網絡框架成為主流

  2010年,隨著服務器的計算能力大幅提高(受益於GPU的應用)和訓練語音數據的大幅度增加(受益於移動互聯網和雲計算的發展),微軟基於深度神經網絡的語音識別研究取得較大進展,“識別錯誤率相對下降20%以上”。此后,深度神經網絡的建模優勢被許多國際和國內知名語音研究機構所驗証,業界開始認識到基於深度神經網絡的建模框架比原來的框架識別效果明顯要好,“現在大家基本都採用了基於深度神經網絡的建模框架。”趙慶衛說道。

  最近幾年,基於深度神經網絡的語音識別技術也進行了持續的迭代,從基礎的深度神經網絡發展到延時神經網絡(TDNN)、雙向長短時記憶(BLSTM)以及卷積神經網絡(CNN)等﹔近年來,基於端到端架構(End-to-End)的語音識別系統正在被語音識別的學術界和工業界深入研究,一些系統也已經上線,中科院聲學所將其最新研究成果實際應用於中國移動通信集團和中國電信集團的客服熱線,智能技術直接服務了數以億計的客戶。

  據了解,中科院聲學所長期致力於語音識別核心技術研究。針對實時語音識別的需求,研究人員提出一種基於混合神經網絡(延時神經網絡+輸出投影門循環單元)的低延時聲學建模技術,可處理長時信息,網絡結構簡潔,計算速度快,易於並行化訓練。該模型結構已作為一種新型的回饋神經網絡結構被國際主流語音識別開源軟件Kaldi採納。在非實時語音識別方面,提出基於BLSTM-E(雙向長短時記憶擴展)的深度神經網絡結構,提升了現有主流BLSTM的性能,並解決了序列化訓練條件下LSTM(長短時記憶網絡)對不同長度語音輸入的魯棒性差的問題。

(責編:趙超、孫紅麗)

分享讓更多人看到

返回頂部