AI人工智能 語音識別

2020-09-24 10:04 更新

在本章中,我們將學習使用 AI 和 Python 進行語音識別。 言語是成人人際溝通的最基本手段。 語音處理的基本目標是提供人與機器之間的交互。 語音處理系統(tǒng)主要有三項任務 -

  • 首先,語音識別允許機器捕捉我們所說的單詞,短語和句子
  • 其次,自然語言處理使機器能夠理解我們所說的話
  • 第三,語音合成允許機器說話。

本章重點講述語音識別,理解人類說話的過程。 請記住,在麥克風的幫助下捕捉語音信號,然后系統(tǒng)才能理解它。

構建語音識別器

語音識別或自動語音識別(ASR)是 AI 機器人等 AI 項目的關注焦點。 沒有 ASR,就不可能想象一個認知機器人與人進行交互。 但是,構建語音識別器并不容易。

開發(fā)語音識別系統(tǒng)的困難 開發(fā)高質量的語音識別系統(tǒng)確實是一個難題。 語音識別技術的困難可以廣泛地表征為如下所討論的許多維度 -

  • 詞匯大小

- 詞匯大小影響開發(fā) ASR 的難易程度。考慮以下詞匯量以便更好地理解。

  • 例如,在一個語音菜單系統(tǒng)中,一個小詞匯由 2 到 100 個單詞組成
  • 例如,在數據庫檢索任務中,中等大小的詞匯包含幾個 100 到 1000 個單詞
  • 一個大的詞匯由幾萬個單詞組成,如在一般的聽寫任務中。

  • 信道特性 - 信道質量也是一個重要的維度。 例如,人類語音包含全頻率范圍的高帶寬,而電話語音包含頻率范圍有限的低帶寬。 請注意,后者更難。

  • 說話模式 - 輕松開發(fā) ASR 還取決于說話模式,即語音是處于孤立詞模式還是連接詞模式,還是處于連續(xù)語音模式。 請注意,連續(xù)說話很難辨認。

  • 口語風格 - 閱讀說話可以采用正式風格,也可以采用自發(fā)風格和對話風格。 后者更難以識別。

  • 揚聲器依賴性 - 語音可以依賴揚聲器,揚聲器自適應或揚聲器獨立。 獨立發(fā)言人是最難建立的。

  • 噪音類型

- 噪音是開發(fā) ASR 時需要考慮的另一個因素。 信噪比可以在各種范圍內,這取決于觀察較少的聲學環(huán)境與較多的背景噪聲 -

  • 如果信噪比大于30dB,則認為是高范圍
  • 如果信噪比在 30dB 到 10db 之間,則認為是中等信噪比
  • 如果信噪比小于 10dB,則認為是低范圍

  • 麥克風特性 - 麥克風的質量可能很好,平均水平或低于平均水平。 此外,嘴和微型電話之間的距離可能會有所不同。 識別系統(tǒng)也應考慮這些因素。

盡管存在這些困難,研究人員在語音的各個方面做了很多工作,例如理解語音信號,說話人以及識別口音。

所以,需要按照以下步驟構建語音識別器 -

以上內容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號