教育和學習︰ Up《grade》【六.四】

真的『吃什麼補什麼』耶?

果然『科技無別於巫術』嘛?

難到『真理並非天生自明』乎?

設使不是自然而來!偏又不期而遇!如之何栽!

所謂

梅爾頻率倒譜係數

在聲音處理領域中,梅爾頻率倒譜(Mel-Frequency Cepstrum)是基於聲音頻率的非線性梅爾刻度(mel scale)的對數能量頻譜的線性變換。

梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients,MFCCs)就是組成梅爾頻率倒譜的係數。它衍生自音訊片段的倒頻譜(cepstrum)。倒譜和梅爾頻率倒譜的區別在於,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用於正常的對數倒頻譜中的線性間隔的頻帶更能近似人類的聽覺系統。 這樣的非線性表示,可以在多個領域中使聲音訊號有更好的表示。例如在音訊壓縮中。

梅爾頻率倒譜係數(MFCC)廣泛被應用於語音識別的功能。他們由Davis和Mermelstein在1980年代提出,並在其後持續是最先進的技術之一。在MFCC之前,線性預測係數(LPCS)和線性預測倒譜系數(LPCCs)是自動語音識別的的主流方法。
MFCC通常有以下之過程:[1][2]

  1. 將一段語音訊號分解為多個訊框
  2. 將語音訊號預強化,通過一個高通濾波器
  3. 進行傅立葉轉換,將訊號轉換至頻域。
  4. 將每個訊框獲得的頻譜通過梅爾濾波器(三角重疊窗口),得到梅爾刻度
  5. 在每個梅爾刻度上提取對數能量。
  6. 對上面獲得的結果進行離散傅立葉反轉換,轉換到倒頻譜域。
  7. MFCC就是這個倒頻譜圖的幅度(amplitudes)。一般使用12個係數,與訊框能量疊加得13維的係數。

……

 

若只是『聲』量化為『所指』等長之好辦法,恐怕難了

Genre Recognition

觸類旁通矣〒

且借『他人言說』,『自己思考』體驗吧◎

DeadSimpleSpeechRecognizer

CNN based Minimal model for recognizing word

…… 來自

 

So you’ve classified MNIST dataset using Deep Learning libraries and want to do the same with speech recognition! Well continuous speech recognition is a bit tricky so to keep everything simple I am going to start with a simpler problem instead. Which is word recognition. I’ve seen a competition going on at Kaggle and couldn’t help but downloading the dataset.

If you think this blog post will make you an expert in Speech Recognition field please feel free to skip it. I am going to show you some quick techniques to be up and running in speech recognition area rather going deeper.

………