衡量降噪後的語音品質與可理解度的效能評估指標:
- 訊噪比(SNR)
- 語音品質感知評估(PESQ)
- 短時客觀可懂度(STOI)
兩個訊號能量比
在 20 世紀 90 年代末至 2000 年 ITU-T 標準化階段,研究人員對大量人類受試者進行了聽覺測試。一段語音會由一群人主觀評分,分數範圍 1 = 差,5 = 優,這種平均分數稱為 MOS(Mean Opinion Score,平均意見分數),代表人耳對語音品質的主觀感受。
要建立 PESQ,必須先有: clean 語音 和經過 degradation 的 ,還有 MOS(x′) 作為 ground truth。 這個 PESQ 可以模擬人耳如何聽到「差異」, 並自動輸出一個介於 –0.5 到 4.5 之間的類 MOS 的分數, 數值越高代表語音品質越好(越接近原始乾淨語音)。

\[ \text{SNR} = 10 \log_{10} \frac{\|s\|^2}{\|s - \hat{s}\|^2} \]
目標: PESQ(x, x′) ≈ MOS(x′), 即 (x, x') ---> PESQ 模型 ---> MOS-like 的分數
在當年的人類測試中,受試者只聽 ,然後給出 MOS(x′) 作為品質評分。但這種方式需要大量受試者,成本高、速度慢。因此,我們希望有一個模型(例如 PESQ),它能同時利用 做比較,並且自動算出一個與 MOS 接近的分數(MOS-like),就能取代昂貴的主觀實驗
要建立 PESQ,必須先有: clean 語音 和經過 degradation 的 ,還有 MOS(x′) 作為 ground truth。 這個 PESQ 可以模擬人耳如何聽到「差異」, 並自動輸出一個介於 –0.5 到 4.5 之間的類 MOS 的分數, 數值越高代表語音品質越好(越接近原始乾淨語音)。
STOI (Short-Time Objective Intelligibility)
STOI 衡量的是 乾淨語音 vs 處理後語音 在 短時頻帶能量包絡 上的相關性
-
基於短時頻帶的相關性 → 相關係數愈高 → 語音可懂度愈好
-
分數範圍介於 0 ~ 1:
-
越接近 1 → 表示語音幾乎完全可懂
-
越接近 0 → 表示語音幾乎無法理解
-
在頻帶處理上,STOI 使用 1/3-octave band filters,這是一組模仿人耳頻率解析度的濾波器,把語音分解成符合聽覺特徵的頻帶。STOI 並不是直接比較波形,而是比較這些 能量包絡 的相似性。這是因為人耳在理解語音時,主要依靠的是 振幅起伏模式(例如母音的共振峰、子音的爆破音)。這些較慢的振幅變化(約 10–50 Hz 範圍)就是所謂的 能量包絡,而它們正是影響可懂度的關鍵。

沒有留言:
張貼留言