[4장] DP Matching

Recap

3장까지는 음성의 특징값을 추출하는 방법들에 대해 설명 (음성 → STFT로 스펙트로그램 생성 → Mel Filter Bank로 압축 → 켑스트럼 적용 → MFCC(Mel-Frequency Cepstrum Coefficient)
4장에서는 앞 장에서 추출한 특징값을 이용하여 인식 과정 방법론 중 하나인 DP(Dynamic Programming) Matching을 알아볼 예정

음성인식에서 템플릿 매칭을 사용한다고 하면, 유사도 함수로 MFCC 특징값들의 유클리드 거리를 사용할 수 있음

스크린샷 2023-11-26 오후 5.10.02.png

<aside> ❓ 두 MFCC 특징값이 서로 비슷하다는 의미가 무엇인지?

Q. 어떤 컴포넌트(단어, 목소리, 억양 … )가 가장 영향을 많이 끼치는지?

</aside>

위 수식은 1프레임 단위로 거리를 측정한 것임.

하지만 음성은 단순히 프레임별로 비교해서 유사도를 측정할 수 없다!

**시간적 흔들림 : 음성 전체 길이와 음성마다 단어들의 발화 속도가 다름

스크린샷 2023-11-26 오후 5.23.16.png

음성간 유사도를 측정하기 위해서는, 각 음성이 어느 프레임에 서로 대응하는지 파악(=얼라인먼트)해야함.