Recap
- 3장까지는 음성의 특징값을 추출하는 방법들에 대해 설명
(음성 → STFT로 스펙트로그램 생성 → Mel Filter Bank로 압축 → 켑스트럼 적용 → MFCC(Mel-Frequency Cepstrum Coefficient)
- 4장에서는 앞 장에서 추출한 특징값을 이용하여 인식 과정 방법론 중 하나인
DP(Dynamic Programming) Matching을 알아볼 예정
Background
- 음성 인식을 포함한 패턴 인식의 기초적인 방법론으로 템플릿 매칭이라는 기법이 존재
- 템플릿 매칭 예시
음성인식에서 템플릿 매칭을 사용한다고 하면, 유사도 함수로 MFCC 특징값들의 유클리드 거리를 사용할 수 있음
- MFCC 특징값 p, q 간의 유클리드 거리 측정 ($d$ : MFCC 차원)

- 이 $Distance$가 작다는 것은 MFCC 특징값이 서로 비슷함을 의미
<aside>
❓ 두 MFCC 특징값이 서로 비슷하다는 의미가 무엇인지?
- 비슷한 단어가 사용된 문장, 목소리, 억양으로 말하는 것
Q. 어떤 컴포넌트(단어, 목소리, 억양 … )가 가장 영향을 많이 끼치는지?
</aside>
위 수식은 1프레임 단위로 거리를 측정한 것임.
하지만 음성은 단순히 프레임별로 비교해서 유사도를 측정할 수 없다!
**시간적 흔들림 : 음성 전체 길이와 음성마다 단어들의 발화 속도가 다름

음성간 유사도를 측정하기 위해서는, 각 음성이 어느 프레임에 서로 대응하는지 파악(=얼라인먼트)해야함.