Recap


Background


음성인식에서 템플릿 매칭을 사용한다고 하면, 유사도 함수로 MFCC 특징값들의 유클리드 거리를 사용할 수 있음

스크린샷 2023-11-26 오후 5.10.02.png

<aside> ❓ 두 MFCC 특징값이 서로 비슷하다는 의미가 무엇인지?

Q. 어떤 컴포넌트(단어, 목소리, 억양 … )가 가장 영향을 많이 끼치는지?

</aside>

위 수식은 1프레임 단위로 거리를 측정한 것임.

하지만 음성은 단순히 프레임별로 비교해서 유사도를 측정할 수 없다!

**시간적 흔들림 : 음성 전체 길이와 음성마다 단어들의 발화 속도가 다름

스크린샷 2023-11-26 오후 5.23.16.png

음성간 유사도를 측정하기 위해서는, 각 음성이 어느 프레임에 서로 대응하는지 파악(=얼라인먼트)해야함.