Mel-spectrogram

딥러닝을 이용하여 음성 인식, 음성 처리, 화자 인식, 감정 인식 등에서 많이 쓰이는 음성의 특징 추출 방법에는 Mel-Spectrogram, MFCC가 있다. 그 중 Mel-Spectrogram에 대하여 어떻게 추출하여 쓸 수 있는지 적어보겠다.

STFT는 주파수 특성이 시간에 따라 달라지는 사운드를 분석하기 위한 방법이다. 시계열 일정한 시간 구간으로 나누고 각 구간에 대해 스펙트럼을 구한 데이터다. 시간-주파수 2차원 데이터로 나타낸다.

주파수의 단위를 다음 공식에 따라 멜 단위(Mel unit)로 바꾼 스펙트럼을 말한다.

- Mel-scale
Mel-scale은 이러한 pitch에서 발견한 사람의 음을 인지하는 기준(threshold)을 반영한 scale 변환 함수이다.

만약 Mel-scale에서 다시 Hz로 변환하고 싶으면, 위 함수의 역함수(지수함수)를 이용하면 된다.

- Mel-filterbank

Mel-filterbank는 Mel-scale에서 linear하게 구간을 N개로 나누어 구현한 triangular filter(=triangular window)를 가리킨다. 주파수 영역에서 보면 지수적으로 넓어지는 것을 확인할 수 있다.

출처:

물리적 거리에 따른 음성 이동경로 측정 방법 (아날로그 딜레이) (0)	2020.05.26
Fourier Transform and System (2) (0)	2020.04.25
Fourier Transform and System (1) (0)	2020.04.24

kimsangmin.log