본문 바로가기
signal processing

Mel-spectrogram

by xangmin 2020. 5. 28.
반응형

 딥러닝을 이용하여 음성 인식, 음성 처리, 화자 인식, 감정 인식 등에서 많이 쓰이는 음성의 특징 추출 방법에는 Mel-Spectrogram, MFCC가 있다. 그 중 Mel-Spectrogram에 대하여 어떻게 추출하여 쓸 수 있는지 적어보겠다.

 

*STFT(Short Time Fouriter Transform)

STFT는 주파수 특성이 시간에 따라 달라지는 사운드를 분석하기 위한 방법이다. 시계열 일정한 시간 구간으로 나누고 각 구간에 대해 스펙트럼을 구한 데이터다. 시간-주파수 2차원 데이터로 나타낸다.

 

*Mel-Spectrogram

 주파수의 단위를 다음 공식에 따라 멜 단위(Mel unit)로 바꾼 스펙트럼을 말한다.

 

- Mel-scale
 Mel-scale은 이러한 pitch에서 발견한 사람의 음을 인지하는 기준(threshold)을 반영한 scale 변환 함수이다.

 

만약 Mel-scale에서 다시 Hz로 변환하고 싶으면, 위 함수의 역함수(지수함수)를 이용하면 된다.

 

- Mel-filterbank

 Mel-filterbank는 Mel-scale에서 linear하게 구간을 N개로 나누어 구현한 triangular filter(=triangular window)를 가리킨다. 주파수 영역에서 보면 지수적으로 넓어지는 것을 확인할 수 있다.

 

출처:

newsight.tistory.com/294

datascienceschool.net/view-notebook/691326b7f88644f79ec7ddc9f27f84ec/

 

 

반응형

댓글