반응형
딥러닝을 이용하여 음성 인식, 음성 처리, 화자 인식, 감정 인식 등에서 많이 쓰이는 음성의 특징 추출 방법에는 Mel-Spectrogram, MFCC가 있다. 그 중 Mel-Spectrogram에 대하여 어떻게 추출하여 쓸 수 있는지 적어보겠다.
*STFT(Short Time Fouriter Transform)
STFT는 주파수 특성이 시간에 따라 달라지는 사운드를 분석하기 위한 방법이다. 시계열 일정한 시간 구간으로 나누고 각 구간에 대해 스펙트럼을 구한 데이터다. 시간-주파수 2차원 데이터로 나타낸다.
*Mel-Spectrogram
주파수의 단위를 다음 공식에 따라 멜 단위(Mel unit)로 바꾼 스펙트럼을 말한다.
- Mel-scale
Mel-scale은 이러한 pitch에서 발견한 사람의 음을 인지하는 기준(threshold)을 반영한 scale 변환 함수이다.
만약 Mel-scale에서 다시 Hz로 변환하고 싶으면, 위 함수의 역함수(지수함수)를 이용하면 된다.
- Mel-filterbank
Mel-filterbank는 Mel-scale에서 linear하게 구간을 N개로 나누어 구현한 triangular filter(=triangular window)를 가리킨다. 주파수 영역에서 보면 지수적으로 넓어지는 것을 확인할 수 있다.
출처:
datascienceschool.net/view-notebook/691326b7f88644f79ec7ddc9f27f84ec/
반응형
'signal processing' 카테고리의 다른 글
물리적 거리에 따른 음성 이동경로 측정 방법 (아날로그 딜레이) (0) | 2020.05.26 |
---|---|
Fourier Transform and System (2) (0) | 2020.04.25 |
Fourier Transform and System (1) (0) | 2020.04.24 |
댓글