본문 바로가기

분류 전체보기175

환경 소음분류 Kfold-DNN 보호되어 있는 글 입니다. 2020. 6. 7.
Mel-spectrogram 딥러닝을 이용하여 음성 인식, 음성 처리, 화자 인식, 감정 인식 등에서 많이 쓰이는 음성의 특징 추출 방법에는 Mel-Spectrogram, MFCC가 있다. 그 중 Mel-Spectrogram에 대하여 어떻게 추출하여 쓸 수 있는지 적어보겠다. *STFT(Short Time Fouriter Transform) STFT는 주파수 특성이 시간에 따라 달라지는 사운드를 분석하기 위한 방법이다. 시계열 일정한 시간 구간으로 나누고 각 구간에 대해 스펙트럼을 구한 데이터다. 시간-주파수 2차원 데이터로 나타낸다. *Mel-Spectrogram 주파수의 단위를 다음 공식에 따라 멜 단위(Mel unit)로 바꾼 스펙트럼을 말한다. - Mel-scale Mel-scale은 이러한 pitch에서 발견한 사람의 음을.. 2020. 5. 28.
물리적 거리에 따른 음성 이동경로 측정 방법 (아날로그 딜레이) 사운드 카드에서 한 개의 스테레오 채널을 통해 음성 이동경로(아날로그 딜레이)를 측정하고자 한다. 소프트웨어 툴로는 'Adobe Audition 3.0'을 사용한다. 정확한 측정을 위해 입력 신호는 임펄스 신호를 이용한다. 샘플링 주파수는 아날로그 딜레이를 그대로 측정할 수 없기에 디지털로 변환하여 측정한다. 높은 해상도를 위해서 Soundcard가 지원하는 최대 샘플링 주파수인 96 kHz를 이용한다. 다음과 같이 입력과 출력에 마이크와 스피커를 연결하고 거리에 따라 소요 시간을 측정한다. 사용하는 기본 공식은 거리 = 속력 × 시간 을 이용한다. 여기서 속력은 음속으로 340m/s에 해당한다. 고정된 거리에서 여러번 측정했을 때 정확한 시간이 측정되지 않는다. 제대로 측정하지 못한 이유를 알기 위해 .. 2020. 5. 26.
Chapter 15. Processing Sequences Using RNNs and CNNs 타자가 공을 치면 외야수는 즉시 공을 따라간다. 공이 어디에 떨어질지 모르지만 야수는 공을 추적하고 마침내 공을 잡습니다. 이처럼 우리는 미래를 예측할 수 있는 RNN에 대해 논의하고자 한다. RNN example -주가를 분석하여 구매/판매 시기 판단 -자율 주행 시스템에서 차량 궤도를 예측하여 사고 예방 -문서 또는 오디오 샘플을 입력으로 자동 번역 및 텍스트 음성 변환 같은 자연어 처리 *고정된 크기의 입력뿐만 아니라 임의의 길이의 시퀀스에서 동작할 수 있다. RNN은 시퀀스 데이터를 처리할 수 있는 유일한 유형의 신경망은 아니다. 오디오 샘픙 또는 텍스트와 같은 매우 긴 시퀀스의 경우 컨볼루션 신경망도 실제로 잘 동작할 수 있다. Recurrent Neurons and Layers -기존에는 입력.. 2020. 5. 26.