tacotron
-
Tacotron 무지성 구현 - 2/NTacotron 1 2021. 7. 27. 13:33
이전 포스팅에서 오디오 데이터를 Spectrogram과 Mel-Spectrogram으로 변환하는 방법까지 살펴보았습니다. 제가 포스팅하면서 모니터 한켠에 주피터 노트북을 띄어두고 코드를 작성했는데, 작성하다보니 좀 이상한 부분이 있었네요. 다음 코드 블럭에서 수정한 부분을 짚고 넘어갈테니 참고 바랍니다. Hyper Parameters class Hparams(): # speaker name speaker = 'KSS' # Audio Pre-processing origin_sample_rate = 44100 sample_rate = 22050 n_fft = 1024 hop_length = 256 win_length = 1024 n_mels = 80 reduction = 5 n_specs = n_fft //..
-
Tacotron 무지성 구현 - 1/NTacotron 1 2021. 7. 27. 00:12
저는 전공자가 아닙니다. 현업에서 사용되는 알고리즘과 전처리 방법 등은 이해하기 어려울 정도로 복잡하기 때문에 최대한 가볍게 시작해서 이해하고 기록하고자 시작했습니다. 저는 음악, 소리에 대해서 잘 모르기도 하고, 어디서 주워들은 걸 토대로 구글링 해서 논문을 보며 혼자 공부하고 있습니다. 따라서 제가 작성한 포스팅은 정확하지 않을 수 있습니다. 코드에서 틀린 부분이나 오개념 지적은 언제든지 환영입니다 :) Tacotron 논문 https://arxiv.org/abs/1703.10135 Tacotron: Towards End-to-End Speech Synthesis A text-to-speech synthesis system typically consists of multiple stages, such..