자유게시판 + 포럼 + Q&A

음성인식 colab 실습 코드 공유 - TensorFlow Kr

컨텐츠 정보

본문

출처: https://www.facebook.com/groups/TensorFlowKR/permalink/1848028298871553/ ![305155951_1307811776711545_1043819272158483898_n.jpeg](https://goorm.it/data/editor/2209/2890202431_1663917183.9851.jpeg "305155951_1307811776711545_1043819272158483898_n.jpeg") colab link: https://bit.ly/3qYVQeC ``` OpenAI에서 공개한 Transformer 기반 다국어 음성인식모델(ASR, STT) Whisper 모델을 colab에서 한국어 음성에 맞춰 쉽게 돌려볼 수 있는 코드를 공유합니다. 한국어도 되는 다중언어 모델이고 680,000 hours 데이터로 학습했습니다. 음성을 입력하면 language detection과 음성인식을 모두 수행합니다. 음성을 log melspectogram으로 변환한 후 transformer 기반 sequence-to-sequence 모델로 학습합니다. 실습 코드에선 한국어 25초 음성을 인식하는데 12sec 정도 걸립니다(base 모델 기준). 예시 음성파일로 실험해 보니 '수서'->'수소', '우리역엔' -> '우리옆엔', '전동차와 승강장 사이가' -> '전동장와 생강장사위가'로 인식되긴 하지만 monolingual이 아닌 multilingual임에도 불구하고 전체적으로 잘 되는 느낌입니다. 일본어 음성도 잘 인식하는 것을 확인했습니다. ```

관련자료

댓글 0
등록된 댓글이 없습니다.
전체 33 / 2 페이지
RSS
번호
제목
이름