[NLP / ASR] 오디오 데이터 전처리 관련 공부용 BLOG / 자료 link
ASR 을 위한 오디오 데이터 전처리 공부를 위한 TODO list 정리 1. 오디오데이터 전처리 blog https://hyunlee103.tistory.com/54
ASR 을 위한 오디오 데이터 전처리 공부를 위한 TODO list 정리 1. 오디오데이터 전처리 blog https://hyunlee103.tistory.com/54
pyannot-audio 를 사용해 보면서 생기는 의문점들에 대해 정리하는 곳이다. 1. overlap은 따로 플래그가 존재하지 않는 것 같다. diarization.for_json() 에서 나오는 track 이라는 플래그는 화자를 구분하기 위한 플래그 인 듯 하다. diarization.for_json() {'pyannote': 'Annotation', 'content': [{'segment': {'start': 10.9603125, 'end': 21.1021875}, 'track': 'A', 'label': 'SPEAKER_00'}, {'segment': {'start': 31.665937500000002, 'end': 37.690312500000005}, 'track': 'B', 'label': '..
이번에 과제를 진행하면서 2명이 주고받는 대화를 녹음한 mp3 파일에서 2명의 화자를 구분해 내는 것을 해야 했다. 이를 speaker dirazation 이라고 하는데 이와 관련한 코드인 pyannote-audio 를 써 보았다. OS : Ubuntu 20.04 안의 Docker Ubuntu20.04 (Ubuntu image : 11.6.1-cudnn8-devel-ubuntu20.04) 1. 환경 구축 이 모델을 돌리는데 gpu 로 돌리는 것을 추천한다. gpu 설정이나 cuda, cuDNN 설치를 로컬환경에서 할수도 있지만 나는 docker 를 설치 후 관련한 이미지를 사용하였다. https://jeahun10717.tistory.com/42 https://jeahun10717.tistory.com/..
에트리 인턴과정 중 whisper 를 써 보라고 하셔서 기록을 남긴다. 1. whisper 사전 설정 및 설치 필자는 윈도우 기반의 데스크탑을 사용하여서 window 만 기술한다. 혹시 다른 운영체제가 궁금하면 whisper github 의 readme 를 참조하면 된다.(https://github.com/openai/whisper) 환경 : anaconda, jupyter lab, python 3.9, win 11 1.1. whisper python 실행을 위한 설치 pip install git+https://github.com/openai/whisper.git 1.2. whisper 커맨드라인 실행을 위한 설치 whisper 는 python 코드 뿐 아니라 커맨드라인에서도 동작할 수 있도록 지원한다...