1. CVPR 학회 일정 : 논문투고관련일정 : Dates and Deadlines AI Art Submissions AI Art Submission Deadline Mar 10 '24 (Anywhere on Earth) 24 weeks 06 days 09:46:16 Art Acceptance Notification Apr 08 '24 06:59 AM UTC Demos Demo Submission Deadline Mar 10 '24 (Anywhere on Earth) 24 weeks 06 days 09:46:16 Paper Submissions Paper Registration Deadline Nov 04 '23 06:59 AM UTC 06 weeks 04 days 04:45:17 Submission D..
1. Diffusion Model(DDPM) 강의 https://www.youtube.com/watch?v=uFoGaIVHfoE&t=216s&pp=ygUPZGlmZnVzaW9uIG1vZGVs 1.1. 위의 강의를 이해하기 위한 링크들 1. 조건부 확률, 사후 확률, 베이즈 정리 https://kongdols-room.tistory.com/133 http://godingmath.com/bayestheroem 베이즈 정리와 조건부 확률의 관계 | godingMath 베이즈 정리란 사후 확률 (posterior probability) 을 사전 확률 (prior probability) 를 이용하여 표현하는 방법으로 수학적으로 다음과 같이 표현합니다. 사건 B가 먼저 일어난 후 사건 A가 일어날 때, $$P(B|..
1. ImageNet Classification with Deep Convolutional Neural Networks(AlexNet) https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf CNN 의 기초논문 2. Going deeper with convolutions(Inception-v1) arxiv.org/pdf/1409.4842v1.pdf Inception module 을 제시한 논문 3. Rethinking the Inception Architecture for Computer Vision (Inception-v2~3) arxiv.org/pdf/1512.00567v3.pdf Inceptio..
pyannote-audio 를 이용한 diarization 을 진행하는 과정에서 wav 파일을 다루기 위해 pydub 를 공부한 내용을 정리한다. 1. 설치 pip install pydub 2. 기본사용법 from pydub import AudioSegment # Open file song = AudioSegment.from_mp3('song.mp3') # Slice audio # pydub는 milliseconds 단위를 사용한다 ten_seconds = 10 * 1000 one_min = ten_seconds * 6 first_10_seconds = song[:ten_seconds] last_5_seconds = song[-5000:] # up/down volumn beginning = first_1..
python 에서 엑셀파일을 다루는 툴은 많지만 나는 deeplearning 데이터처리를 위해 쓰는 것이므로 pandas 를 쓰기로 했다. 예시로 들 엑셀은 아래와 같다. name age gender grade score james 22 men 2 88 amy 25 women 4 67 edward 24 men 3 89 1. 엑셀 읽기 import pandas as pd df = pd.read_excel([엑셀파일경로(이름)], sheet_name = [시트이름]) df = pd.read_excel('./data/excel/score1.xlsx') # sheet_name 이 없을 경우 제일 첫 시트저장됨 위의 df 는 DataFrame 형태로 저장된다. 2. 특정 데이터 접근하기 df['칼럼명'] # 열에..
pyannot-audio 를 사용해 보면서 생기는 의문점들에 대해 정리하는 곳이다. 1. overlap은 따로 플래그가 존재하지 않는 것 같다. diarization.for_json() 에서 나오는 track 이라는 플래그는 화자를 구분하기 위한 플래그 인 듯 하다. diarization.for_json() {'pyannote': 'Annotation', 'content': [{'segment': {'start': 10.9603125, 'end': 21.1021875}, 'track': 'A', 'label': 'SPEAKER_00'}, {'segment': {'start': 31.665937500000002, 'end': 37.690312500000005}, 'track': 'B', 'label': '..
파이썬에는 Dictionary 라는 자료형이 있는데 이는 JSON 과 유사한 형태를 가지고 있다. 프로그래밍을 하다보면 dict to json 으로 변환 후 json 파일 자체를 저장해야 하는 경우가 많다. 위의 경우를 매번 찾아서 쓰기 귀찮아서 정리한다. 1. dict to json import json dict = { "segmentInfo" : segDict, "timeInfo" : { "totalWavLength" : 255343, "totalSegCnt" : 223, "totalSegTime" : 253432, "totalBlankLength" : 334, "segmentCnt" : len(segDict) } } with open('[폴더경로]/[json파일명].json','..
이번에 과제를 진행하면서 2명이 주고받는 대화를 녹음한 mp3 파일에서 2명의 화자를 구분해 내는 것을 해야 했다. 이를 speaker dirazation 이라고 하는데 이와 관련한 코드인 pyannote-audio 를 써 보았다. OS : Ubuntu 20.04 안의 Docker Ubuntu20.04 (Ubuntu image : 11.6.1-cudnn8-devel-ubuntu20.04) 1. 환경 구축 이 모델을 돌리는데 gpu 로 돌리는 것을 추천한다. gpu 설정이나 cuda, cuDNN 설치를 로컬환경에서 할수도 있지만 나는 docker 를 설치 후 관련한 이미지를 사용하였다. https://jeahun10717.tistory.com/42 https://jeahun10717.tistory.com/..
에트리 인턴과정 중 whisper 를 써 보라고 하셔서 기록을 남긴다. 1. whisper 사전 설정 및 설치 필자는 윈도우 기반의 데스크탑을 사용하여서 window 만 기술한다. 혹시 다른 운영체제가 궁금하면 whisper github 의 readme 를 참조하면 된다.(https://github.com/openai/whisper) 환경 : anaconda, jupyter lab, python 3.9, win 11 1.1. whisper python 실행을 위한 설치 pip install git+https://github.com/openai/whisper.git 1.2. whisper 커맨드라인 실행을 위한 설치 whisper 는 python 코드 뿐 아니라 커맨드라인에서도 동작할 수 있도록 지원한다...
1. 방사왜곡(Radial Distortion) 이러한 왜곡은 볼록렌즈의 굴절률에 의한 것으로 나타난다. 실생활에서 광각카메라 같이 넓은 범위를 촬영하기 위한 카메라에서 이러한 왜곡이 많이 발생하는데 왜곡보정을 위해 수학적인 식을 사용할 수도 있다. 2. Barrel Distortion, Pincushion Distortion 2.1. Barrel Distortion 이 왜곡은 광각렌즈로 인해 발생하는 경우가 많으며 음의왜곡이라고도 한다. 카메라 렌즈가 오목할 경우 발생한다. 2.2. Pincushion Distortion 이 왜곡은 양의 왜곡이라고도 하며 볼록렌즈에 의해 발생한다. 2.3. 왜곡보정 위에서 설명한 방사왜곡의 한 종류로 위의 왜곡을 줄이기 위해서는 2가지 방식을 사용할 수 있다. 2.3...
1. np.arange numpy.arange(, , ) start : 시작점(생략시 0으로 설정됨) end : 끝점 stepSize : 다음 점의 간격 2. np.arange 와 np.range 의 차이 np.range 는 정수 step 만 지원. np.arange 는 실수 step 도 지원.
현재 Warping Residual Based Image Stitching for Large Parallax 논문 구현을 하고 있는데 이를 위해 공부해야 할 사항이나 의문점들을 남기는 포스트이다. 1. centroid of Superpixel : https://stackoverflow.com/questions/49979931/how-to-find-each-slic-superpixels-centroid-in-python How to find each SLIC superpixel's centroid in python? newbie here! I'm working with python plus opencv and skimage packages. I've segmented an image in superpixe..
이 글에서는 image stitching 논문을 읽으면서 많이 나오는 단어들을 정리한다. 1. image alignment 특정 이미지들을 정렬하는 것이다. 사진을 찍는 각도나 방향이 다를 경우 사진이 틀어지는 경우가 있는데 이를 보정하는 것을 image alignment 라고 한다. 이 기술은 image stitching 을 할 때 2개의 이미지의 각도를 조절하는 역할을 한다. 2. homography 특정한 이미지를 원근투영 관계를 표현해 주는 과정을 말한다. 즉 2대의 카메라가 하나의 피사체를 다른 방향으로 찍었을 때 그 2개의 이미지의 위치관계를 표현할 수 있게 해 준다. homography 와 projective 는 같은 개념이다. 다른 여러가지 변환에 관한 내용은 아래 링크에서 확인하면 된다..
소스구동 환경 os : ubuntu 16.04 python 3.6 tensorflow 1.13.1 1. 논문 링크 : https://arxiv.org/pdf/2203.03831.pdf 2. 소스 github link : https://github.com/nie-lang/DeepRectangling GitHub - nie-lang/DeepRectangling: CVPR2022 (Oral) - Deep Rectangling for Image Stitching: A Learning Baseline CVPR2022 (Oral) - Deep Rectangling for Image Stitching: A Learning Baseline - GitHub - nie-lang/DeepRectangling: CVPR202..
소스구동 환경 os : ubuntu 16.04 python 3.6 tensorflow 1.13.1 docker 로 위의 소스를 돌려 보려고 할 때 기존에 docker 에서 제공하는 공식 이미지 패키지는 Tensorflow 1.13.1 과 python 3.5 가 한 세트로 묶여 있어서 주의해야 함. 1. 논문 링크 : https://arxiv.org/pdf/2106.12859v1.pdf 2. 소스 github link : https://github.com/nie-lang/UnsupervisedDeepImageStitching GitHub - nie-lang/UnsupervisedDeepImageStitching: TIP2021 - Unsupervised deep image stitching network ..