The Voice of Korea나 복면가왕 등을 이제 인공지능으로 예측할 수 있지 않을까?
목소리는 사람의 많은 정보를 담고 있습니다. 우리는 경험적으로 목소리만으로도 상대방의 모습을 예상하고, 추측합니다. 이런 경험적인 내용을 인공지능이, 딥러닝이 학습하면 어떤 결과를 낼 수 있을까요??
상상이 현실로 이루어주는 기술이 인공지능이 아닐까 생각을 합니다. 한번 가볍게 또 읽어봅시다.
이번에 소개할 논문은 Speech2Face: Learning the Face Behind a Voice 논문으로 2019년 5월 23일에 업로드된 논문입니다.
paper : https://arxiv.org/pdf/1905.09773.pdf web : https://speech2face.github.io/
초록으로 읽기
과연 사람들의 말에서 그들의 모습을 얼마나 유추할 수 있을까요?
본 논문에서는 사람의 짧은 음성 녹음에서 사람의 얼굴 이미지를 재구성하는 프로젝트를 진행했습니다. 본 논문에서는 말하는 사람들의 수백만개의 Natural Internet과 YouTube 영상을 사용하여 심층 신경망을 설계하고 훈련하였습니다.
훈련 과정에서 모델은 연령, 성별 및 민족성과 같은 다양한 물리적 속성을 포착하고, 이미지를 생성 할 수있는 voice - face 상관관계를 학습합니다.
이것은 속성을 명시적으로 모델링할 필요없이 비디오에서 얻은 속성을 사용하여 self-supervised 방식으로 수행됩니다.
오디오에서 생성된 Speech2Face의 재구성 얼굴 이미지와 실제 얼굴 이미지의 닮은 정도를 평가하고 수치로 정량화합니다.
Leave a Comment