The Voice of Korea나 복면가왕 등을 이제 인공지능으로 예측할 수 있지 않을까?

목소리는 사람의 많은 정보를 담고 있습니다. 우리는 경험적으로 목소리만으로도 상대방의 모습을 예상하고, 추측합니다. 이런 경험적인 내용을 인공지능이, 딥러닝이 학습하면 어떤 결과를 낼 수 있을까요??

상상이 현실로 이루어주는 기술이 인공지능이 아닐까 생각을 합니다. 한번 가볍게 또 읽어봅시다.

이번에 소개할 논문은 Speech2Face: Learning the Face Behind a Voice 논문으로 2019년 5월 23일에 업로드된 논문입니다.

paper : https://arxiv.org/pdf/1905.09773.pdf web : https://speech2face.github.io/

초록으로 읽기

과연 사람들의 말에서 그들의 모습을 얼마나 유추할 수 있을까요?

본 논문에서는 사람의 짧은 음성 녹음에서 사람의 얼굴 이미지를 재구성하는 프로젝트를 진행했습니다. 본 논문에서는 말하는 사람들의 수백만개의 Natural Internet과 YouTube 영상을 사용하여 심층 신경망을 설계하고 훈련하였습니다.

훈련 과정에서 모델은 연령, 성별 및 민족성과 같은 다양한 물리적 속성을 포착하고, 이미지를 생성 할 수있는 voice - face 상관관계를 학습합니다.

이것은 속성을 명시적으로 모델링할 필요없이 비디오에서 얻은 속성을 사용하여 self-supervised 방식으로 수행됩니다.

오디오에서 생성된 Speech2Face의 재구성 얼굴 이미지와 실제 얼굴 이미지의 닮은 정도를 평가하고 수치로 정량화합니다.

더 읽어보기

스크린샷 2019-05-25 오전 1.18.44

스크린샷 2019-05-25 오전 1.18.50

스크린샷 2019-05-25 오전 1.19.06

스크린샷 2019-05-25 오전 1.19.15

스크린샷 2019-05-25 오전 1.19.20

스크린샷 2019-05-25 오전 1.19.27

스크린샷 2019-05-25 오전 1.19.30

스크린샷 2019-05-25 오전 1.19.45

스크린샷 2019-05-25 오전 1.19.50

스크린샷 2019-05-25 오전 1.19.59

스크린샷 2019-05-25 오전 1.20.05

스크린샷 2019-05-25 오전 1.20.10

스크린샷 2019-05-25 오전 1.20.21

스크린샷 2019-05-25 오전 1.20.27

Leave a Comment