이미지에서 비디오를 생성하는 구글의 기술력

첫 이미지와 마지막 이미지가 있다면 이를 예측할 수 있을까요?

논문 제목은 From Here to There: Video Inbetweening Using Direct 3D Convolutions 입니다. 구글에서 19년 5월 27일에 발표하였습니다.

paper : https://arxiv.org/pdf/1905.10240.pdf

기사 자료 : https://venturebeat.com/2019/05/28/googles-ai-can-create-videos-from-start-and-end-frames-alone/

영상이 있으면 좋을텐데 아쉽습니다.

초록으로 읽기

example

본 논문은 시작과 마지막 프레임만 주어질 때 그럴듯하고 다양한 비디오 시퀀스를 생성하는 문제를 고려합니다.

이 작업은 inbetweening 이라고도 알려져 있으며 확률론적 비디오 생성(stochastic video generation) 분야이며, 일반적으로 RNN으로 이 문제를 접근합니다.

이 논문에서는 픽셀 영역에서 비디오 시퀀스를 직접 생성하는 fully convolutional 모델을 제안합니다.

먼저 시작 프레임과 마지막 프레임에서 정보를 통합하는 방법을 학습하는 확률론적 융합 메커니즘을 사용하여 잠정적 비디오 표현(latent video representation)을 얻습니다.

우리의 모델은 해상도를 점진적으로 증가시킴으로써, 그러한 잠재 표현을 생성하는 것을 배우고 3D convolution을 사용하여 시공간 영역에서 디코딩합니다.

모델은 end-to-end로 훈련합니다. 널리 사용되는 몇 가지 벤치 마크 데이터 세트에 대한 실험 결과는 양적 및 질적 평가에 따라 의미 있고 다양한 비디오 시퀀스를 생성 할 수 있음을 보여줍니다.

더 읽어보기

논문 더 읽기

  • 모델은 총 3가지 구성 요소를 가집니다.
  1. 2D-convolutional image encoder
  2. 3D-convolutional latent representation generator
  3. a video generator

생성된 이미지(프레임)은 0.5초 이상 떨어져있습니다.

model

스크린샷 2019-06-01 오후 1.04.23

데이터셋

  • BAIR robot pushing
  • KTH Action Database
  • UCF101 Action Recognition Data Set

데이터셋 Detail

  • BAIR: • Test: Sequence 0–255. • Validation: Sequence 256–2559. • Train: All the rest.

  • KTH: • Test: Person 17–25 • Validation: Person 16 • Train: Person 1–15

  • UCF101: • Test: testlist01.txt from the “Action Recognition” train/test split). • Validation: Randomly sampled 5% of trainlist01.txt (from the same zip file as above). • Train: The other 95% of trainlist01.txt.

GPU

  • Nvidia Tesla V100 5 days

Leave a Comment