오랜만에 LR!!
언어학에서는 인공지능을 어떤 식으로 사용할 수 있을까요? 사라진 언어를 연구하고, 해독하는 데 사용할 수 있지 않을까요? 제가 만약 이런 모델을 만든다면 모델이름은 로빈으로 하고 싶네요.
이와 관련된 MIT와 구글브레인이 함께 발표한 논문을 소개합니다. 논문 제목은 “Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B” 입니다. 2019년 6월에 나온 따끈한 논문입니다.
딥러닝과 Minimum Cost 문제를 사용하여 사라진 언어인 Linear B와 Ugaritic을 해독하는 논문입니다. Minimum Cost문제를 이런 곳에서도 사용할 수 있다는 게 신기하네요.
- paper : https://arxiv.org/pdf/1906.06718.pdf
- code : https://github.com/j-luo93/NeuroDecipher
- article : https://www.technologyreview.com/s/613899/machine-learning-has-been-used-to-automatically-translate-long-lost-languages
초록으로 읽기
본 논문에서는 사라진 언어의 자동 해독을 위한 새로운 neural 접근법을 제안합니다.
강한 감독 신호(strong supervision signal)의 부족을 보완하기 위해 모델 디자인은 역사 언어학에서 문서화된 언어 변경 패턴을 사용합니다.
이 모델은 sequence-to-sequence 모델을 사용하여, 어원간 character-level의 대응을 찾습니다.
비지도학습을 효율적으로 학습하기 위해 minimum-cost flow 문제를 공식화하여 절차를 혁신합니다.
Ugaritic에 적용한 결과 SOTA에 비해 5.5% 향상된 결과를 얻었습니다. 고대 그리스와 관련된 syllabic 언어인 선문자 B(Linear B)를 67.3%의 정확도로 자동번역한 결과를 보고합니다.
Leave a Comment