February 05, 2018

Перечитала статью, и вспомнила, что я писала про перевод гугла с языка на другой через английский. В общем, в статье наша идея о переводе через другие языки опровергается (это верно для статистического перевода, а в гугле на тот момент был уже перевод на основе seq2seq, то есть нейронных сетей RNN).

Я очень глубоко задумалась на эту тему (зная вкратце, что такое RNN и SEQ2SEQ, но в общих чертах). В общем, я сейчас как раз прохожу курс Эндрю Ына про использование нейронных сетей с последовательностями (sequence). Как только я разберусь в деталях с seq2seq, я напишу, почему идея статьи о том, что в тренировке нейронных сетей в этой модели язык-источник и язык-цель абсолютно независимы, мне кажется неправильной идеей.

А если языки друг на друга влияют, то мы (точнее NLP-чат) были не так уж и не правы в истории с мертвым сыном лихорадки и предположениями о том, что проблема в том, что переводят через английский и китайский. Только во внутренностях там все намного сложнее, чем мне казалось ранее.

t.me/linguistique_sur_un_genou/771

Лингвистика на коленке

Про технические тонкости внутренностей тензорных созвездий гугла за пределами теории мы знаем недостаточно много, но ребята из NLP-чата предложили очень приятную Оккаму и правдоподобную версию: гугл переводит монгольский язык на русский через третий язык, и этот язык иероглифический. С практически стопроцентной вероятностью это китайский: параллельные интернет-корпуса с монгольским, доступные гуглу, вряд ли основаны на английском или французском. Мертвый сын лихорадки живет во Внутренней Монголии. Тогда секрет всего этого безумия объясняется просто — каждый кириллический символ из монгольского переводится на китайский определенным иероглифом — смысловой единицей; цепочки иероглифов с китайского дальше на русский переводятся машинной поэзией. (Большое спасибо автору версии @ollmer.) Даже немного грустно, что в этой истории в итоге остается так мало волшебства: и очень надеюсь, гугл еще не скоро прикроет эту лавочку.