October 26, 2017

Про технические тонкости внутренностей тензорных созвездий гугла за пределами теории мы знаем недостаточно много, но ребята из NLP-чата предложили очень приятную Оккаму и правдоподобную версию: гугл переводит монгольский язык на русский через третий язык, и этот язык иероглифический. С практически стопроцентной вероятностью это китайский: параллельные интернет-корпуса с монгольским, доступные гуглу, вряд ли основаны на английском или французском. Мертвый сын лихорадки живет во Внутренней Монголии.

Тогда секрет всего этого безумия объясняется просто — каждый кириллический символ из монгольского переводится на китайский определенным иероглифом — смысловой единицей; цепочки иероглифов с китайского дальше на русский переводятся машинной поэзией.

(Большое спасибо автору версии @ollmer.)

Даже немного грустно, что в этой истории в итоге остается так мало волшебства: и очень надеюсь, гугл еще не скоро прикроет эту лавочку.

(Хотя волшебство здесь еще и в том, как работают рекуррентные нейронные сети и seq2seq, — я пока сама до этой высшей алхимии глубокого обучения не дошла.)