Лингвистика на коленке

linguistique_sur_un_genou @ telegram, 3246 members, 785 posts since 2016

Я лингвист-дилетант, изучаю романские языки, а также адепт самообучения (и зануда)

Не публикую рекламу.

Бот для отзывов и предложений: @ksenialinguistfbbot.

Первый пост: http://kseniacadaques.spark-in.me/4

Чат: @linguistic_dabblers

linguistique_sur_un_genou (Ksenia), October 15, 2018

Forwarded from Системный Блокъ:

Что читать современному лингвисту/филологу?

Телеграм стал площадкой для нишевых сообществ с уникальным контентом. Мы будем рассказывать о каналах, которые читаем сами. В нашем первом обзоре — четыре канала о лингвистике, четыре канала о литературе и два — о цифровых гуманитарных исследованиях.

@linguistique_sur_un_genouЛингвистика на коленке

"Лингвист-дилетант" Ксения пишет, в основном, о компьютерной лингвистике и романских языках. Но здесь не только обзоры лучших курсов по NLP и интересные лингвистические факты, здесь ещё и истории из жизни о собеседованиях на иностранном языке, переводах и французском лингвистическом быте.

@linguisticmadnessLinguistic Madness

Канал о лингвистике и языках: ссылки, статьи, мнения, факты. Что если переделать "Иронию судьбы" на бандитский манер? Как выглядят граффити для незрячих? Что такое ирландский перфект в английском? Кто говорит на аэрском? И прочие лингвистические безумства.

@vooioxуЩербы

Увлекательные рассказы о том, откуда взялось слово "чувак", что такое гражданский брак и можно ли говорить звОнит. В общем, вся правда о русском языке, которую скрывали от нас в школе.

@word4powerWord4Power

Канал убежденного последователя святого Иеронима о переводах и лингвистике. Будни синхрониста, полезные переводчику книжки и статьи, лингвистические откровения о русском, украинском, английском и французском. Где еще вы узнаете, как делаются субтитры к фильмам и театральным постановкам и в чем разница между Yob's comma и Oxford comma?

@theodstavecО литературе и около неё

Команда этого проекта, название которого в переводе с чешского означает "абзац", делает переводы статей, эссе, рецензий и заметок мировых ресурсов о литературе, чтобы они стали доступнее русскоязычному читателю. А ещё там можно опубликовать свою литературоведческую статью.

@bookngrillКниги жарь

Канал студента первой магистратуры Creative Writing в России. Новости современной литературы, советы начинающим писателям, литературоведческий ликбез и просто образец хорошего текста.

@sashaandleoСаша и Лев

Дайджест литературных новостей со всего мира — о книжных фестивалях, экранизациях, встречах с писателями, литературных премиях.

@words_and_moneyСлова и деньги

Про книги из электронов и из бумаги, деньги из книг, книги без денег и всякое прочее. Издательства, книжные ярмарки, нелитературная сторона мира литературы. По мотивам «Слов и денег» Андре Шиффрина.

@Sense_catcherБиблиотечная крыса

Авторский канал о книгах и чтении в цифровую эпоху, "чердак цифрового литературоведа". Здесь и рассуждения о судьбах литературы и ее исследователей, и размышления о современном книгоиздании, и личные впечаления от выездных школ и курсов по Digital Humanities, и рассказы об интересных проектах в современной филологии.

@sysblokСистемный Блокъ

Канал о переходе культуры в цифру и применении технологий в гуманитарных науках и искусстве. Как лингвисты ловят маньяков и какие сны снятся нейросетям? Что скрывают от нас соцсети персонажей? Может ли искусственный интеллект залипнуть у телевизора? Системный Блокъ — это современный Вергилий, который проведет вас через девять кругов Big Data.

Хотите рассказать нам о своем любимом сообществе? Мы уже собираем продолжение. Пишите.

linguistique_sur_un_genou (Ksenia), October 02, 2018

New blog post: A Review of the Recent History of Natural Language Processing. The 8 biggest milestones in the last ~15 years of #NLProc. From our NLP session at @DeepIndaba. @_aylien

blog.aylien.com/a-review-of-the-recent-history-of-natural-language-processing/

via Twitter @seb_ruder

A Review of the Neural History of Natural Language Processing - AYLIEN

This is the first blog post in a two-part series. The series expands on the Frontiers of Natural Language Processing session organized by Herman Kamper and me at the Deep […]


linguistique_sur_un_genou (Ksenia), October 02, 2018

Лаборатория нейронных сетей и глубокого обучения МФТИ открывает курс Deep Learning in Natural Language Processing. Он стартует 4 октября и будет проходить каждый четверг в 19:00 в 105 БК.

Курс проходит в формате "inverse classroom". Перед каждым семинаром нужно просмотреть лекцию и ответить на квиз. В основе программы — аналогичный курс Стэнфордского университета (cs224n). Обучение будет состоять из просмотра лекций, ответов на квизы, выполнения домашних заданий и проекта. Семинары будут посвящены обсуждению сложных моментов в лекциях, разбору квизов и домашних заданий, а также консультациям по проектам. Проведут их сотрудники лаборатории нейронных сетей и глубокого обучения Владислав Лялин и Алексей Сорокин.

Занятия будут проводиться в следующем порядке:

1. Введение в обработку естесственного языка и глубокое обучение, введение в векторные представления слов

2. Векторные представления слов: Word2vec, GloVe, FastText

3. Языковые модели, softmax crossentropy loss, однослойные нейронные сети

4. Нейронные сети и обратное распространение ошибки, методы оптимизации

5. Практические советы: проверки на градиент, переобучение, регуляризация, функции активации

6. Рекуррентные нейронные сети в применении к моделированию языка и другим задачам

7. GRU и LSTM, введение в машинный перевод

8. Сверточные нейронные сети в применении к классфикации текстов

9. Машинный перевод, attention

10. Сети с динамической памятью, контекстуальные векторные представления слов, будущее NLP

Длительность курса — 10 занятий. Курс открыт для всех желающих углубить свои знания в Deep Learning и Natural Language Processing. Занятия также будут транслироваться в режиме онлайн на Youtube-канале лаборатории (www.youtube.com/channel/UCJ-6K2HGA0hpQytlSM7FBVQ).

Для записи на курс необходимо заполнить форму (goo.gl/forms/BbUng7k3KbHK8s1t2). Оперативную информацию можно отслеживать в Телеграм-канале (t.me/joinchat/AAAAAEbQgIbzmzfKmMRlVw).

(Подсмотрено в слаке ODS.)

iPavlov
We make DeepPavlov, an open-source framework to develop and deploy conversational assistants in production. Here we tell about it, our projects, AI schools a...

linguistique_sur_un_genou (Ksenia), October 02, 2018

Hier encore (Еще вчера мне было 20 лет) Шарля Азнавура — одна из самых депрессивных песен, которые я знаю.

Car mes amours sont mortes avant que d'exister

Mes amis sont partis et ne reviendront pas

Par ma faute j'ai fait le vide autour de moi

Et j'ai gâché ma vie et mes jeunes années

И все мои любови умерли, не родившись

Мои друзья покинули меня и больше не вернутся

Своими руками я сотворил вокруг себя пустыню

И я зря спустил свою жизнь и молодые годы

youtu.be/bHokx2L1wi4

Charles Aznavour Hier encore

linguistique_sur_un_genou (Ksenia), September 28, 2018

Forwarded from мамкина ленгвистка:

Мне опять написали про рекламу, поэтому пора как-то это вслух сказать.

Ребята, на этом канале нет и не будет рекламы, вп, чю и ммм. Это не заработок, это удовольствие.

Именно поэтому я никогда не стану популярным блоггером с кучей денег, а вы никогда не будете читать у меня про очередные бесполезные подборки английских слов и выражений.

Годные посты из годных каналов я репощу просто так, по любви, совершенно безвозмездно.

💚💚💚

linguistique_sur_un_genou (Ksenia), September 26, 2018

Forwarded from Spark in me - Internet, data science, math, deep learning, philosophy:

Araneum russicum maximum

TLDR - largest corpus for Russian Internet. Fast-text embeddings pre-trained on this corpus work best for broad internet related domains.

Pre-processed version can be downloaded from rusvectores.

Afaik, this link is not yet on their website (?)

wget http://rusvectores.org/static/rus_araneum_maxicum.txt.gz

#nlp

linguistique_sur_un_genou (KseniaBot), September 25, 2018

Хотите, чтобы я всякие ссылки про NLP присылала сюда?

  • 💙 141
  • 👹 28

linguistique_sur_un_genou (Ksenia), September 24, 2018

Новые главы в Speech and Language Processing, Dan Jurafsky, 3rd Edition.

web.stanford.edu/~jurafsky/slp3/

linguistique_sur_un_genou (Ksenia), September 09, 2018

Forwarded from nlp_uppsala_master:

Подборка отличная, по большей части совпадает с плейлистами и курсами, которые у меня в закладках.

А вот мои пять копеек: во-первых, маленький плейлист от университета Линчёпинга и довольно толкового преподавателя, который раньше как раз работал в Уппсале. Сейчас он как раз отвечает за самые разные курсы по Language Technology в Линчёпинге и занимается в основном вроде бы алгоритмами парсинга.

Ссылка на плейлист (www.youtube.com/playlist?list=PLRMVKNUGFr6wXUvyTczRlxyeAtpzpzc3q) и на один из курсов (www.ida.liu.se/~729A27/lectures.en.shtml):

А ещё хотелось бы напомнить, что существуют лекции яндексовского ШАДа по лингвистике, и там тоже хватает интересного, да ещё можно послушать по-русски (честно говоря, уметь обсуждать некую область знаний не только по-английски вообще-то полезно). Вот, например, Андрей Кутузов рассказывает о дистрибутивной семантике: youtu.be/7k_MOBYbw_w

Андрей сейчас в докторантуре в Осло, где в том числе читает отдельные лекции на разных курсах по NLP. Чтобы дважды не вставать, вот ссылка на курс UiO по машинному переводу со слайдами лекций: www.uio.no/studier/emner/matnat/ifi/INF5820/h16/pensumliste/

Language Technology 2017 - YouTube

Про ШАД не знала, надо посмотреть, мне кажется, очень полезно.

linguistique_sur_un_genou (Ksenia), September 09, 2018

Видеокурсы и плейлисты, которыми пользуюсь для изучения NLP и нейросеток в NLP.

Бесплатные курсы.

1. Знаменитый курс Natural Language Processing от Stanford University на Курсере. Курс старый, это 2012 год, там в более легкой форме преподаются концепты, описанные в книге Dan Jurafsky, Speech and Language Processing, настольной книге по NLP, которая выдерживает уже 3 переиздание. Курс сложный, но и книга сложная, да и вообще вся тема. Ведут Крис Мэннинг и Дэн Джурафски собственной персоной, легенды популяризации NLP.

www.youtube.com/playlist?list=PLQiyVNMpDLKnZYBTUOlSI9mi9wAErFtFm

2. Еще один старый курс, Natural Language Processing, на этот раз от Columbia University, тоже преподавался на Курсере. Это 2013 год. В достаточно доступной форме объясняются основные понятия, упор сделан на математические модели, используемые для практических задач. Я тут смотрела объяснение языковых моделей, отлично. Ведет Майкл Коллинз.

www.youtube.com/user/afigfigueira/playlists?view=50&sort=dd&shelf_id=5

3. CS224N Natural Language Processing with Deep Learning от Stanford University. Гениальный курс, подробно и хорошо объясняются word embeddings и recurrent neural networks. Все материалы есть в открыттом доступе. Ведет немножко Крис Мэннинг и Ричард Сочер. Сложно, но очень хорошо. 2016-2017 учебные годы в Стэнфорде.

www.youtube.com/playlist?list=PLU40WL8Ol94IJzQtileLTqGZuXtGlLMP_

4. fast.ai курсы Deep Learning for Coders, 1 и 2 часть. Надо смотреть конкретные части, посвященные nlp, основной упор сделан на базовые концепции и кодинг в пайторче. Помимо этого, ребята из fast.ai продвигают свою собственную библиотеку, написанную специально для обучения на этих курсах. Ведет Джереми Ховард. 2017-2018 гг.

course.fast.ai/lessons/lesson4.html

course.fast.ai/lessons/lesson6.html

5. Обработка естественного языка на русском языке, ведет Павел Браславский. Чего-то я про него уже писала, я прошла всю теоретическую часть, а из практической смотрела только классификацию текста. 2017 год. Нудноватый, но основательный.

stepik.org/course/1233/syllabus

Платные курсы.

1. Часть специализации Advanced Machine Learning от ВШЭ и Яндекса, Natural Language Processing. 2017 год. Сразу скажу, я ее не проходила, но первые два курса специализации мне показались сложными и не очень отполированными, я даже второй курс бросила. Очень хочу пройти, но пока времени нет.

www.coursera.org/learn/language-processing

2. Sequence Models от deeplearning.ai, часть специализации Deep Learning, ведет Эндрю Ын. Нейросетки для nlp, объясненные практически без математики. Я его прошла, и этот курс не такой отполированный, как остальные, но он все равно прекрасен.

www.coursera.org/learn/nlp-sequence-models

3. NLP Nanodegree Udacity. Не проходила, но хотела бы. Боюсь нагрузки, правда. Udacity все хвалят, самое главное у них - это помощь тьюторов на кодинговых проектах, еще говорят, что их курсы пригождаются на собеседованиях (не знаю). Вписываться в udacity - это большой челлендж.

www.udacity.com/course/natural-language-processing-nanodegree--nd892

Upd: посмотрела цену на программу Udacity, $999, нафиг-нафиг.

Надеюсь, вам полезно.

Natural Language Processing | Dan Jurafsky, Christopher Manning - YouTube
Natural Language Processing course by Dan Jurafsky and Christopher Manning. Link to course material: https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

linguistique_sur_un_genou (Ksenia), September 08, 2018

Говорят, в нейронных сетях (deep learning) для решения задач обработки естественного языка (natural language processing, NLP) появился перенос обучения (transfer learning). На огромном количестве неразмеченных данных обучаются (unsupervised learning) языковые модели с векторами слов (word embeddings), а дальше слои, полученные при обучении, можно использовать для задач классификации текстов, машинного перевода, диалоговых агентов и множества других задач. Джереми Ховард в курсе fast.ai описывал такую задачу еще в ноябре, но сейчас, в июне, появилась статья, подтверждающая sota (state of the art) этих результатов.

Чем хороша эта новость: для задач естественного языка нужны размеченные данные. Их нужно много. Это очень дорого, при том, что качество далеко не всегда бывает идеальным, потому что разметка текстовых данных намного сложнее, чем разметка фотографий собак и кошек, например.

Обучая языковую модель на неразмеченных данных, можно срезать путь и доучивать модель на маленьких наборах данных. В статье говорится, что это сродни прорыву ImageNet в задачах компьютерного зрения, когда в 2012 году на миллионах картинок обучили классификации нейронные сети, и эти сети оказались способны решать множество других задач.

www.wired.com/story/ai-can-recognize-images-but-understand-headline/amp?__twitter_impression=true

Кстати, на Себастьяна Рудера, ученого, получившего эти результаты, я подписана в твиттере и очень рекомендую, у него есть отличная рассылка новостей NLP.

AI Can Recognize Images. But What About Language?

New approaches foster hope that computers can understand paragraphs, classify email as spam, or generate a satisfying end to a short story.


linguistique_sur_un_genou (Ksenia), July 31, 2018

Forwarded from NLP Master:

Тематический тред в Тви. Об NLP простыми словами и на русском. twitter.com/eiennohito/status/1023748473890328576

Arseny Tolmachev

К новым технологиям в Японии (да и не только): 1 лайк - как минимум 1 твит про такую область “искусственного интеллекта” как обработку естественных языков - пытаемся сделать из тупой железки что-то понимающую людей и их речь.


linguistique_sur_un_genou (Ksenia), July 19, 2018

В чате только что вычитала, что NLP (natural language processing) можно по-русски назвать прикольной аббревиатурой «автобрея».

АвтОбрЕЯ — автоматическая обработка естественного языка.

Мне нравится!

linguistique_sur_un_genou (Rosa Qualcosa), March 21, 2018

И раз уже я сделала перерыв в своем молчании, вызванном затянувшимся пребыванием в русскоязычной среде, вот вам еще один великолепный пост про мир глухих (в голове сразу зазвучал Айги), их язык, а также лингвистические столкновения на стыке с нашим миром.

t.me/mamlingvist/174

Tsundoku-sempai!!

Все, наверное, видели подборки скриншотов с weird subtitles (или читали одноименный восхитительный канал в телеге), ржали, но вряд ли задумывались, откуда они берутся, или же просто списывали это на фансабберов с великим "обоссы меня господь". Скажем так, все далеко не так просто. Большая часть странных субтитров, прописанных капсом и в квадратных скобках ([STARING INTENSIFIES]) на самом деле предназначены для глухих. Мы привыкли думать, что глухие - это, мягко говоря, несколько маргинализированная группа вполне обычных граждан отдельно взятой страны, но такое определение будет как нельзя далеким от истины. Глухие - это иностранцы в родной стране, и это особенно верно для глухих в России. У них свой собственный, очень сложный визуально-пространственный язык со специфичной грамматикой, напоминающей чем-то иероглифические языки. Глухие с рождения дети учат именно его и общаются на нем, а язык внешнего мира... Ну, вы же не пытаетесь вырастить из своего ребенка полноценного билингва без особой на то нужды, правильно?…


linguistique_sur_un_genou (Rosa Qualcosa), March 21, 2018

Отличный пост про случайные корреляции (spurious correlations).

t.me/differentenglish/1296

Другой английский

Пару лет назад читал статью профессора Keith Chen of Yale University*, который приводит данные в поддержку тезиса, что язык влияет на поведение (в частности экономическое) и разные языки форматируют восприятие носителя различно. Профессор говорит о ключевой роли Future tense и создаваемое им или без него future time references" (FTR).Он выделяет Strong-FTR languages, такие как английский или французский, где Future tense есть (в первом, выраженный через вспомогательный глагол will, во втором через форму глагола), где спикер говорит о будущем через формы будущего же времени и Weak-FTR languages, где он это делает через present. Например, финны говорят «menen huomenna kaupunkiin" - "I go tomorrow to town". Сюда же можно отнести и немецкий, где спикер может использовать как и формы будущего «ich werde morgen in die Stadt gehen", но обладает неизмеримо большей свободой, по сравнению с английским, прибегать к present tense в этом случае: «ich gehe morgen in die Stadt". Так вот профессор собрал данные свидетельствующие…


Forwarded from Linguista sum:

linguistique_sur_un_genou (Rosa Qualcosa), March 17, 2018

Британский совет(

meduza.io/feature/2018/03/17/chto-takoe-britanskiy-sovet-pochemu-ego-zapreschayut-v-rossii-i-pri-chem-zdes-otravlenie-aleksandra-litvinenko

Что такое Британский совет, почему его запрещают в России (и при чем здесь отравление Александра Литвиненко)

Британский совет — это общественная организация под патронажем министерства иностранных дел Великобритании. Она занимается культурными и образовательными проектами, ее филиалы есть почти везде — в 110 странах мира. Британский совет был основан в 1934 году, работал в СССР с 1945-го по 1947-й — затем его деятельность была прекращена из-за начинавшейся холодной войны между Советским Союзом и странами Запада. В России Британский совет работал с 1992-го.


linguistique_sur_un_genou (Rosa Qualcosa), March 15, 2018

Duolingo — единственная известная мне языковая платформа, которой весь контент создают волонтеры.

И для своих волонтеров они написали простые и понятные руководства по созданию языковых курсов. Must-read для любого, кому интересно создание какого-либо собственного образовательного продукта.

duolingo.uservoice.com/knowledgebase/articles/781395-teaching-communication

linguistique_sur_un_genou (Rosa Qualcosa), March 14, 2018

#нелингвистическое

Нас покинул великий ученый. Покойся с миром и вселенной, профессор Хокинг.

May we all live as fully as he did (c) Andrew Ng.

twitter.com/bbcbreaking/status/973767529616347137?s=21

BBC Breaking News

Physicist Stephen Hawking has died at the age of 76, a spokesman for his family has said https://t.co/ZfW9MSXCbL


linguistique_sur_un_genou (Rosa Qualcosa), March 11, 2018

El País объявляет неделю России, посвященную выборам, и я уже прочитала интересную статью про русских старообрядцев, которые сбежали в Китай и затем в Латинскую Америку во времена большевистской революции и гражданской войны и сейчас возвращаются жить на Дальний Восток: оказывается, русское государство инвестирует большие деньги и тратит много усилий, чтобы репатриировать это сообщество.

elpais.com/internacional/2018/03/05/actualidad/1520276311_167027.html

В очередной раз посокрушаюсь, что пресса на испанском, итальянском и французском языках не попадает в сферу интересов наших свободных медиа, которые, кажется, считают, что кроме англоязычной прессы ничего в мире не существует.

Статья про старообрядцев будет переведена Иносми, потому что она про Россию, но те же El País и La Vanguardia, например, очень подробно пишут про то, что происходит в Латинской Америке, и эта повестка, думаю, многим была бы интересна.

Что касается того, как в El País пишут о России — я уже говорила и повторюсь, что их штатная авторка по России и СНГ Пилар Бонет чудесная, и я бы очень хотела с ней познакомиться.

В общем, предвкушаю эту неделю, я с интересом читаю российскую повестку в европейской прессе (только про троллей, выбравших* Трампа, совершивших* Брекзит и раскачавших* каталонцев, не читаю, потому что невозможно уже).

* в кавычках

La reconquista del Lejano Este de Rusia

El Kremlin impulsa el regreso de descendientes de cristianos rusos perseguidos por sus creencias para repoblar y trabajar las tierras de sus ancestros


linguistique_sur_un_genou (Rosa Qualcosa), March 09, 2018

#nlp

Медленно, но верно занималась по великолепному курсу от Stanford на Coursera от Дэна Джурафски и Кристофера Мэннинга по обработке естественного языка, как внезапно все видео этого курса с ютьюба удалили. Очень расстроилась, потому что придется пользоваться скачанным академическим торрентом, а торренты — это не очень хорошо, конечно, особенно для американцев.

Возможно, на Курсере готовится новый такой курс от Стэнфорда? Это было бы очень здорово! Никому ничего подобного в новостях не попадалось?

linguistique_sur_un_genou (Rosa Qualcosa), March 07, 2018

Ого.

www.nature.com/articles/s41467-018-03068-4

Toward a universal decoder of linguistic meaning from brain activation

Previous work decoding linguistic meaning from imaging data has generally been limited to a small number of semantic categories. Here, authors show that a decoder trained on neuroimaging data of single concepts sampling the semantic space can robustly decode meanings of semantically diverse new sentences with topics not encountered during training.


linguistique_sur_un_genou (Rosa Qualcosa), March 07, 2018

« There are two shortcuts to speaking the language. ... You can take an Italian lover, or you can watch Italian movies. » I wisely chose the latter ...

La Bella Lingua: My Love Affair with Italian, the World's Most Enchanting Language by Dianne Hales

«Есть два способа сократить путь к итальянскому языку — ты можешь завести любовника-итальянца или начать смотреть итальянские фильмы.» Я выбрала второй способ...

Поскольку мой многоязычный муж настаивает на том, чтобы говорить со мной по-французски, решила погрузиться в историю итальянского кино.

linguistique_sur_un_genou (Rosa Qualcosa), March 05, 2018

Counseling in English is really cool. I am not afraid to share stuff I would be really reluctant to share in Russian.

Moreover, it is very nice to permit yourself to talk about whiny spiritual stuff like traumas and hurt as well as weaknesses only in the languages that are foreign to you. The long desired sense of detachment is bliss.

Психотерапия по-английски — это круто. Я не боюсь рассказывать о том, о чем совсем не хотела бы говорить по-русски.

Более того, это очень приятно — позволить себе разговоры о духовном нытье (травмы, обиды, слабости) только на чужих иностранных языках. Долгожданное ощущение отстраненности — это настоящее блаженство.

linguistique_sur_un_genou (Rosa Qualcosa), March 04, 2018

Меня просто возмущают статьи, где в исследовании по зарплатам указываются средние зарплаты, а не медианные. Веры таким странным исследованиям никакой нет, совершенно неизвестно, сколько выбросов в этих выборках.

Результаты, тем не менее, забавные.

www.the-village.ru/village/business/figures/302291-rabota-i-yazyk

Простые числа. Сколько доплачивают за знание иностранного языка

На сколько больше получают москвичи, знающие английский, немецкий, французский и другие языки


linguistique_sur_un_genou (Rosa Qualcosa), March 04, 2018

#nlp

Из всех 2vec’ов больше всего люблю Doc2Vec в исполнении gensim.

Точнее, для моей задачи он лучше всего подходит.

linguistique_sur_un_genou (Rosa Qualcosa), March 03, 2018

Лена, автор @la_hispanidad и @euskal_herria, только что пообещала, что будет чаще писать в свой канал про изучение обработки естественного языка, если на нее подпишется больше народу.

Лена учится на магистратуре natural language processing в университете Страны басков и очень интересно про это рассказывает.

Сделайте мне приятно, подпишитесь на нее, пожалуйста.

t.me/about_nlp

Кстати, я обожаю каналы студентов, особенно если они с энтузиазмом относятся к тому, чем занимаются, и хотела бы, чтоб их было побольше. Если у вас есть на примете интересный студенческий канал, пришлите мне, пожалуйста!

NLP Master

Об изучении natural language processing в университете Страны Басков.


linguistique_sur_un_genou (Rosa Qualcosa), March 03, 2018

Dominguear

У приятельницы в инстаграме наткнулась на тег #domingueando и восхищаюсь. Какое чудесное слово: уехать за город, обняться с собакой или кошкой, сидеть у камина под теплым пледом и книжкой (шутка) и воскресенничать. Проводить отличное воскресенье.

Запомню.

P.S. А #luneseando — это, наверное, испытывать легкую тоску по выходным на работе в понедельник. #vierneseando — пуститься во все тяжкие в пятницу вечером.

Обожаю языки с удобным отглагольным образованием.

linguistique_sur_un_genou (Rosa Qualcosa), March 03, 2018

Вчера проходила по телефону на французском рабочее интервью и отметила несколько моментов.

Во-первых, сложно формулировать, если я из постоянной практики языка выпадаю надолго. В России я с начала февраля, и по-французски общаюсь только с мужем по телефону: не обошлось без меканья и беканья в попытке вспомнить нужные слова, да и формулировала я не так быстро, как привыкла.

Во-вторых, вся моя рабочая лексика по тем двум профессиям, которые мне нравятся, в моей голове существует на английском, и надо обязательно отрабатывать испанский и французский словарь, если я хочу, чтобы меня воспринимали серьезно.

В-третьих, говорить по телефону, не видя губ и реакций собеседника, — ужасно сложная задача. Коммуникация при помощи голоса, но удаленно, — это то, что доступно носителю, либо человеку, который очень долго живет с языком, постоянно с ним контактируя, для этого нужна определенная тренированность.

В-четвертых, я отлично разбираю нюансы речи в голосах, к которым я уже привыкла, а новый голос первое время мне кажется белым шумом, где я вычленяю знакомые слова и пытаюсь достроить / угадать остальное.

В-пятых, для таких событий нужно обязательно себя настраивать: расслабиться, передохнуть, настроиться, возможно, помедитировать и только потом общаться (я этого не сделала, потому что растерялась, – звонок застал меня в середине йоги, – и сейчас жалею).

Но ничего, жизнь продолжается, конечно. Я не идеально говорила, но тем не менее говорила и задавала вопросы (правда, про себя рассказала меньше, чем хотелось). И это очень интересный опыт, в следующий раз я буду вести себя немного по-другому.

linguistique_sur_un_genou (Rosa Qualcosa), February 28, 2018

Forwarded from Data Science:

Most common libraries for Natural Language Processing:

CoreNLP from Stanford group:

stanfordnlp.github.io/CoreNLP/index.html

NLTK, the most widely-mentioned NLP library for Python:

www.nltk.org/

TextBlob, a user-friendly and intuitive NLTK interface:

textblob.readthedocs.io/en/dev/index.html

Gensim, a library for document similarity analysis:

radimrehurek.com/gensim/

SpaCy, an industrial-strength NLP library built for performance:

spacy.io/docs/

Source: itsvit.com/blog/5-heroic-tools-natural-language-processing/

#nlp #digest #libs

Stanford CoreNLP

High-performance human language analysis tools. Widely used, available open source; written in Java.


linguistique_sur_un_genou (Rosa Qualcosa), February 28, 2018

Forwarded from Лингвошутки:

Крутейший рассказ об устройстве яндексовской «Алисы»

nplus1.ru/material/2018/02/27/yandex-alice

Про анафору — это английский термин, используется в обработке естественного языка. В русском у этого термина другое значение, а для английского значения (очень важного в деле распознавания речи) термина нет.

t.me/lingvojokes/1636

Лингвошутки

Правда, впервые вижу такое определение анафоры


older first