December 20, 2017

Forwarded from :

Новый год уже на носу и мы просто не могли не опубликовать датасет по семантике русского языка, работу над которым мы начали этим летом!

Мы и сами не ожидали, что туда войдёт столько всего вкусного:

* 10.000 существительных размечено по материальности/нематериальности;

* 4.000 материальных существительных распределены по классам;

* 6.000 слов размечено по эмоциональной полярности и силе эмоционально-оценочного заряда;

* 15.000 слов размечено по эмоциям с помощью машинного обучения;

* и ещё 5 экспериментальных семантических срезов!

Всё это можно скачать здесь: github.com/dkulagin/kartaslov/tree/master/dataset/open_semantics

Поддержите нашу статью пальцем вверх на Хабре, пожалуйста: habrahabr.ru/post/344582/

А лучшим подарком для нас будет ваш рассказ в комментариях о любом кейсе, когда вам нужна была явная семантическая разметка, но её не оказалось под рукой.

dkulagin/kartaslov

Contribute to dkulagin/kartaslov development by creating an account on GitHub.