Серебряный Cтандарт, версия 1.1

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
На этой неделе мы рады представить вам новый релиз корпуса со снятой омонимией ГИКРЯ, который распространяется всем желающим на любые цели.
Так как традиция называть корпус «золотым стандартом» зарезервирована за материалами, выверенными вручную, мы подумали и решили…назвать его серебряным стандартом!

  • Объем корпуса, как и раньше, составляет 2 млн словоформ.
    Источник: Живой Журнал

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

  • добавлены падежи предлогов;
  • значительно улучено разрешение омонимии предлогов и наречий;
  • исправлены отсутствующие метки композитов и знаки препинания;
  • изменен формат стандарта и добавлены новые граммемы;
  • более подробно: см. список изменений в версии 1.1.

снятник11

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Поделитесь с коллегами!

Добавить комментарий