Серебряный стандарт ГИКРЯ

Дорогие коллеги!

Мы рады представить вам новый, открытый сегмент Генерального интернет-корпуса русского языка — корпус Живого Журнала и ВКонтакте с автоматически снятой морфологической неоднозначностью, размеченный в соответствии с новым форматом морфоразметки ГИКРЯ.

Объем корпуса: 2 млн словоформ

Разметка: Abbyy Compreno и собственные разработки коллектива ГИКРЯ

Подкорпус, или «Серебряный стандарт», как мы его называем, доступен всем желающим для любых целей, и распространяется по запросу.

Актуальная версия Серебряного стандарта — 1.2

Snyatnik12e

 

Вы можете ознакомиться с его форматом, скачав демонстрационный вариант в 30 тыс словоформ

Или отправить заявку на получения Серебряного стандарта, написав нам по адресу: geekrya@gmail.com

Более подробно формат снятника и описание морфологии можно найти по следующим ссылкам:

Мы надеемся, что наши материалы смогут стать полезными как для работы научных коллективов, так и для независимых разработок, поэтому будем рады любым предложениям, отзывам и пожеланиям по формату, улучшению разметки.

Цитирование:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

Поделитесь с коллегами!