Дорогие коллеги!
Мы рады представить вам новый, открытый сегмент Генерального интернет-корпуса русского языка — корпус Живого Журнала и ВКонтакте с автоматически снятой морфологической неоднозначностью, размеченный в соответствии с новым форматом морфоразметки ГИКРЯ.
Объем корпуса: 2 млн словоформ
Разметка: Abbyy Compreno и собственные разработки коллектива ГИКРЯ
Подкорпус, или «Серебряный стандарт», как мы его называем, доступен всем желающим для любых целей, и распространяется по запросу.
Актуальная версия Серебряного стандарта — 1.2
Вы можете ознакомиться с его форматом, скачав демонстрационный вариант в 30 тыс словоформ
Или отправить заявку на получения Серебряного стандарта, написав нам по адресу: geekrya@gmail.com
Более подробно формат снятника и описание морфологии можно найти по следующим ссылкам:
- Наш морфологический стандарт
- Техническое описание снятника
- Хроника версий и изменений Серебряного Стандарта ГИКРЯ
Мы надеемся, что наши материалы смогут стать полезными как для работы научных коллективов, так и для независимых разработок, поэтому будем рады любым предложениям, отзывам и пожеланиям по формату, улучшению разметки.
Цитирование:
Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.
Поделитесь с коллегами!