Серебряный Стандарт ГИКРЯ, версия 1.2

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
Благодаря пожеланиям и замечаниям наших пользователей, мы устранили важный недостаток нашего материала, отфильтровав его от автоматически сгенерированных текстов и разнообразив жанровый состав. Представляем вам новый релиз корпуса со снятой омонимией ГИКРЯ — теперь это тексты ВКонтакте и ЖЖ!

  • Объем корпуса, как и раньше, составляет 2 млн словоформ.
    Источник: Живой Журнал и ВКонтакте

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

  • Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены следующим образом:
    ВКонтакте: 1140731 словоформ в 27892 текстах;
    ЖЖ: 860504 словоформ в 14255 текстах.
  • Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
  • Морфологический стандарт изменен, теперь это формат MSD-RU: в формате изменен порядок следования категорий в пользу большей системности. см. список изменений в версии 1.2.

 

Snyatnik12e

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Поделитесь с коллегами!

Добавить комментарий