Дорогие коллеги и пользователи корпуса!
Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
Благодаря пожеланиям и замечаниям наших пользователей, мы устранили важный недостаток нашего материала, отфильтровав его от автоматически сгенерированных текстов и разнообразив жанровый состав. Представляем вам новый релиз корпуса со снятой омонимией ГИКРЯ — теперь это тексты ВКонтакте и ЖЖ!
- Объем корпуса, как и раньше, составляет 2 млн словоформ.
Источник: Живой Журнал и ВКонтакте
Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.
Что нового?
- Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены следующим образом:
ВКонтакте: 1140731 словоформ в 27892 текстах;
ЖЖ: 860504 словоформ в 14255 текстах. - Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
- Морфологический стандарт изменен, теперь это формат MSD-RU: в формате изменен порядок следования категорий в пользу большей системности. см. список изменений в версии 1.2.
Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.
Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com
Поделитесь с коллегами!