О проекте

Генеральный Интернет-корпус Русского Языка (ГИКРЯ) – мегакорпус (более 20 млрд. слов), созданный при помощи полностью автоматической технологии сбора и разметки текстов из Рунета и основанный на современных достижениях компьютерной лингвистики.

Проект осуществляется при технологической и организационной поддержке A4 Technology.

По состоянию на осень 2021 года существует две версии корпуса: функциональная версия 1.0, которая содержит материалы соц. сети ВКонтакте, блогов Живого Журнала и тексты Журнального Зала, и версия 2.0, которая находится в стадии разработки.

Чтобы получить доступ к версии 1.0, можете написать нам письмо: geekrya@gmail.com.

Проект имеет статус учебно-научного, в его реализации принимают участие студенты кафедр компьютерной лингвистики РГГУ и МФТИ, а также сотрудники этих кафедр, специалисты МГУ и университета г. Лидса (Великобритания).

Проект является открытым для внешних исследователей (на данный  момент  с некоторыми ограничениями, связанными с тем, что проект находится в состоянии активной разработки и тестирования).

Узнать технические детали о сборке корпуса и его составе можно по ссылке ниже:

конпка