О проекте

Генеральный Интернет-корпус Русского Языка (ГИКРЯ) – мегакорпус (более 20 млрд. слов), созданный при помощи полностью автоматической технологии сбора и разметки текстов из Рунета и основанный на современных достижениях компьютерной лингвистики.

Проект осуществляется при технологической и организационной поддержке компании ABBYY.

По состоянию на май 2015 года корпус включает в себя материалы крупнейших ресурсов Рунета: Новостей, ВКонтакте, Живого Журнала, Блогов Мейл.ру, — а также Журнального Зала.

Проект имеет статус учебно-научного, в его реализации принимают участие студенты кафедр компьютерной лингвистики РГГУ и МФТИ, а также сотрудники этих кафедр, специалисты компании ABBYY, МГУ и университета г. Лидса (Великобритания).

Проект является открытым для внешних исследователей (на данный  момент  с некоторыми ограничениями, связанными с тем, что проект находится в состоянии активной разработки и тестирования).

Реализация проекта сопровождается проведением  научных семинаров, в которых могут принимать участие все, кому интересно внести вклад в создание ГИКРЯ или проводить лингвистические эксперименты с ним.

Узнать технические детали о сборке корпуса и его составе можно по ссылке ниже:

конпка