ГИКРЯ 2.0 на платформе НКРЯ

Опубликовано Вторник Июнь 30th, 2026 автором Сергей Гладилин

Дорогие коллеги и пользователи корпуса!

Бета-версия ГИКРЯ 2.0 доступна на платформе НКРЯ! В нее вошли тексты социальной сети «ВКонтакте» с 2007 по начало 2022 г. общим объемом 11,3 млрд слов.

Морфологическая разметка ГИКРЯ 2.0 выполнена с помощью интегрального морфосинтаксического парсера (автор — Даниил Анастасьев) с доработанной лемматизацией (подробнее о наших доработках можно почитать здесь). Полученная разметка в формате Universal Dependencies затем преобразована в морфологический стандарт НКРЯ.

Метатекстовая разметка включает год и месяц написания текста и его тип (пост или комментарий), год рождения, пол и регион автора, извлеченные из его профиля в социальной сети.

Интерфейс НКРЯ позволяет выполнять поиск по лемме, словоформе, и грамматическим признакам (в т.ч. с использованием регулярных выражений), задавать подкорпус по метатекстовым признакам, получать выдачу в форматах Конкорданс и KWIC с сортировкой по заданному параметру, строить графики по времени публикации текста и получать статистику по социолингвистическим параметрам.

Будем рады ответить на ваши вопросы по ГИКРЯ 2.0: пишите нам по адресу info@ruscorpora.ru. Если вы обнаружили ошибку в системе НКРЯ, сообщите об этом через форму.

ГИКРЯ жив!

Опубликовано Воскресенье Декабрь 5th, 2021 автором Александра Ивойлова

Добавить комментарий

Несмотря на то, что наш сайт немного стагнировал, проект продолжает работу. В данный момент мы готовим к выпуску версию ГИКРЯ 2.0. В этой версии будут следующие обновления:

Увеличенный объем текстов (до 2 раз!)
Морфоразметка, выполненная с помощью SOTA-методов
Синтаксическая разметка
Автоматическая жанровая разметка в категориях FTD
Семантические скетчи
и другое…

Также мы запускаем проект Языки Городов и Людей (ЯГеЛь), наследник почившего форума ABBYY Lingvo.

В случае, если вы писали письма и не получили ответа, сверьтесь с обновленной страничкой контактов — некоторые наши адреса изменились!

Серебряный Стандарт ГИКРЯ, версия 1.2

Опубликовано Вторник Февраль 28th, 2017 автором shavrina

Добавить комментарий

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
Благодаря пожеланиям и замечаниям наших пользователей, мы устранили важный недостаток нашего материала, отфильтровав его от автоматически сгенерированных текстов и разнообразив жанровый состав. Представляем вам новый релиз корпуса со снятой омонимией ГИКРЯ — теперь это тексты ВКонтакте и ЖЖ!

Объем корпуса, как и раньше, составляет 2 млн словоформ.
Источник: Живой Журнал и ВКонтакте

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены следующим образом:
ВКонтакте: 1140731 словоформ в 27892 текстах;
ЖЖ: 860504 словоформ в 14255 текстах.
Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
Морфологический стандарт изменен, теперь это формат MSD-RU: в формате изменен порядок следования категорий в пользу большей системности. см. список изменений в версии 1.2.

Snyatnik12e

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Морфологический стандарт MSD-Ru

Опубликовано Вторник Февраль 28th, 2017 автором selegey_d

Добавить комментарий

Ниже приводится подробное описание тагсета MSD-Ru.

Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
Начальный символ тега определяет часть речи.
За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-Ru, заменив значения не используемых ими категорий на знак (+).
Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

Выделяемые части речи:

N — Существительное (Noun)
A — Прилагательное (Adjective)
V — Глагол (Verb)
R — Наречие (Adverb)
W — Предикатив (Predicate)
P — Местоимение (Pronoun)
M — Числительное (Numeral)
S — Предлог (Adposition)
C — Союз (Conjunction)
H — Вводная конструкция (Parenthesis)
I — Междометие (Interjection)
Q — Частица (Particle)
X — Остальное (Residual)

Общие категории:

A1, R1 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная
N2, A2, V2, P2, M2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
c : common — общий (для некоторых существительных)
— : undefined
N3, A3, V3, P3, M3 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое существительное или прилагательное
— : undefined
N4, A4, V4, P4, M4, S4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
v : vocative — звательный (только у существительных)
— : undefined
V5, P5 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined

Категории по частям речи и их значения:

Существительное (N)

N1 — Тип:
c : common — нарицательное
p : proper — нарицательное
N2 — Род: m/f/n/c/-
Род не определён для pluralia tantum и N3=i (неизм. сущ).
N3 — Число: s/p/i
N4 — Падеж: n/g/d/a/i/l/v/-
Падеж не определён для N3=i (неизм. сущ).
N5 — Дополнительный падеж:
p : partitive — второй родительный (партитив)
l : locative — второй предложный (локатив)
— : регулярная форма
N6 — Одушевленность:
n : no — неодушевленное
y : yes — одушевенное

Прилагательное (A)

A1 — Степень сравнения: p/c/s
A2 — Род: m/f/n/-
Род не определён для A1=c, A3=p или A3=i (неизменяемое).
A3 — Число: s/p/i/-
Число не определено для A1=c.
A4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для A1=c, A3=i или A5=s.
A5 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для A1=c)

Глагол (V)

V1 — Грамматический тип:
i : indicative — изъявительное наклонение
m : imperative — повелительное наклонение
n : infinitive — инфинитив
g : gerund — деепричастие
p : participle — причастие
x : глагол «нет»
V2 — Род: m/f/n/-
V3 — Число: s/p/-
V4 — Падеж причастия: n/g/d/a/i/l/-
Падеж определён только для причастий в полной форме.
V5 — Лицо: 1/2/3/-
V6 — Время:
s : past — прошедшее
p : present — настоящее
f : future — будущее
— : undefined (для V2=n или V2=m)
* : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
V7 — Переходность:
n : no — непереходный
y : yes — переходный
V8 — Залог:
a : active — активный
p : passive — пассивный
s : залог на -ся.
V9 — Вид:
p : perfective — совершенный
i : imperfective — несовершенный
* : неопределимо (для некоторых парных и двувидовых глаголов)
V10 — Парность:
m : monoaspectual — парный или моноаспектуальный
b : biaspectual — двувидовой
V11 — Форма причастия:
s : short-art — краткая
f : full-art — полная
— : undefined

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

Наречие (R)

R1 — Степень сравнения: p/c/s

(скачать список)

Предикатив (W)

Категории отсутствуют.

(скачать список)

Местоимение (P)

P1 — Разряд:
p : personal — личное
d : demonstrative — указательное
i : indefinite — неопределенное
s : possessive — посессивное
q : interrogative — вопросительное
x : reflexive — возвратное
z : negative — отрицательное
n : attributive — аттрибутивное
P2 — Род: m/f/n/-
P3 — Число: s/p/-
P4 — Падеж: n/g/d/a/i/l
P5 — Лицо: 1/2/3/-
P6 — Синтаксический тип:
n : nominal
a : adjectival
p: predicative («всяк», «каков», «таков»)
r : adverbial

Числительное (M)

M1 — Разряд:
c : cardinal — количественное
l : collect — собирательное
o : ordinal — порядковое
* : для чисел, записанных арабскими цифрами
M2 — Род: m/f/n/-
M3 — Число: s/p/-
M4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для M5=d или M5=r
M5 — Форма записи:
l : letter — буквенная
d : digit — арабскими цифрами
r : roman — римскими цифрами

Предлог (S)

S1 — Тип:
p : preposition — предлог
t : postposition — послелог («назад», «тому_назад»)
S2 — Структура:
s : simple — простой
с : compound — составной («невзирая», «несмотря»)
S3 — категория зарезервирована
S4 — Падеж управления: n/g/d/a/i/l/-
Падеж не определён для S2=c.
Падеж ‘n’ приписывается в случае второго винительного падежа

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья», «пойти в гости» и др.
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

Союз (C)

Категории отсутствуют.

(скачать список)

Вводная конструкция (H)

Категории отсутствуют.

(скачать список)

Междометие (I)

Категории отсутствуют.

(скачать список)

Частица (Q)

Категории отсутствуют.

(скачать список)

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

Xu — неизвестное слово или название
Xd — дата
Xc — время
Xp — начальные части композитов
Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
Xr — reference (значки ссылок, ™, ®, ©, *, ***)
Xs — separator (выражение, которое можно рассматривать как разделитель)
Xg — sign (плюс, минус, ‘+’)
Xt — trash (выражения, не подлежащие разбору)
X- — некоторые ошибки разбора, которые будут исправлены в будущем.

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Серебряный Cтандарт, версия 1.1

Опубликовано Среда Февраль 1st, 2017 автором shavrina

Добавить комментарий

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
На этой неделе мы рады представить вам новый релиз корпуса со снятой омонимией ГИКРЯ, который распространяется всем желающим на любые цели.
Так как традиция называть корпус «золотым стандартом» зарезервирована за материалами, выверенными вручную, мы подумали и решили…назвать его серебряным стандартом!

Объем корпуса, как и раньше, составляет 2 млн словоформ.
Источник: Живой Журнал

Наш морфологический стандарт

Техническое описание снятника

Что нового?

добавлены падежи предлогов;
значительно улучено разрешение омонимии предлогов и наречий;
исправлены отсутствующие метки композитов и знаки препинания;
изменен формат стандарта и добавлены новые граммемы;
более подробно: см. список изменений в версии 1.1.

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Техподдержка корпуса

Опубликовано Среда Ноябрь 2nd, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи корпуса!

Мы рады сообщить вам, что теперь для наискорейшей связи вы можете воспользоваться адресом нашей техподдержки: gicr.helpdesk@gmail.com

Просьба по всем техническим вопросам и проблемам, связанным с доступом к ГИКРЯ (корпус стал недоступен, не загружаются результаты, не понятен интерфейс и т.д.) писать по этому адресу — это обеспечит наискорейшую реакцию на возникшие неполадки и их устранение.

Команда ГИКРЯ

Осенний технический релиз

Опубликовано Вторник Октябрь 11th, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи Генерального интернет-корпуса!

%d0%be%d0%ba%d1%82%d1%8f%d0%b1%d1%80%d1%8c-%d1%80%d0%b5%d0%bb%d0%b8%d0%b7

С новым учебным годом приходят и новые задачи: в ГИКРЯ мы позаботились о том, чтобы в ваших исследованиях вы могли получать более надежные результаты.

Обновление этого октября:

➡Для каждого результата поиска Вы теперь можете получить подробную статистику и легко увидеть, нет ли смещений.

➡Можно настраивать точность поиска вручную: в меню «Настройки поиска» кнопки «Пуск» теперь можно задавать погрешность документной частоты.

Зачем это нужно?
Когда мы оцениваем частоту того или иного явления в большом корпусе, а также занимаемся сравнением полученных частот, мы должны понимать, что результат, полученный на случайных 20 млн слов из ЖЖ, может отличаться от результата, полученного на 50 млн слов из ЖЖ. Чтобы убедиться, что результаты надежны, на вкладке «анализ результатов» Вы можете увидеть реальный IPM, его погрешность, а также информацию о количестве документов, попавших в область поиска.

Поиск смещений: при нажатии на кнопку «запустить поиск смещений» строится таблица с % каждого атрибута (пол, возраст, регион автора и так далее) в найденных результатах и во всем корпусе. Таким образом мы можем убедиться, что полученный результат не смещен.

Проверка на однородность производится критерием хи-квадрат. В столбце «Хи-квадрат» выводится значение статистики этого критерия: если значение больше 3.8415, то это говорит о том, что гипотеза об однородности отклоняется с уровнем значимости 95%. Такие значения выделяются красным цветом. Если значение меньше, то — зеленым. Если результатов с данным значением атрибута меньше 5, то значение статистики не может гарантировать надежность результатов. Такие значения выделяются желтым цветом.

Мы открыты для ваших отзывов и предложений по новому функционалу! Пишите нам на geekrya@gmail.com

Приглашение к исследованию на базе ГИКРЯ

Опубликовано Четверг Сентябрь 22nd, 2016 автором shavrina

Добавить комментарий

Дорогие друзья!

С началом учебного года все мы задумываемся над темами новых исследований, а также темами курсовых и НИР.

Мы рады сообщить вам, что ГИКРЯ подготовил для всех желающих большое количество тем для мини-исследований, которые мы с удовольствием предлагаем для реализации на нашем корпусе!

Темы мини-исследований/курсовых/НИР для студентов и всех желающих на базе Генерального интернет-корпуса русского языка (ГИКРЯ):

Некоторые проблемы токенизации на электронных текстах: особенности дистрибуции знаков препинания на различных сегментах сети интернет.
Жанровые различия распределения пунктуаторов в сети интернет.
Корпусные эксперименты по дистрибуции:
1. Дистрибуция причастий и прилагательных
2. Дистрибуция кратких прилагательных, наречий и предикативов
3. Дистрибуция предлогов и наречий
4. Дистрибуция прилагательных и порядковых числительных
5. Дистрибуция арабских чисел и числительных – различия на соцсетях и нормативном русском языке.
6. Дистрибуция римских чисел и числительных – различия на соцсетях и нормативном русском языке.
7. Дистрибуция спорных категорий, поиск различий:
  1. разряды союзов (подчинительные, сочинительные)
  2. разряды частиц
  3. разряды предлогов
  4. составные предлоги: если ли различия в дистрибуции по сравнению с их составными частями (например, «несмотря на» и «несмотря» и «на»).
  5. междометия и звукоподражательные слова

Неологизмы в текстах сети интернет: жанровые различия на отдельных сегментах. Корпусное исследование.

Если Вас заинтересовала какая-либо тема, а также, возможно, у Вас есть свои идеи корпусных исследований, которые вы бы хотели провести на ГИКРЯ или дать своим студентам, пишите нам на почту: geekrya@gmail.com

Обновлена лицензия на золотой стандарт

Опубликовано Понедельник Июль 11th, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи ГИКРЯ, дорогие исследователи и все-все-все, кто интересуется новостями нашего корпуса!

Мы хотели бы отметить, что мы с радостью предоставляем интересующимся коллегам снятник ГИКРЯ, и в связи с участившимися заявками информируем, что мы бы хотели от этих исследований соблюдения следующих условий распространение снятника:

Снятник ГИКРЯ (далее «снятник») — корпус в 2 миллиона словоформ из Живого Журнала, с полностью автоматической разметкой, полученной в результате научной работы коллектива ГИКРЯ.

Снятник предоставляется бесплатно и на любые научные цели. Решение о выдаче снятника остается за правообладателем.

Тестовый корпус объемом 2 млн словоформ предоставляется адресно, по заявке, без права передачи третьим лицам или изменения содержания.

Корпус является тестовым, что значит, что мы будем премного благодарны за любые замечания по его разметке и содержанию, но также и можем исправлять любые найденные недочеты и заменять снятник в любой момент. Поэтому использование этого материала для всякой цели, кроме тестирования, не предусмотрено.

Использование и ссылка на стандарт для научных публикаций, проведения тестирований, evaluation и т.п. хотя и подразумевается в ближайшем будущем, но для данной версии не предусмотрено.

Доступен снятник ГИКРЯ, версия 1.0, Живой Журнал

Опубликовано Пятница Июнь 3rd, 2016 автором shavrina

Добавить комментарий

Дорогие коллеги!

Мы рады представить вам новый, открытый сегмент Генерального интернет-корпуса русского языка — корпус Живого Журнала с автоматически снятой неоднозначностью, размеченный в соответствии с новым форматом морфоразметки ГИКРЯ.

Здесь доступен демонстрационный вариант в 50.000 токенов:

Для скачивания доступны 2 миллиона словоформ (пожалуйста, обратитесь за ними по адресу geekrya@gmail.com), в дальнейшем мы собираемся увеличить этот объем за счет остальных сегментов ГИКРЯ (ВКонтакте, Блоги Mail.Ru, новостной корпус, Журнальный Зал).

Мы приглашаем разработчиков и исследователей использовать данный подкорпус для обучения собственных парсеров и улучшения существующих систем.

Материал: 2 миллиона словоформ из Живого Журнала (публикации пользователей и комментарии)
Разметка: Abbyy Compreno
Формат: MSD-GICR, обновленная версия известного позиционного тагсета, дополненная ранее нереализованными граммемами.

Пример разметки:

Словоформа [лемма] морфотег комментарий

Если [если] C #союз
хочешь [хотеть] V-ip2s-a-p-ym #глагол, личная форма, наст.вр., 2-е лицо, ед.ч., активный залог, несов., перех.
тусить [тусить] V-n—-a-p-nm #глагол, инфин., активный залог, несов., неперех.
—
туси [тусить] V-m-2s-a-p-nm #глагол, пов.накл., 2-е лицо, ед.ч., активный залог, несов., неперех.
.

Если [если] C #союз
хочешь [хотеть] V-ip2s-a-p-ym #глагол, личная форма, наст.вр., 2-е лицо, ед.ч., активный залог, несов., перех.
бухнуть [бухнуть] V-n—-a-e-ym #глагол, инфин., активный залог, соверш., перех.
—
бухни [бухнуть] V-m-2s-a-e-ym #глагол, пов.накл., 2-е лицо, ед.ч., активный залог, соверш., перех.

Новый тагсет MSD-GICR:

ГИКРЯ

Генеральный Интернет-Корпус Русского Языка

Архив рубрики: Новости

ГИКРЯ 2.0 на платформе НКРЯ

ГИКРЯ жив!

Серебряный Стандарт ГИКРЯ, версия 1.2

Морфологический стандарт MSD-Ru

Общие категории:

Существительное (N)

Прилагательное (A)

Глагол (V)

Наречие (R)

Предикатив (W)

Местоимение (P)

Числительное (M)

Предлог (S)

Союз (C)

Вводная конструкция (H)

Междометие (I)

Частица (Q)

Остальное (X)

Серебряный Cтандарт, версия 1.1

Техподдержка корпуса

Осенний технический релиз

Приглашение к исследованию на базе ГИКРЯ

Обновлена лицензия на золотой стандарт

Доступен снятник ГИКРЯ, версия 1.0, Живой Журнал