Серебряный Стандарт ГИКРЯ, версия 1.2

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
Благодаря пожеланиям и замечаниям наших пользователей, мы устранили важный недостаток нашего материала, отфильтровав его от автоматически сгенерированных текстов и разнообразив жанровый состав. Представляем вам новый релиз корпуса со снятой омонимией ГИКРЯ — теперь это тексты ВКонтакте и ЖЖ!

  • Объем корпуса, как и раньше, составляет 2 млн словоформ.
    Источник: Живой Журнал и ВКонтакте

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

  • Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены следующим образом:
    ВКонтакте: 1140731 словоформ в 27892 текстах;
    ЖЖ: 860504 словоформ в 14255 текстах.
  • Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
  • Морфологический стандарт изменен, теперь это формат MSD-RU: в формате изменен порядок следования категорий в пользу большей системности. см. список изменений в версии 1.2.

 

Snyatnik12e

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Морфологический стандарт MSD-Ru

Ниже приводится подробное описание тагсета MSD-Ru.

  • Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
  • Начальный символ тега определяет часть речи.
  • За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
  • Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
  • В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
  • Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-Ru, заменив значения не используемых ими категорий на знак (+).
  • Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

 

Выделяемые части речи:

Общие категории:

  • A1, R1 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная
  • N2, A2, V2, P2, M2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    c : common — общий (для некоторых существительных)
    — : undefined
  • N3, A3, V3, P3, M3 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое существительное или прилагательное
    — : undefined
  • N4, A4, V4, P4, M4, S4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    v : vocative — звательный (только у существительных)
    — : undefined
  • V5, P5 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined

 

Категории по частям речи и их значения:

Существительное (N)

  • N1 — Тип:
    c : common — нарицательное
    p : proper — нарицательное
  • N2 — Род: m/f/n/c/-
    Род не определён для pluralia tantum и N3=i (неизм. сущ).
  • N3 — Число: s/p/i
  • N4 — Падеж: n/g/d/a/i/l/v/-
    Падеж не определён для N3=i (неизм. сущ).
  • N5 — Дополнительный падеж:
    p : partitive — второй родительный (партитив)
    l : locative — второй предложный (локатив)
    — : регулярная форма
  • N6 — Одушевленность:
    n : no — неодушевленное
    y : yes — одушевенное

 

Прилагательное (A)

  • A1 — Степень сравнения: p/c/s
  • A2 — Род: m/f/n/-
    Род не определён для A1=c, A3=p или A3=i (неизменяемое).
  • A3 — Число: s/p/i/-
    Число не определено для A1=c.
  • A4 — Падеж: n/g/d/a/i/l/-
    Падеж не определён для A1=c, A3=i или A5=s.
  • A5 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A1=c)

 

Глагол (V)

  • V1 — Грамматический тип:
    i : indicative — изъявительное наклонение
    m : imperative — повелительное наклонение
    n : infinitive — инфинитив
    g : gerund — деепричастие
    p : participle — причастие
    x : глагол «нет»
  • V2 — Род: m/f/n/-
  • V3 — Число: s/p/-
  • V4 — Падеж причастия: n/g/d/a/i/l/-
    Падеж определён только для причастий в полной форме.
  • V5 — Лицо: 1/2/3/-
  • V6 — Время:
    s : past — прошедшее
    p : present — настоящее
    f : future — будущее
    — : undefined (для V2=n или V2=m)
    * : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
  • V7 — Переходность:
    n : no — непереходный
    y : yes — переходный
  • V8 — Залог:
    a : active — активный
    p : passive — пассивный
    s : залог на -ся.
  • V9 — Вид:
    p : perfective — совершенный
    i : imperfective — несовершенный
    * : неопределимо (для некоторых парных и двувидовых глаголов)
  • V10 — Парность:
    m : monoaspectual — парный или моноаспектуальный
    b : biaspectual — двувидовой
  • V11 — Форма причастия:
    s : short-art — краткая
    f : full-art — полная
    — : undefined

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

 

Наречие (R)

  • R1 — Степень сравнения: p/c/s

(скачать список)

 

Предикатив (W)

  • Категории отсутствуют.

(скачать список)

 

Местоимение (P)

  • P1 — Разряд:
    p : personal — личное
    d : demonstrative — указательное
    i : indefinite — неопределенное
    s : possessive — посессивное
    q : interrogative — вопросительное
    x : reflexive — возвратное
    z : negative — отрицательное
    n : attributive — аттрибутивное
  • P2 — Род: m/f/n/-
  • P3 — Число: s/p/-
  • P4 — Падеж: n/g/d/a/i/l
  • P5 — Лицо: 1/2/3/-
  • P6 — Синтаксический тип:
    n : nominal
    a : adjectival
    p: predicative («всяк», «каков», «таков»)
    r : adverbial

 

Числительное (M)

  • M1 — Разряд:
    c : cardinal — количественное
    l : collect — собирательное
    o : ordinal — порядковое
    * : для чисел, записанных арабскими цифрами
  • M2 — Род: m/f/n/-
  • M3 — Число: s/p/-
  • M4 — Падеж: n/g/d/a/i/l/-
    Падеж не определён для M5=d или M5=r
  • M5 — Форма записи:
    l : letter — буквенная
    d : digit — арабскими цифрами
    r : roman — римскими цифрами

 

Предлог (S)

  • S1 — Тип:
    p : preposition — предлог
    t : postposition — послелог («назад», «тому_назад»)
  • S2 — Структура:
    s : simple — простой
    с : compound — составной («невзирая», «несмотря»)
  • S3 — категория зарезервирована
  • S4 — Падеж управления: n/g/d/a/i/l/-
    Падеж не определён для S2=c.
    Падеж ‘n’ приписывается в случае второго винительного падежа

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья», «пойти в гости» и др.
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

 

Союз (C)

  • Категории отсутствуют.

(скачать список)

 

Вводная конструкция (H)

  • Категории отсутствуют.

(скачать список)

 

Междометие (I)

  • Категории отсутствуют.

(скачать список)

 

Частица (Q)

  • Категории отсутствуют.

(скачать список)

 

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

  • Xu — неизвестное слово или название
  • Xd — дата
  • Xc — время
  • Xp — начальные части композитов
  • Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
  • Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
  • Xr — reference (значки ссылок, ™, ®, ©, *, ***)
  • Xs — separator (выражение, которое можно рассматривать как разделитель)
  • Xg — sign (плюс, минус, ‘+’)
  • Xt — trash (выражения, не подлежащие разбору)
  • X- — некоторые ошибки разбора, которые будут исправлены в будущем.

 

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

 

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Серебряный Cтандарт, версия 1.1

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
На этой неделе мы рады представить вам новый релиз корпуса со снятой омонимией ГИКРЯ, который распространяется всем желающим на любые цели.
Так как традиция называть корпус «золотым стандартом» зарезервирована за материалами, выверенными вручную, мы подумали и решили…назвать его серебряным стандартом!

  • Объем корпуса, как и раньше, составляет 2 млн словоформ.
    Источник: Живой Журнал

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

  • добавлены падежи предлогов;
  • значительно улучено разрешение омонимии предлогов и наречий;
  • исправлены отсутствующие метки композитов и знаки препинания;
  • изменен формат стандарта и добавлены новые граммемы;
  • более подробно: см. список изменений в версии 1.1.

снятник11

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Морфологический стандарт MSD-GICR

Ниже приводится подробное описание позиционного тагсета MSD-GICR.

  • Стандарт MSD-GICR является устаревшей промежуточной версией, и мы не рекомендуем им пользоваться. Вместо этого мы предлагаем использовать улучшенный стандарт MSD-Ru.
  • Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
  • Начальный символ тега определяет часть речи.
  • За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
  • Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
  • В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
  • Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-GICR, заменив значения не используемых ими категорий на знак (+).
  • Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

 

Выделяемые части речи:

Категории по частям речи и их значения:

Существительное (N)

  • N1 — Тип:
    c : common — нарицательное
    p : proper — нарицательное
  • N2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    c : common — общий
    — : undefined (для pluralia tantum и некоторых неизменяемых)
  • N3 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое существительное
  • N4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    v : vocative — звательный
    — : undefined (для неизменяемых существительных)
  • N5 — Одушевленность:
    n : no — неодушевленное
    y : yes — одушевенное
  • N6 — Дополнительный падеж:
    p : partitive — второй родительный (партитив)
    l : locative — второй предложный (локатив)
    — : undefined — регулярная форма

 

Прилагательное (A)

  • A1 — категория зарезервирована
  • A2 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная
  • A3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined (для A4=p или A4=i или A2=c)
  • A4 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое прилагательное
    — : undefined (для A2=c)
  • A5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для A6=s или A2=c или A4=i)
  • A6 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)

 

Глагол (V)

  • V1 — категория зарезервирована
  • V2 — Грамматический тип:
    i : indicative — изъявительное наклонение
    m : imperative — повелительное наклонение
    n : infinitive — инфинитив
    g : gerund — деепричастие
    p : participle — причастие
    x : глагол «нет»
  • V3 — Время:
    s : past — прошедшее
    p : present — настоящее
    f : future — будущее
    — : undefined (для V2=n или V2=m)
    * : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
  • V4 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined (для V2=n или V2=g или V2=p или V2=x или V3=s)
  • V5 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined (для V2=n или V2=g или V2=x)
  • V6 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • V7 — Залог:
    a : active — активный
    p : passive — пассивный
    s : залог на -ся.
  • V8 — Форма причастия:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)
  • V9 — Вид:
    e : perfective — совершенный
    p : progressive — несовершенный
    * : неопределимо (для некоторых парных и двувидовых глаголов)
  • V10 — Падеж причастия:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для V8=s)
  • V11 — Переходность:
    n : no — непереходный
    y : yes — переходный
  • V12 — Парность:
    m : monoaspectual — парный или моноаспектуальный
    b : biaspectual — двувидовой

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

 

Наречие (R)

  • R1 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная

(скачать список)

 

Предикатив (W)

  • Категории отсутствуют.

(скачать список)

 

Местоимение (P)

  • P1 — Разряд:
    p : personal — личное
    d : demonstrative — указательное
    i : indefinite — неопределенное
    s : possessive — посессивное
    q : interrogative — вопросительное
    x : reflexive — возвратное
    z : negative — отрицательное
    n : attributive — аттрибутивное
  • P2 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined
  • P3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • P4 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • P5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
  • P6 — Синтаксический тип:
    n : nominal
    a : adjectival
    r : adverbial
  • P7 — категория зарезервирована
  • P8 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для P6=n или P6=r)

 

Числительное (M)

  • M1 — Разряд:
    c : cardinal — количественное
    l : collect — собирательное
    o : ordinal — порядковое
    * : для чисел, записанных арабскими цифрами
  • M2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • M3 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • M4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для M5=d или M5=r)
  • M5 — Форма записи:
    l : letter — буквенная
    d : digit — арабскими цифрами
    r : roman — римскими цифрами

 

Предлог (S)

  • S1 — Тип:
    p : preposition — предлог
    t : postposition — послелог («назад», «тому_назад»)
  • S2 — Структура:
    s : simple — простой
    с : compound — составной («невзирая», «несмотря»)
  • S3 — Падеж управления:
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    n : второй винительный
    — : undefined (для S2=c)

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья».
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

 

Союз (C)

  • Категории отсутствуют.

(скачать список)

 

Вводная конструкция (H)

  • Категории отсутствуют.

(скачать список)

 

Междометие (I)

  • Категории отсутствуют.

(скачать список)

 

Частица (Q)

  • Категории отсутствуют.

(скачать список)

 

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

  • Xu — неизвестное слово или название
  • Xd — дата
  • Xc — время
  • Xp — начальные части композитов
  • Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
  • Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
  • Xr — reference (значки ссылок, ™, ®, ©, *, ***)
  • Xs — separator (выражение, которое можно рассматривать как разделитель)
  • Xg — sign (плюс, минус, ‘+’)
  • Xt — trash (выражения, не подлежащие разбору)
  • X- — некоторые ошибки разбора, которые будут исправлены в будущем.

 

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

 

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.