Морфологический стандарт MSD-GICR

Ниже приводится подробное описание позиционного тагсета MSD-GICR.

  • Стандарт MSD-GICR является устаревшей промежуточной версией, и мы не рекомендуем им пользоваться. Вместо этого мы предлагаем использовать улучшенный стандарт MSD-Ru.
  • Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
  • Начальный символ тега определяет часть речи.
  • За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
  • Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
  • В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
  • Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-GICR, заменив значения не используемых ими категорий на знак (+).
  • Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

 

Выделяемые части речи:

Категории по частям речи и их значения:

Существительное (N)

  • N1 — Тип:
    c : common — нарицательное
    p : proper — нарицательное
  • N2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    c : common — общий
    — : undefined (для pluralia tantum и некоторых неизменяемых)
  • N3 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое существительное
  • N4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    v : vocative — звательный
    — : undefined (для неизменяемых существительных)
  • N5 — Одушевленность:
    n : no — неодушевленное
    y : yes — одушевенное
  • N6 — Дополнительный падеж:
    p : partitive — второй родительный (партитив)
    l : locative — второй предложный (локатив)
    — : undefined — регулярная форма

 

Прилагательное (A)

  • A1 — категория зарезервирована
  • A2 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная
  • A3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined (для A4=p или A4=i или A2=c)
  • A4 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое прилагательное
    — : undefined (для A2=c)
  • A5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для A6=s или A2=c или A4=i)
  • A6 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)

 

Глагол (V)

  • V1 — категория зарезервирована
  • V2 — Грамматический тип:
    i : indicative — изъявительное наклонение
    m : imperative — повелительное наклонение
    n : infinitive — инфинитив
    g : gerund — деепричастие
    p : participle — причастие
    x : глагол «нет»
  • V3 — Время:
    s : past — прошедшее
    p : present — настоящее
    f : future — будущее
    — : undefined (для V2=n или V2=m)
    * : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
  • V4 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined (для V2=n или V2=g или V2=p или V2=x или V3=s)
  • V5 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined (для V2=n или V2=g или V2=x)
  • V6 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • V7 — Залог:
    a : active — активный
    p : passive — пассивный
    s : залог на -ся.
  • V8 — Форма причастия:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)
  • V9 — Вид:
    e : perfective — совершенный
    p : progressive — несовершенный
    * : неопределимо (для некоторых парных и двувидовых глаголов)
  • V10 — Падеж причастия:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для V8=s)
  • V11 — Переходность:
    n : no — непереходный
    y : yes — переходный
  • V12 — Парность:
    m : monoaspectual — парный или моноаспектуальный
    b : biaspectual — двувидовой

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

 

Наречие (R)

  • R1 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная

(скачать список)

 

Предикатив (W)

  • Категории отсутствуют.

(скачать список)

 

Местоимение (P)

  • P1 — Разряд:
    p : personal — личное
    d : demonstrative — указательное
    i : indefinite — неопределенное
    s : possessive — посессивное
    q : interrogative — вопросительное
    x : reflexive — возвратное
    z : negative — отрицательное
    n : attributive — аттрибутивное
  • P2 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined
  • P3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • P4 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • P5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
  • P6 — Синтаксический тип:
    n : nominal
    a : adjectival
    r : adverbial
  • P7 — категория зарезервирована
  • P8 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для P6=n или P6=r)

 

Числительное (M)

  • M1 — Разряд:
    c : cardinal — количественное
    l : collect — собирательное
    o : ordinal — порядковое
    * : для чисел, записанных арабскими цифрами
  • M2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • M3 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • M4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для M5=d или M5=r)
  • M5 — Форма записи:
    l : letter — буквенная
    d : digit — арабскими цифрами
    r : roman — римскими цифрами

 

Предлог (S)

  • S1 — Тип:
    p : preposition — предлог
    t : postposition — послелог («назад», «тому_назад»)
  • S2 — Структура:
    s : simple — простой
    с : compound — составной («невзирая», «несмотря»)
  • S3 — Падеж управления:
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    n : второй винительный
    — : undefined (для S2=c)

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья».
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

 

Союз (C)

  • Категории отсутствуют.

(скачать список)

 

Вводная конструкция (H)

  • Категории отсутствуют.

(скачать список)

 

Междометие (I)

  • Категории отсутствуют.

(скачать список)

 

Частица (Q)

  • Категории отсутствуют.

(скачать список)

 

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

  • Xu — неизвестное слово или название
  • Xd — дата
  • Xc — время
  • Xp — начальные части композитов
  • Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
  • Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
  • Xr — reference (значки ссылок, ™, ®, ©, *, ***)
  • Xs — separator (выражение, которое можно рассматривать как разделитель)
  • Xg — sign (плюс, минус, ‘+’)
  • Xt — trash (выражения, не подлежащие разбору)
  • X- — некоторые ошибки разбора, которые будут исправлены в будущем.

 

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

 

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Поделитесь с коллегами!

Добавить комментарий