Морфологический стандарт MSD-Ru

Ниже приводится подробное описание тагсета MSD-Ru.

  • Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
  • Начальный символ тега определяет часть речи.
  • За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
  • Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
  • В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
  • Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-Ru, заменив значения не используемых ими категорий на знак (+).
  • Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

 

Выделяемые части речи:

Общие категории:

  • A1, R1 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная
  • N2, A2, V2, P2, M2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    c : common — общий (для некоторых существительных)
    — : undefined
  • N3, A3, V3, P3, M3 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое существительное или прилагательное
    — : undefined
  • N4, A4, V4, P4, M4, S4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    v : vocative — звательный (только у существительных)
    — : undefined
  • V5, P5 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined

 

Категории по частям речи и их значения:

Существительное (N)

  • N1 — Тип:
    c : common — нарицательное
    p : proper — нарицательное
  • N2 — Род: m/f/n/c/-
    Род не определён для pluralia tantum и N3=i (неизм. сущ).
  • N3 — Число: s/p/i
  • N4 — Падеж: n/g/d/a/i/l/v/-
    Падеж не определён для N3=i (неизм. сущ).
  • N5 — Дополнительный падеж:
    p : partitive — второй родительный (партитив)
    l : locative — второй предложный (локатив)
    — : регулярная форма
  • N6 — Одушевленность:
    n : no — неодушевленное
    y : yes — одушевенное

 

Прилагательное (A)

  • A1 — Степень сравнения: p/c/s
  • A2 — Род: m/f/n/-
    Род не определён для A1=c, A3=p или A3=i (неизменяемое).
  • A3 — Число: s/p/i/-
    Число не определено для A1=c.
  • A4 — Падеж: n/g/d/a/i/l/-
    Падеж не определён для A1=c, A3=i или A5=s.
  • A5 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A1=c)

 

Глагол (V)

  • V1 — Грамматический тип:
    i : indicative — изъявительное наклонение
    m : imperative — повелительное наклонение
    n : infinitive — инфинитив
    g : gerund — деепричастие
    p : participle — причастие
    x : глагол «нет»
  • V2 — Род: m/f/n/-
  • V3 — Число: s/p/-
  • V4 — Падеж причастия: n/g/d/a/i/l/-
    Падеж определён только для причастий в полной форме.
  • V5 — Лицо: 1/2/3/-
  • V6 — Время:
    s : past — прошедшее
    p : present — настоящее
    f : future — будущее
    — : undefined (для V2=n или V2=m)
    * : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
  • V7 — Переходность:
    n : no — непереходный
    y : yes — переходный
  • V8 — Залог:
    a : active — активный
    p : passive — пассивный
    s : залог на -ся.
  • V9 — Вид:
    p : perfective — совершенный
    i : imperfective — несовершенный
    * : неопределимо (для некоторых парных и двувидовых глаголов)
  • V10 — Парность:
    m : monoaspectual — парный или моноаспектуальный
    b : biaspectual — двувидовой
  • V11 — Форма причастия:
    s : short-art — краткая
    f : full-art — полная
    — : undefined

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

 

Наречие (R)

  • R1 — Степень сравнения: p/c/s

(скачать список)

 

Предикатив (W)

  • Категории отсутствуют.

(скачать список)

 

Местоимение (P)

  • P1 — Разряд:
    p : personal — личное
    d : demonstrative — указательное
    i : indefinite — неопределенное
    s : possessive — посессивное
    q : interrogative — вопросительное
    x : reflexive — возвратное
    z : negative — отрицательное
    n : attributive — аттрибутивное
  • P2 — Род: m/f/n/-
  • P3 — Число: s/p/-
  • P4 — Падеж: n/g/d/a/i/l
  • P5 — Лицо: 1/2/3/-
  • P6 — Синтаксический тип:
    n : nominal
    a : adjectival
    p: predicative («всяк», «каков», «таков»)
    r : adverbial

 

Числительное (M)

  • M1 — Разряд:
    c : cardinal — количественное
    l : collect — собирательное
    o : ordinal — порядковое
    * : для чисел, записанных арабскими цифрами
  • M2 — Род: m/f/n/-
  • M3 — Число: s/p/-
  • M4 — Падеж: n/g/d/a/i/l/-
    Падеж не определён для M5=d или M5=r
  • M5 — Форма записи:
    l : letter — буквенная
    d : digit — арабскими цифрами
    r : roman — римскими цифрами

 

Предлог (S)

  • S1 — Тип:
    p : preposition — предлог
    t : postposition — послелог («назад», «тому_назад»)
  • S2 — Структура:
    s : simple — простой
    с : compound — составной («невзирая», «несмотря»)
  • S3 — категория зарезервирована
  • S4 — Падеж управления: n/g/d/a/i/l/-
    Падеж не определён для S2=c.
    Падеж ‘n’ приписывается в случае второго винительного падежа

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья», «пойти в гости» и др.
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

 

Союз (C)

  • Категории отсутствуют.

(скачать список)

 

Вводная конструкция (H)

  • Категории отсутствуют.

(скачать список)

 

Междометие (I)

  • Категории отсутствуют.

(скачать список)

 

Частица (Q)

  • Категории отсутствуют.

(скачать список)

 

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

  • Xu — неизвестное слово или название
  • Xd — дата
  • Xc — время
  • Xp — начальные части композитов
  • Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
  • Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
  • Xr — reference (значки ссылок, ™, ®, ©, *, ***)
  • Xs — separator (выражение, которое можно рассматривать как разделитель)
  • Xg — sign (плюс, минус, ‘+’)
  • Xt — trash (выражения, не подлежащие разбору)
  • X- — некоторые ошибки разбора, которые будут исправлены в будущем.

 

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

 

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Поделитесь с коллегами!

Добавить комментарий