Ниже приводится подробное описание тагсета MSD-Ru.
- Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
- Начальный символ тега определяет часть речи.
- За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
- Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
- В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
- Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-Ru, заменив значения не используемых ими категорий на знак (+).
- Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.
Выделяемые части речи:
Общие категории:
- A1, R1 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная
- N2, A2, V2, P2, M2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
c : common — общий (для некоторых существительных)
— : undefined
- N3, A3, V3, P3, M3 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое существительное или прилагательное
— : undefined
- N4, A4, V4, P4, M4, S4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
v : vocative — звательный (только у существительных)
— : undefined
- V5, P5 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined
Категории по частям речи и их значения:
Существительное (N)
- N1 — Тип:
c : common — нарицательное
p : proper — нарицательное
- N2 — Род: m/f/n/c/-
Род не определён для pluralia tantum и N3=i (неизм. сущ).
- N3 — Число: s/p/i
- N4 — Падеж: n/g/d/a/i/l/v/-
Падеж не определён для N3=i (неизм. сущ).
- N5 — Дополнительный падеж:
p : partitive — второй родительный (партитив)
l : locative — второй предложный (локатив)
— : регулярная форма
- N6 — Одушевленность:
n : no — неодушевленное
y : yes — одушевенное
Прилагательное (A)
- A1 — Степень сравнения: p/c/s
- A2 — Род: m/f/n/-
Род не определён для A1=c, A3=p или A3=i (неизменяемое).
- A3 — Число: s/p/i/-
Число не определено для A1=c.
- A4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для A1=c, A3=i или A5=s.
- A5 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для A1=c)
Глагол (V)
- V1 — Грамматический тип:
i : indicative — изъявительное наклонение
m : imperative — повелительное наклонение
n : infinitive — инфинитив
g : gerund — деепричастие
p : participle — причастие
x : глагол «нет»
- V2 — Род: m/f/n/-
- V3 — Число: s/p/-
- V4 — Падеж причастия: n/g/d/a/i/l/-
Падеж определён только для причастий в полной форме.
- V5 — Лицо: 1/2/3/-
- V6 — Время:
s : past — прошедшее
p : present — настоящее
f : future — будущее
— : undefined (для V2=n или V2=m)
* : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
- V7 — Переходность:
n : no — непереходный
y : yes — переходный
- V8 — Залог:
a : active — активный
p : passive — пассивный
s : залог на -ся.
- V9 — Вид:
p : perfective — совершенный
i : imperfective — несовершенный
* : неопределимо (для некоторых парных и двувидовых глаголов)
- V10 — Парность:
m : monoaspectual — парный или моноаспектуальный
b : biaspectual — двувидовой
- V11 — Форма причастия:
s : short-art — краткая
f : full-art — полная
— : undefined
Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.
Наречие (R)
- R1 — Степень сравнения: p/c/s
(скачать список)
Предикатив (W)
(скачать список)
Местоимение (P)
- P1 — Разряд:
p : personal — личное
d : demonstrative — указательное
i : indefinite — неопределенное
s : possessive — посессивное
q : interrogative — вопросительное
x : reflexive — возвратное
z : negative — отрицательное
n : attributive — аттрибутивное
- P2 — Род: m/f/n/-
- P3 — Число: s/p/-
- P4 — Падеж: n/g/d/a/i/l
- P5 — Лицо: 1/2/3/-
- P6 — Синтаксический тип:
n : nominal
a : adjectival
p: predicative («всяк», «каков», «таков»)
r : adverbial
Числительное (M)
- M1 — Разряд:
c : cardinal — количественное
l : collect — собирательное
o : ordinal — порядковое
* : для чисел, записанных арабскими цифрами
- M2 — Род: m/f/n/-
- M3 — Число: s/p/-
- M4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для M5=d или M5=r
- M5 — Форма записи:
l : letter — буквенная
d : digit — арабскими цифрами
r : roman — римскими цифрами
Предлог (S)
- S1 — Тип:
p : preposition — предлог
t : postposition — послелог («назад», «тому_назад»)
- S2 — Структура:
s : simple — простой
с : compound — составной («невзирая», «несмотря»)
- S3 — категория зарезервирована
- S4 — Падеж управления: n/g/d/a/i/l/-
Падеж не определён для S2=c.
Падеж ‘n’ приписывается в случае второго винительного падежа
(скачать список)
Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья», «пойти в гости» и др.
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.
Союз (C)
(скачать список)
Вводная конструкция (H)
(скачать список)
Междометие (I)
(скачать список)
Частица (Q)
(скачать список)
Остальное (X)
Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.
- Xu — неизвестное слово или название
- Xd — дата
- Xc — время
- Xp — начальные части композитов
- Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
- Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
- Xr — reference (значки ссылок, ™, ®, ©, *, ***)
- Xs — separator (выражение, которое можно рассматривать как разделитель)
- Xg — sign (плюс, минус, ‘+’)
- Xt — trash (выражения, не подлежащие разбору)
- X- — некоторые ошибки разбора, которые будут исправлены в будущем.
Более подробно:
Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.
Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.