Ниже приводится подробное описание позиционного тагсета MSD-GICR.
- Стандарт MSD-GICR является устаревшей промежуточной версией, и мы не рекомендуем им пользоваться. Вместо этого мы предлагаем использовать улучшенный стандарт MSD-Ru.
- Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
- Начальный символ тега определяет часть речи.
- За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
- Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
- В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
- Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-GICR, заменив значения не используемых ими категорий на знак (+).
- Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.
Выделяемые части речи:
- N — Существительное (Noun)
- A — Прилагательное (Adjective)
- V — Глагол (Verb)
- R — Наречие (Adverb)
- W — Предикатив (Predicate)
- P — Местоимение (Pronoun)
- M — Числительное (Numeral)
- S — Предлог (Adposition)
- C — Союз (Conjunction)
- H — Вводная конструкция (Parenthesis)
- I — Междометие (Interjection)
- Q — Частица (Particle)
- X — Остальное (Residual)
Категории по частям речи и их значения:
Существительное (N)
- N1 — Тип:
c : common — нарицательное
p : proper — нарицательное - N2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
c : common — общий
— : undefined (для pluralia tantum и некоторых неизменяемых) - N3 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое существительное - N4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
v : vocative — звательный
— : undefined (для неизменяемых существительных) - N5 — Одушевленность:
n : no — неодушевленное
y : yes — одушевенное - N6 — Дополнительный падеж:
p : partitive — второй родительный (партитив)
l : locative — второй предложный (локатив)
— : undefined — регулярная форма
Прилагательное (A)
- A1 — категория зарезервирована
- A2 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная - A3 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined (для A4=p или A4=i или A2=c) - A4 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое прилагательное
— : undefined (для A2=c) - A5 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для A6=s или A2=c или A4=i) - A6 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для A2=c)
Глагол (V)
- V1 — категория зарезервирована
- V2 — Грамматический тип:
i : indicative — изъявительное наклонение
m : imperative — повелительное наклонение
n : infinitive — инфинитив
g : gerund — деепричастие
p : participle — причастие
x : глагол «нет» - V3 — Время:
s : past — прошедшее
p : present — настоящее
f : future — будущее
— : undefined (для V2=n или V2=m)
* : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов) - V4 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined (для V2=n или V2=g или V2=p или V2=x или V3=s) - V5 — Число:
s : singular — единственное
p : plural — множественное
— : undefined (для V2=n или V2=g или V2=x) - V6 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined - V7 — Залог:
a : active — активный
p : passive — пассивный
s : залог на -ся. - V8 — Форма причастия:
s : short-art — краткая
f : full-art — полная
— : undefined (для A2=c) - V9 — Вид:
e : perfective — совершенный
p : progressive — несовершенный
* : неопределимо (для некоторых парных и двувидовых глаголов) - V10 — Падеж причастия:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для V8=s) - V11 — Переходность:
n : no — непереходный
y : yes — переходный - V12 — Парность:
m : monoaspectual — парный или моноаспектуальный
b : biaspectual — двувидовой
Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.
Наречие (R)
- R1 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная
Предикатив (W)
- Категории отсутствуют.
Местоимение (P)
- P1 — Разряд:
p : personal — личное
d : demonstrative — указательное
i : indefinite — неопределенное
s : possessive — посессивное
q : interrogative — вопросительное
x : reflexive — возвратное
z : negative — отрицательное
n : attributive — аттрибутивное - P2 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined - P3 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined - P4 — Число:
s : singular — единственное
p : plural — множественное
— : undefined - P5 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный - P6 — Синтаксический тип:
n : nominal
a : adjectival
r : adverbial - P7 — категория зарезервирована
- P8 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для P6=n или P6=r)
Числительное (M)
- M1 — Разряд:
c : cardinal — количественное
l : collect — собирательное
o : ordinal — порядковое
* : для чисел, записанных арабскими цифрами - M2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined - M3 — Число:
s : singular — единственное
p : plural — множественное
— : undefined - M4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для M5=d или M5=r) - M5 — Форма записи:
l : letter — буквенная
d : digit — арабскими цифрами
r : roman — римскими цифрами
Предлог (S)
- S1 — Тип:
p : preposition — предлог
t : postposition — послелог («назад», «тому_назад») - S2 — Структура:
s : simple — простой
с : compound — составной («невзирая», «несмотря») - S3 — Падеж управления:
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
n : второй винительный
— : undefined (для S2=c)
Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья».
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.
Союз (C)
- Категории отсутствуют.
Вводная конструкция (H)
- Категории отсутствуют.
Междометие (I)
- Категории отсутствуют.
Частица (Q)
- Категории отсутствуют.
Остальное (X)
Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.
- Xu — неизвестное слово или название
- Xd — дата
- Xc — время
- Xp — начальные части композитов
- Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
- Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
- Xr — reference (значки ссылок, ™, ®, ©, *, ***)
- Xs — separator (выражение, которое можно рассматривать как разделитель)
- Xg — sign (плюс, минус, ‘+’)
- Xt — trash (выражения, не подлежащие разбору)
- X- — некоторые ошибки разбора, которые будут исправлены в будущем.
Более подробно:
Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.
Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.