Морфологический стандарт MSD-GICR

Ниже приводится подробное описание позиционного тагсета MSD-GICR.

  • Стандарт MSD-GICR является устаревшей промежуточной версией, и мы не рекомендуем им пользоваться. Вместо этого мы предлагаем использовать улучшенный стандарт MSD-Ru.
  • Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
  • Начальный символ тега определяет часть речи.
  • За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
  • Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
  • В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
  • Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-GICR, заменив значения не используемых ими категорий на знак (+).
  • Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

 

Выделяемые части речи:

Категории по частям речи и их значения:

Существительное (N)

  • N1 — Тип:
    c : common — нарицательное
    p : proper — нарицательное
  • N2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    c : common — общий
    — : undefined (для pluralia tantum и некоторых неизменяемых)
  • N3 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое существительное
  • N4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    v : vocative — звательный
    — : undefined (для неизменяемых существительных)
  • N5 — Одушевленность:
    n : no — неодушевленное
    y : yes — одушевенное
  • N6 — Дополнительный падеж:
    p : partitive — второй родительный (партитив)
    l : locative — второй предложный (локатив)
    — : undefined — регулярная форма

 

Прилагательное (A)

  • A1 — категория зарезервирована
  • A2 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная
  • A3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined (для A4=p или A4=i или A2=c)
  • A4 — Число:
    s : singular — единственное
    p : plural — множественное
    i : invariable — неизменяемое прилагательное
    — : undefined (для A2=c)
  • A5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для A6=s или A2=c или A4=i)
  • A6 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)

 

Глагол (V)

  • V1 — категория зарезервирована
  • V2 — Грамматический тип:
    i : indicative — изъявительное наклонение
    m : imperative — повелительное наклонение
    n : infinitive — инфинитив
    g : gerund — деепричастие
    p : participle — причастие
    x : глагол «нет»
  • V3 — Время:
    s : past — прошедшее
    p : present — настоящее
    f : future — будущее
    — : undefined (для V2=n или V2=m)
    * : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
  • V4 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined (для V2=n или V2=g или V2=p или V2=x или V3=s)
  • V5 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined (для V2=n или V2=g или V2=x)
  • V6 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • V7 — Залог:
    a : active — активный
    p : passive — пассивный
    s : залог на -ся.
  • V8 — Форма причастия:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для A2=c)
  • V9 — Вид:
    e : perfective — совершенный
    p : progressive — несовершенный
    * : неопределимо (для некоторых парных и двувидовых глаголов)
  • V10 — Падеж причастия:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для V8=s)
  • V11 — Переходность:
    n : no — непереходный
    y : yes — переходный
  • V12 — Парность:
    m : monoaspectual — парный или моноаспектуальный
    b : biaspectual — двувидовой

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

 

Наречие (R)

  • R1 — Степень сравнения:
    p : positive — позитивная
    c : comparative — сравнительная
    s : superlative — превосходная

(скачать список)

 

Предикатив (W)

  • Категории отсутствуют.

(скачать список)

 

Местоимение (P)

  • P1 — Разряд:
    p : personal — личное
    d : demonstrative — указательное
    i : indefinite — неопределенное
    s : possessive — посессивное
    q : interrogative — вопросительное
    x : reflexive — возвратное
    z : negative — отрицательное
    n : attributive — аттрибутивное
  • P2 — Лицо:
    1 : first — 1-е
    2 : second — 2-е
    3 : third — 3-е
    — : undefined
  • P3 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • P4 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • P5 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
  • P6 — Синтаксический тип:
    n : nominal
    a : adjectival
    r : adverbial
  • P7 — категория зарезервирована
  • P8 — Форма:
    s : short-art — краткая
    f : full-art — полная
    — : undefined (для P6=n или P6=r)

 

Числительное (M)

  • M1 — Разряд:
    c : cardinal — количественное
    l : collect — собирательное
    o : ordinal — порядковое
    * : для чисел, записанных арабскими цифрами
  • M2 — Род:
    m : masculine — мужской
    f : feminine — женский
    n : neuter — средний
    — : undefined
  • M3 — Число:
    s : singular — единственное
    p : plural — множественное
    — : undefined
  • M4 — Падеж:
    n : nominative — именительный
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    — : undefined (для M5=d или M5=r)
  • M5 — Форма записи:
    l : letter — буквенная
    d : digit — арабскими цифрами
    r : roman — римскими цифрами

 

Предлог (S)

  • S1 — Тип:
    p : preposition — предлог
    t : postposition — послелог («назад», «тому_назад»)
  • S2 — Структура:
    s : simple — простой
    с : compound — составной («невзирая», «несмотря»)
  • S3 — Падеж управления:
    g : genitive — родительный
    d : dative — дательный
    a : accusative — винительный
    i : instrumental — творительный
    l : locative — предложный
    n : второй винительный
    — : undefined (для S2=c)

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья».
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

 

Союз (C)

  • Категории отсутствуют.

(скачать список)

 

Вводная конструкция (H)

  • Категории отсутствуют.

(скачать список)

 

Междометие (I)

  • Категории отсутствуют.

(скачать список)

 

Частица (Q)

  • Категории отсутствуют.

(скачать список)

 

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

  • Xu — неизвестное слово или название
  • Xd — дата
  • Xc — время
  • Xp — начальные части композитов
  • Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
  • Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
  • Xr — reference (значки ссылок, ™, ®, ©, *, ***)
  • Xs — separator (выражение, которое можно рассматривать как разделитель)
  • Xg — sign (плюс, минус, ‘+’)
  • Xt — trash (выражения, не подлежащие разбору)
  • X- — некоторые ошибки разбора, которые будут исправлены в будущем.

 

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

 

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Серебряный Стандарт ГИКРЯ

Заметка

Техническое описание Серебряного Стандарта ГИКРЯ

 

1. Лицензия

  • Серебряный Стандарт ГИКРЯ — корпус в 2 миллиона словоформ из Живого Журнала, с полностью автоматической разметкой, полученной в результате научной работы коллектива ГИКРЯ.
  • Корпус предоставляется бесплатно на любые научные цели. Решение о выдаче остается за правообладателем. Предоставляется адресно, по заявке, без права передачи третьим лицам или изменения содержания.
  • Корпус является тестовым. Мы будем рады любым замечаниям по разметке и содержанию. В силу тестового характера мы оставляем за собой право менять состав и разметку корпуса. До выпуска первой официальной версии мы не рекомендуем использовать его для иных целей, кроме проведения экспериментов и тестирования.

2. Как скачать

Для того, чтобы скачать Серебряный Стандарт ГИКРЯ, необходимо обратиться по адресу geekrya@gmail.com с просьбой предоставить материал. В письме нужно указать, что Вы принимаете условия лицензирования материала. Желательно указать, какого рода исследованиями Вы занимаетесь.

Хронология версий и изменений.

Ссылка на скачивание демонстрационного варианта (пример разметки) 

3. Состав и общие характеристики

Корпус состоит из текстов, опубликованных в Живом Журнале и на сайте ВКонтакте. Тексты включают в себя как авторские публикации (ВК, ЖЖ), так и комментарии к ним (только ЖЖ). Корпус содержит 42147 текстов, что составляет 2001235 словоформ (ВК: 1140731 словоформ в 27892 текстах, ЖЖ: 860504 словоформ в 14255 текстах)

При отборе текстов для Серебряного Стандарта с целью фильтрации нерелевантных текстов, не являющихся авторскими (напр. рекламы), использовались следующие ограничения:

  • длинна текста — не менее 7 символов;
  • текст не содержит латиницу и URL, а также буквы, не являющиеся буквами русского алфавита (ограничение только для тестовой версии);
  • ЖЖ: исходный текст содержит не более 1 гиперссылки на другие ресурсы;
  • ВК: удалялись сообщения, оставленные распространёнными приложениями и играми;
  • ВК: удалялись сообщения, содержащие ссылки на других пользователей и группы ВКонтакте.

Для разметки текстов на первом этапе (включая токенизацию, морфологическую разметку с автоматическим снятием омонимии, лемматизацию и выявление опечаток) использовалась система анализа текста ABBYY Compreno. На втором этапе осуществлялась конвертация в морфологический стандарт MSD-GICR.

Состав корпуса по частям речи:

  • 566706 существительных
  • 145339 прилагательных
  • 327975 глаголов
  • 100382 наречий
  • 11332 предикативов
  • 301380 местоимения
  • 44942 числительных
  • 203826 предлог
  • 149197 союза
  • 8167 вводных конструкции
  • 6831 междометий
  • 82355 частиц
  • 52803 прочих токена

4. Текстовый формат

Корпус состоит из нескольких текстовых файлов, каждый из которых содержит множество текстов. Файлы записаны в кодировке utf8, перевод строк в соответствии с Windows/DOS форматом (CR+LF).

Каждый текст начинается с заголовочной строки следующего вида, содержащей идентификационные данные текста:

TEXTID=18968_1******************************77520000_1049.dat

Далее следует вертикальный текст, записанный в шесть колонок, разделённых символом табуляции. Для удобства визуального просмотра каждая колонка имеет минимальную ширину. Любое содержимое, занимающее меньшее пространство, дополняется справа пробелами. Каждая строка текста может быть одного из трёх типов.

  1. Строка, содержащая токен: словоформу, лемму и грамматическую метку:
    510000	0007	суперская          	[суперский]                	Apfsnf
  2. Строка, содержащая пунктуаторы:
    510027	   P	!"
  3. Пустая строка, обозначающая границу абзацев.

Колонки имеют следующий смысл:
1: id документа;
2: id токена в документе (нумерация с единицы), либо метка пунктуатора (‘P’);
3: словоформа или список пунктуаторов;
4: лемма;
5: грамматическая метка;
6: метка композита.

Словоформы и леммы, состоящие более, чем из одного слова, разделены символом ‘_’ вместо пробела (кроме токенов со специальными леммами, начинающихся с символа ‘#’, см. ниже).

5. Токены, словоформы и пунктуаторы

Для каждого токена третья колонка содержит словоформу, то есть неделимую единицу текста, подвергающуюся морфологическому анализу, в том виде, в котором она возникла в реальном тексте.

В некоторых исключительных случаях рядом стоящие слова в тексте обрабатываются как единый токен и имеют единую лемму и грамматическую метку; в этих случаях словоформа и лемма содержат внутри себя один или несколько знаков ‘_’ вместо пробелов между словами, из которых состоит токен.

В случае пунктуаторов третья колонка содержит список пунктуаторов, находящихся в соответствующем месте текста. Если в соответствующем месте текста находится несколько разных пунктуаторов, то их порядок в тексте может не соответствовать тому порядку, в котором они перечислены в третьей колонке. В случае сокращений и нумерованных списков («и_т._д.», «1)» точка и скобка являются частью словоформы, а не самостоятельными пунктуаторами.

Всевозможные знаки пунктуации унифицированы и приведены к одному из следующих (на символ ‘@’ заменяются эмотиконы):

. , : ; ! ? ?! - — ' " < > [ ] { } ( ) / | @ ...

6. Леммы

Для каждого токена лемма содержится в четвёртой колонке внутри квадратных скобок. Лемма представляет из себя начальную форму слова: для существительного это именительный падеж, ед. число, для прилагательного и причастия — именительный падеж мужского рода, ед.число, в полной форме и в положительной степени, для наречия — положительная степень, для финитной формы глагола и деепричастия — инфинитив, для порядковых числительных — именительный падеж мужского рода, ед.числа. Неизменяемые части речи заданы списком в описании формата (смотреть).

Особенности лемматизации:

  • парные глаголы («очаровать», «очаровывать») лемматизируются к начальной форме совершенного вида;
  • формы на «-ся» глаголов («очароваться», «очаровываться») лемматизируются к форме без «-ся», если она существует («очаровать»);
  • женские фамилии («Сидорова») лемматизируются к форме мужского рода («Сидоров»).

Некоторые токены особого вида, лемматизация которых не имеет смысла, имеют одну из следующих специальных лемм:

#Acronym
#Enumeration
#Expression
#ForeignWord
#Number
#PhoneNumber
#Reference
#RomanNumber
#TemplateExpression
#URL
#UnknownWord
#UntranslatableProperName
#=

7. Морфология

Пятая колонка содержит для каждого токена морфологический тег. Формат морфоразметки: MSD-Ru, обновленная версия известного позиционного тагсета, дополненная ранее нереализованными граммемами.

Подробное описание читайте здесь: морфологический стандарт MSD-Ru.

Пример разметки с пояснением:
textID    tokenID    cловоформа    [лемма]    морфотег    #пояснение

591827	0001	Если               	[если]                     	C            	#союз
591827	0002	хочешь             	[хотеть]                   	Vi-s-2pyaim-	#глагол, личная форма, ед.ч., 2-е лицо, наст.вр., перех., акт.залог, несов. 
591827	0003	тусить             	[тусить]                   	Vn-----naim-	#глагол, инфин., неперех., акт.залог, несов.
591827	   P	—
591827	0004	туси               	[тусить]                   	Vm-s-2-naim- 	#глагол, пов.накл., ед.ч., 2-е лицо, неперех., акт.залог, несов.
591827	   P	.

591827	0005	Если               	[если]                     	C            	
591827	0006	хочешь             	[хотеть]                   	Vi-s-2pyaim-
591827	0007	бухнуть            	[бухнуть]                  	Vn-----yapm-	#глагол, инфин., перех., акт.залог, соверш.
591827	   P	—
591827	0008	бухни              	[бухнуть]                  	Vm-s-2-yapm-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, соверш.
591827	   P	.

591827	0009	Только             	[только]                   	C            	
591827	0010	знай               	[знать]                    	Vm-s-2-yaim-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, несов.
591827	   P	,
591827	0011	что                	[что]                      	C            	
591827	0012	в                  	[в]                        	Sps-l         	#предлог, предложный падеж
591827	0013	конце              	[конец]                    	Ncmsl-n      	#сущ., нариц, муж., ед.ч., предл. падеж, неодуш.
591827	0014	пути               	[путь]                     	Ncmsg-n      	#сущ., нариц, муж., ед.ч., род. падеж, неодуш.

591827	0015	Понедельник        	[понедельник]              	Ncmsn-n      	
591827	   P	,
591827	0016	чёрт_побери        	[чёрт_побери]              	I            	#междометие
591827	   P	.

8. Композиты

В шестой колонке может находиться специальная метка, обозначающая начало (c-) и конец (c+) композита. Возможно, также, сочетание этих двух меток:

512971	0078	являющийся         	[явиться]                  	V-pp-smsfpanm	
512971	0079	производным        	[производное]              	Ncnsin-      	
512971	0080	пер                	[пер]                      	Xp           	c-
512971	0081	гидро              	[гидро]                    	Xp           	c-c+
512971	0082	цикло              	[цикло]                    	Xp           	c-c+
512971	0083	пентан             	[пентан]                   	Xp           	c-c+
512971	0084	фенантрена         	[фенантрен]                	Npmsgn-      	c+

9. Обратная связь

Мы будет рады получить любые пожелания, критику и замечания к нашему материалу. Свои пожелания можно направлять как лично участникам проекта, так и по адресу geekrya@gmail.com. При указании конкретного места в корпусе, пожалуйста, не забывайте про ID документа и токена.

10. Цитирование

Для того, чтобы сослаться на Серебряный Стандарт, пожалуйста, выбирайте статью: