Техническое описание Серебряного Стандарта ГИКРЯ

Содержание:

Лицензия
Как скачать
Состав и общие характеристики
Текстовый формат
Токены, словоформы и пунктуаторы
Леммы
Морфология
Композиты
Обратная связь
Цитирование

1. Лицензия

Серебряный Стандарт ГИКРЯ — корпус в 2 миллиона словоформ из Живого Журнала, с полностью автоматической разметкой, полученной в результате научной работы коллектива ГИКРЯ.

Корпус предоставляется бесплатно на любые научные цели. Решение о выдаче остается за правообладателем. Предоставляется адресно, по заявке, без права передачи третьим лицам или изменения содержания.

Корпус является тестовым. Мы будем рады любым замечаниям по разметке и содержанию. В силу тестового характера мы оставляем за собой право менять состав и разметку корпуса. До выпуска первой официальной версии мы не рекомендуем использовать его для иных целей, кроме проведения экспериментов и тестирования.

2. Как скачать

Для того, чтобы скачать Серебряный Стандарт ГИКРЯ, необходимо обратиться по адресу geekrya@gmail.com с просьбой предоставить материал. В письме нужно указать, что Вы принимаете условия лицензирования материала. Желательно указать, какого рода исследованиями Вы занимаетесь.

Хронология версий и изменений.

Ссылка на скачивание демонстрационного варианта (пример разметки)

3. Состав и общие характеристики

Корпус состоит из текстов, опубликованных в Живом Журнале и на сайте ВКонтакте. Тексты включают в себя как авторские публикации (ВК, ЖЖ), так и комментарии к ним (только ЖЖ). Корпус содержит 42147 текстов, что составляет 2001235 словоформ (ВК: 1140731 словоформ в 27892 текстах, ЖЖ: 860504 словоформ в 14255 текстах)

При отборе текстов для Серебряного Стандарта с целью фильтрации нерелевантных текстов, не являющихся авторскими (напр. рекламы), использовались следующие ограничения:

длинна текста — не менее 7 символов;
текст не содержит латиницу и URL, а также буквы, не являющиеся буквами русского алфавита (ограничение только для тестовой версии);
ЖЖ: исходный текст содержит не более 1 гиперссылки на другие ресурсы;
ВК: удалялись сообщения, оставленные распространёнными приложениями и играми;
ВК: удалялись сообщения, содержащие ссылки на других пользователей и группы ВКонтакте.

Для разметки текстов на первом этапе (включая токенизацию, морфологическую разметку с автоматическим снятием омонимии, лемматизацию и выявление опечаток) использовалась система анализа текста ABBYY Compreno. На втором этапе осуществлялась конвертация в морфологический стандарт MSD-GICR.

Состав корпуса по частям речи:

566706 существительных
145339 прилагательных
327975 глаголов
100382 наречий
11332 предикативов
301380 местоимения
44942 числительных
203826 предлог
149197 союза
8167 вводных конструкции
6831 междометий
82355 частиц
52803 прочих токена

4. Текстовый формат

Корпус состоит из нескольких текстовых файлов, каждый из которых содержит множество текстов. Файлы записаны в кодировке utf8, перевод строк в соответствии с Windows/DOS форматом (CR+LF).

Каждый текст начинается с заголовочной строки следующего вида, содержащей идентификационные данные текста:

TEXTID=18968_1******************************77520000_1049.dat

Далее следует вертикальный текст, записанный в шесть колонок, разделённых символом табуляции. Для удобства визуального просмотра каждая колонка имеет минимальную ширину. Любое содержимое, занимающее меньшее пространство, дополняется справа пробелами. Каждая строка текста может быть одного из трёх типов.

Строка, содержащая токен: словоформу, лемму и грамматическую метку:
```
510000	0007	суперская          	[суперский]                	Apfsnf
```
Строка, содержащая пунктуаторы:
```
510027	   P	!"
```
Пустая строка, обозначающая границу абзацев.

Колонки имеют следующий смысл:
1: id документа;
2: id токена в документе (нумерация с единицы), либо метка пунктуатора (‘P’);
3: словоформа или список пунктуаторов;
4: лемма;
5: грамматическая метка;
6: метка композита.

Словоформы и леммы, состоящие более, чем из одного слова, разделены символом ‘_’ вместо пробела (кроме токенов со специальными леммами, начинающихся с символа ‘#’, см. ниже).

5. Токены, словоформы и пунктуаторы

Для каждого токена третья колонка содержит словоформу, то есть неделимую единицу текста, подвергающуюся морфологическому анализу, в том виде, в котором она возникла в реальном тексте.

В некоторых исключительных случаях рядом стоящие слова в тексте обрабатываются как единый токен и имеют единую лемму и грамматическую метку; в этих случаях словоформа и лемма содержат внутри себя один или несколько знаков ‘_’ вместо пробелов между словами, из которых состоит токен.

В случае пунктуаторов третья колонка содержит список пунктуаторов, находящихся в соответствующем месте текста. Если в соответствующем месте текста находится несколько разных пунктуаторов, то их порядок в тексте может не соответствовать тому порядку, в котором они перечислены в третьей колонке. В случае сокращений и нумерованных списков («и_т._д.», «1)» точка и скобка являются частью словоформы, а не самостоятельными пунктуаторами.

Всевозможные знаки пунктуации унифицированы и приведены к одному из следующих (на символ ‘@’ заменяются эмотиконы):

. , : ; ! ? ?! - — ' " < > [ ] { } ( ) / | @ ...

6. Леммы

Для каждого токена лемма содержится в четвёртой колонке внутри квадратных скобок. Лемма представляет из себя начальную форму слова: для существительного это именительный падеж, ед. число, для прилагательного и причастия — именительный падеж мужского рода, ед.число, в полной форме и в положительной степени, для наречия — положительная степень, для финитной формы глагола и деепричастия — инфинитив, для порядковых числительных — именительный падеж мужского рода, ед.числа. Неизменяемые части речи заданы списком в описании формата (смотреть).

Особенности лемматизации:

парные глаголы («очаровать», «очаровывать») лемматизируются к начальной форме совершенного вида;
формы на «-ся» глаголов («очароваться», «очаровываться») лемматизируются к форме без «-ся», если она существует («очаровать»);
женские фамилии («Сидорова») лемматизируются к форме мужского рода («Сидоров»).

Некоторые токены особого вида, лемматизация которых не имеет смысла, имеют одну из следующих специальных лемм:

#Acronym
#Enumeration
#Expression
#ForeignWord
#Number
#PhoneNumber
#Reference
#RomanNumber
#TemplateExpression
#URL
#UnknownWord
#UntranslatableProperName
#=

7. Морфология

Пятая колонка содержит для каждого токена морфологический тег. Формат морфоразметки: MSD-Ru, обновленная версия известного позиционного тагсета, дополненная ранее нереализованными граммемами.

Подробное описание читайте здесь: морфологический стандарт MSD-Ru.

Пример разметки с пояснением:
textID tokenID cловоформа [лемма] морфотег #пояснение

591827	0001	Если               	[если]                     	C            	#союз
591827	0002	хочешь             	[хотеть]                   	Vi-s-2pyaim-	#глагол, личная форма, ед.ч., 2-е лицо, наст.вр., перех., акт.залог, несов. 
591827	0003	тусить             	[тусить]                   	Vn-----naim-	#глагол, инфин., неперех., акт.залог, несов.
591827	   P	—
591827	0004	туси               	[тусить]                   	Vm-s-2-naim- 	#глагол, пов.накл., ед.ч., 2-е лицо, неперех., акт.залог, несов.
591827	   P	.

591827	0005	Если               	[если]                     	C            	
591827	0006	хочешь             	[хотеть]                   	Vi-s-2pyaim-
591827	0007	бухнуть            	[бухнуть]                  	Vn-----yapm-	#глагол, инфин., перех., акт.залог, соверш.
591827	   P	—
591827	0008	бухни              	[бухнуть]                  	Vm-s-2-yapm-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, соверш.
591827	   P	.

591827	0009	Только             	[только]                   	C            	
591827	0010	знай               	[знать]                    	Vm-s-2-yaim-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, несов.
591827	   P	,
591827	0011	что                	[что]                      	C            	
591827	0012	в                  	[в]                        	Sps-l         	#предлог, предложный падеж
591827	0013	конце              	[конец]                    	Ncmsl-n      	#сущ., нариц, муж., ед.ч., предл. падеж, неодуш.
591827	0014	пути               	[путь]                     	Ncmsg-n      	#сущ., нариц, муж., ед.ч., род. падеж, неодуш.

591827	0015	Понедельник        	[понедельник]              	Ncmsn-n      	
591827	   P	,
591827	0016	чёрт_побери        	[чёрт_побери]              	I            	#междометие
591827	   P	.

8. Композиты

В шестой колонке может находиться специальная метка, обозначающая начало (c-) и конец (c+) композита. Возможно, также, сочетание этих двух меток:

512971	0078	являющийся         	[явиться]                  	V-pp-smsfpanm	
512971	0079	производным        	[производное]              	Ncnsin-      	
512971	0080	пер                	[пер]                      	Xp           	c-
512971	0081	гидро              	[гидро]                    	Xp           	c-c+
512971	0082	цикло              	[цикло]                    	Xp           	c-c+
512971	0083	пентан             	[пентан]                   	Xp           	c-c+
512971	0084	фенантрена         	[фенантрен]                	Npmsgn-      	c+

9. Обратная связь

Мы будет рады получить любые пожелания, критику и замечания к нашему материалу. Свои пожелания можно направлять как лично участникам проекта, так и по адресу geekrya@gmail.com. При указании конкретного места в корпусе, пожалуйста, не забывайте про ID документа и токена.

10. Цитирование

Для того, чтобы сослаться на Серебряный Стандарт, пожалуйста, выбирайте статью:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

ГИКРЯ

Генеральный Интернет-Корпус Русского Языка

Серебряный Стандарт ГИКРЯ