Серебряный Стандарт ГИКРЯ, версия 1.2

Опубликовано Вторник Февраль 28th, 2017 автором shavrina

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
Благодаря пожеланиям и замечаниям наших пользователей, мы устранили важный недостаток нашего материала, отфильтровав его от автоматически сгенерированных текстов и разнообразив жанровый состав. Представляем вам новый релиз корпуса со снятой омонимией ГИКРЯ — теперь это тексты ВКонтакте и ЖЖ!

Объем корпуса, как и раньше, составляет 2 млн словоформ.
Источник: Живой Журнал и ВКонтакте

Омонимия на уровне морфологической разметки снимается технологиями Abbyy Compreno и нашими собственными разработками.
Материал подходит для нужд машинного обучения, и является уникальным ресурсом для тех, кто хочет обучать парсеры для соцсетей на размеченных данных.

Наш морфологический стандарт

Техническое описание снятника

Что нового?

Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены следующим образом:
ВКонтакте: 1140731 словоформ в 27892 текстах;
ЖЖ: 860504 словоформ в 14255 текстах.
Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
Морфологический стандарт изменен, теперь это формат MSD-RU: в формате изменен порядок следования категорий в пользу большей системности. см. список изменений в версии 1.2.

Snyatnik12e

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Серебряный Cтандарт, версия 1.1

Опубликовано Среда Февраль 1st, 2017 автором shavrina

Добавить комментарий

Дорогие коллеги и пользователи корпуса!

Мы в ГИКРЯ все время работаем над тем, чтобы качество разметки нашего корпуса становилось лучше и точнее.
На этой неделе мы рады представить вам новый релиз корпуса со снятой омонимией ГИКРЯ, который распространяется всем желающим на любые цели.
Так как традиция называть корпус «золотым стандартом» зарезервирована за материалами, выверенными вручную, мы подумали и решили…назвать его серебряным стандартом!

Объем корпуса, как и раньше, составляет 2 млн словоформ.
Источник: Живой Журнал

Наш морфологический стандарт

Техническое описание снятника

Что нового?

добавлены падежи предлогов;
значительно улучено разрешение омонимии предлогов и наречий;
исправлены отсутствующие метки композитов и знаки препинания;
изменен формат стандарта и добавлены новые граммемы;
более подробно: см. список изменений в версии 1.1.

Для ознакомления с форматом данных Вы можете скачать демонстрационный вариант тут.

Для получения полной версии серебряного стандарта (2 млн словоформ), обратитесь по адресу geekrya@gmail.com

Морфологический стандарт MSD-GICR

Опубликовано Среда Февраль 1st, 2017 автором shavrina

Добавить комментарий

Ниже приводится подробное описание позиционного тагсета MSD-GICR.

Стандарт MSD-GICR является устаревшей промежуточной версией, и мы не рекомендуем им пользоваться. Вместо этого мы предлагаем использовать улучшенный стандарт MSD-Ru.
Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
Начальный символ тега определяет часть речи.
За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-GICR, заменив значения не используемых ими категорий на знак (+).
Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.

Выделяемые части речи:

N — Существительное (Noun)
A — Прилагательное (Adjective)
V — Глагол (Verb)
R — Наречие (Adverb)
W — Предикатив (Predicate)
P — Местоимение (Pronoun)
M — Числительное (Numeral)
S — Предлог (Adposition)
C — Союз (Conjunction)
H — Вводная конструкция (Parenthesis)
I — Междометие (Interjection)
Q — Частица (Particle)
X — Остальное (Residual)

Категории по частям речи и их значения:

Существительное (N)

N1 — Тип:
c : common — нарицательное
p : proper — нарицательное
N2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
c : common — общий
— : undefined (для pluralia tantum и некоторых неизменяемых)
N3 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое существительное
N4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
v : vocative — звательный
— : undefined (для неизменяемых существительных)
N5 — Одушевленность:
n : no — неодушевленное
y : yes — одушевенное
N6 — Дополнительный падеж:
p : partitive — второй родительный (партитив)
l : locative — второй предложный (локатив)
— : undefined — регулярная форма

Прилагательное (A)

A1 — категория зарезервирована
A2 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная
A3 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined (для A4=p или A4=i или A2=c)
A4 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое прилагательное
— : undefined (для A2=c)
A5 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для A6=s или A2=c или A4=i)
A6 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для A2=c)

Глагол (V)

V1 — категория зарезервирована
V2 — Грамматический тип:
i : indicative — изъявительное наклонение
m : imperative — повелительное наклонение
n : infinitive — инфинитив
g : gerund — деепричастие
p : participle — причастие
x : глагол «нет»
V3 — Время:
s : past — прошедшее
p : present — настоящее
f : future — будущее
— : undefined (для V2=n или V2=m)
* : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов)
V4 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined (для V2=n или V2=g или V2=p или V2=x или V3=s)
V5 — Число:
s : singular — единственное
p : plural — множественное
— : undefined (для V2=n или V2=g или V2=x)
V6 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined
V7 — Залог:
a : active — активный
p : passive — пассивный
s : залог на -ся.
V8 — Форма причастия:
s : short-art — краткая
f : full-art — полная
— : undefined (для A2=c)
V9 — Вид:
e : perfective — совершенный
p : progressive — несовершенный
* : неопределимо (для некоторых парных и двувидовых глаголов)
V10 — Падеж причастия:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для V8=s)
V11 — Переходность:
n : no — непереходный
y : yes — переходный
V12 — Парность:
m : monoaspectual — парный или моноаспектуальный
b : biaspectual — двувидовой

Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.

Наречие (R)

R1 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная

(скачать список)

Предикатив (W)

Категории отсутствуют.

(скачать список)

Местоимение (P)

P1 — Разряд:
p : personal — личное
d : demonstrative — указательное
i : indefinite — неопределенное
s : possessive — посессивное
q : interrogative — вопросительное
x : reflexive — возвратное
z : negative — отрицательное
n : attributive — аттрибутивное
P2 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined
P3 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined
P4 — Число:
s : singular — единственное
p : plural — множественное
— : undefined
P5 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
P6 — Синтаксический тип:
n : nominal
a : adjectival
r : adverbial
P7 — категория зарезервирована
P8 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для P6=n или P6=r)

Числительное (M)

M1 — Разряд:
c : cardinal — количественное
l : collect — собирательное
o : ordinal — порядковое
* : для чисел, записанных арабскими цифрами
M2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
— : undefined
M3 — Число:
s : singular — единственное
p : plural — множественное
— : undefined
M4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
— : undefined (для M5=d или M5=r)
M5 — Форма записи:
l : letter — буквенная
d : digit — арабскими цифрами
r : roman — римскими цифрами

Предлог (S)

S1 — Тип:
p : preposition — предлог
t : postposition — послелог («назад», «тому_назад»)
S2 — Структура:
s : simple — простой
с : compound — составной («невзирая», «несмотря»)
S3 — Падеж управления:
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
n : второй винительный
— : undefined (для S2=c)

(скачать список)

Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья».
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.

Союз (C)

Категории отсутствуют.

(скачать список)

Вводная конструкция (H)

Категории отсутствуют.

(скачать список)

Междометие (I)

Категории отсутствуют.

(скачать список)

Частица (Q)

Категории отсутствуют.

(скачать список)

Остальное (X)

Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.

Xu — неизвестное слово или название
Xd — дата
Xc — время
Xp — начальные части композитов
Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
Xr — reference (значки ссылок, ™, ®, ©, *, ***)
Xs — separator (выражение, которое можно рассматривать как разделитель)
Xg — sign (плюс, минус, ‘+’)
Xt — trash (выражения, не подлежащие разбору)
X- — некоторые ошибки разбора, которые будут исправлены в будущем.

Более подробно:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.

Серебряный Стандарт ГИКРЯ

Заметка

Добавить комментарий

Техническое описание Серебряного Стандарта ГИКРЯ

Содержание:

Лицензия
Как скачать
Состав и общие характеристики
Текстовый формат
Токены, словоформы и пунктуаторы
Леммы
Морфология
Композиты
Обратная связь
Цитирование

1. Лицензия

Серебряный Стандарт ГИКРЯ — корпус в 2 миллиона словоформ из Живого Журнала, с полностью автоматической разметкой, полученной в результате научной работы коллектива ГИКРЯ.

Корпус предоставляется бесплатно на любые научные цели. Решение о выдаче остается за правообладателем. Предоставляется адресно, по заявке, без права передачи третьим лицам или изменения содержания.

Корпус является тестовым. Мы будем рады любым замечаниям по разметке и содержанию. В силу тестового характера мы оставляем за собой право менять состав и разметку корпуса. До выпуска первой официальной версии мы не рекомендуем использовать его для иных целей, кроме проведения экспериментов и тестирования.

2. Как скачать

Для того, чтобы скачать Серебряный Стандарт ГИКРЯ, необходимо обратиться по адресу geekrya@gmail.com с просьбой предоставить материал. В письме нужно указать, что Вы принимаете условия лицензирования материала. Желательно указать, какого рода исследованиями Вы занимаетесь.

Хронология версий и изменений.

Ссылка на скачивание демонстрационного варианта (пример разметки)

3. Состав и общие характеристики

Корпус состоит из текстов, опубликованных в Живом Журнале и на сайте ВКонтакте. Тексты включают в себя как авторские публикации (ВК, ЖЖ), так и комментарии к ним (только ЖЖ). Корпус содержит 42147 текстов, что составляет 2001235 словоформ (ВК: 1140731 словоформ в 27892 текстах, ЖЖ: 860504 словоформ в 14255 текстах)

При отборе текстов для Серебряного Стандарта с целью фильтрации нерелевантных текстов, не являющихся авторскими (напр. рекламы), использовались следующие ограничения:

длинна текста — не менее 7 символов;
текст не содержит латиницу и URL, а также буквы, не являющиеся буквами русского алфавита (ограничение только для тестовой версии);
ЖЖ: исходный текст содержит не более 1 гиперссылки на другие ресурсы;
ВК: удалялись сообщения, оставленные распространёнными приложениями и играми;
ВК: удалялись сообщения, содержащие ссылки на других пользователей и группы ВКонтакте.

Для разметки текстов на первом этапе (включая токенизацию, морфологическую разметку с автоматическим снятием омонимии, лемматизацию и выявление опечаток) использовалась система анализа текста ABBYY Compreno. На втором этапе осуществлялась конвертация в морфологический стандарт MSD-GICR.

Состав корпуса по частям речи:

566706 существительных
145339 прилагательных
327975 глаголов
100382 наречий
11332 предикативов
301380 местоимения
44942 числительных
203826 предлог
149197 союза
8167 вводных конструкции
6831 междометий
82355 частиц
52803 прочих токена

4. Текстовый формат

Корпус состоит из нескольких текстовых файлов, каждый из которых содержит множество текстов. Файлы записаны в кодировке utf8, перевод строк в соответствии с Windows/DOS форматом (CR+LF).

Каждый текст начинается с заголовочной строки следующего вида, содержащей идентификационные данные текста:

TEXTID=18968_1******************************77520000_1049.dat

Далее следует вертикальный текст, записанный в шесть колонок, разделённых символом табуляции. Для удобства визуального просмотра каждая колонка имеет минимальную ширину. Любое содержимое, занимающее меньшее пространство, дополняется справа пробелами. Каждая строка текста может быть одного из трёх типов.

Строка, содержащая токен: словоформу, лемму и грамматическую метку:
```
510000	0007	суперская          	[суперский]                	Apfsnf
```
Строка, содержащая пунктуаторы:
```
510027	   P	!"
```
Пустая строка, обозначающая границу абзацев.

Колонки имеют следующий смысл:
1: id документа;
2: id токена в документе (нумерация с единицы), либо метка пунктуатора (‘P’);
3: словоформа или список пунктуаторов;
4: лемма;
5: грамматическая метка;
6: метка композита.

Словоформы и леммы, состоящие более, чем из одного слова, разделены символом ‘_’ вместо пробела (кроме токенов со специальными леммами, начинающихся с символа ‘#’, см. ниже).

5. Токены, словоформы и пунктуаторы

Для каждого токена третья колонка содержит словоформу, то есть неделимую единицу текста, подвергающуюся морфологическому анализу, в том виде, в котором она возникла в реальном тексте.

В некоторых исключительных случаях рядом стоящие слова в тексте обрабатываются как единый токен и имеют единую лемму и грамматическую метку; в этих случаях словоформа и лемма содержат внутри себя один или несколько знаков ‘_’ вместо пробелов между словами, из которых состоит токен.

В случае пунктуаторов третья колонка содержит список пунктуаторов, находящихся в соответствующем месте текста. Если в соответствующем месте текста находится несколько разных пунктуаторов, то их порядок в тексте может не соответствовать тому порядку, в котором они перечислены в третьей колонке. В случае сокращений и нумерованных списков («и_т._д.», «1)» точка и скобка являются частью словоформы, а не самостоятельными пунктуаторами.

Всевозможные знаки пунктуации унифицированы и приведены к одному из следующих (на символ ‘@’ заменяются эмотиконы):

. , : ; ! ? ?! - — ' " < > [ ] { } ( ) / | @ ...

6. Леммы

Для каждого токена лемма содержится в четвёртой колонке внутри квадратных скобок. Лемма представляет из себя начальную форму слова: для существительного это именительный падеж, ед. число, для прилагательного и причастия — именительный падеж мужского рода, ед.число, в полной форме и в положительной степени, для наречия — положительная степень, для финитной формы глагола и деепричастия — инфинитив, для порядковых числительных — именительный падеж мужского рода, ед.числа. Неизменяемые части речи заданы списком в описании формата (смотреть).

Особенности лемматизации:

парные глаголы («очаровать», «очаровывать») лемматизируются к начальной форме совершенного вида;
формы на «-ся» глаголов («очароваться», «очаровываться») лемматизируются к форме без «-ся», если она существует («очаровать»);
женские фамилии («Сидорова») лемматизируются к форме мужского рода («Сидоров»).

Некоторые токены особого вида, лемматизация которых не имеет смысла, имеют одну из следующих специальных лемм:

#Acronym
#Enumeration
#Expression
#ForeignWord
#Number
#PhoneNumber
#Reference
#RomanNumber
#TemplateExpression
#URL
#UnknownWord
#UntranslatableProperName
#=

7. Морфология

Пятая колонка содержит для каждого токена морфологический тег. Формат морфоразметки: MSD-Ru, обновленная версия известного позиционного тагсета, дополненная ранее нереализованными граммемами.

Подробное описание читайте здесь: морфологический стандарт MSD-Ru.

Пример разметки с пояснением:
textID tokenID cловоформа [лемма] морфотег #пояснение

591827	0001	Если               	[если]                     	C            	#союз
591827	0002	хочешь             	[хотеть]                   	Vi-s-2pyaim-	#глагол, личная форма, ед.ч., 2-е лицо, наст.вр., перех., акт.залог, несов. 
591827	0003	тусить             	[тусить]                   	Vn-----naim-	#глагол, инфин., неперех., акт.залог, несов.
591827	   P	—
591827	0004	туси               	[тусить]                   	Vm-s-2-naim- 	#глагол, пов.накл., ед.ч., 2-е лицо, неперех., акт.залог, несов.
591827	   P	.

591827	0005	Если               	[если]                     	C            	
591827	0006	хочешь             	[хотеть]                   	Vi-s-2pyaim-
591827	0007	бухнуть            	[бухнуть]                  	Vn-----yapm-	#глагол, инфин., перех., акт.залог, соверш.
591827	   P	—
591827	0008	бухни              	[бухнуть]                  	Vm-s-2-yapm-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, соверш.
591827	   P	.

591827	0009	Только             	[только]                   	C            	
591827	0010	знай               	[знать]                    	Vm-s-2-yaim-	#глагол, пов.накл., ед.ч., 2-е лицо, перех., акт.залог, несов.
591827	   P	,
591827	0011	что                	[что]                      	C            	
591827	0012	в                  	[в]                        	Sps-l         	#предлог, предложный падеж
591827	0013	конце              	[конец]                    	Ncmsl-n      	#сущ., нариц, муж., ед.ч., предл. падеж, неодуш.
591827	0014	пути               	[путь]                     	Ncmsg-n      	#сущ., нариц, муж., ед.ч., род. падеж, неодуш.

591827	0015	Понедельник        	[понедельник]              	Ncmsn-n      	
591827	   P	,
591827	0016	чёрт_побери        	[чёрт_побери]              	I            	#междометие
591827	   P	.

8. Композиты

В шестой колонке может находиться специальная метка, обозначающая начало (c-) и конец (c+) композита. Возможно, также, сочетание этих двух меток:

512971	0078	являющийся         	[явиться]                  	V-pp-smsfpanm	
512971	0079	производным        	[производное]              	Ncnsin-      	
512971	0080	пер                	[пер]                      	Xp           	c-
512971	0081	гидро              	[гидро]                    	Xp           	c-c+
512971	0082	цикло              	[цикло]                    	Xp           	c-c+
512971	0083	пентан             	[пентан]                   	Xp           	c-c+
512971	0084	фенантрена         	[фенантрен]                	Npmsgn-      	c+

9. Обратная связь

Мы будет рады получить любые пожелания, критику и замечания к нашему материалу. Свои пожелания можно направлять как лично участникам проекта, так и по адресу geekrya@gmail.com. При указании конкретного места в корпусе, пожалуйста, не забывайте про ID документа и токена.

10. Цитирование

Для того, чтобы сослаться на Серебряный Стандарт, пожалуйста, выбирайте статью:

Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.

Техподдержка корпуса

Опубликовано Среда Ноябрь 2nd, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи корпуса!

Мы рады сообщить вам, что теперь для наискорейшей связи вы можете воспользоваться адресом нашей техподдержки: gicr.helpdesk@gmail.com

Просьба по всем техническим вопросам и проблемам, связанным с доступом к ГИКРЯ (корпус стал недоступен, не загружаются результаты, не понятен интерфейс и т.д.) писать по этому адресу — это обеспечит наискорейшую реакцию на возникшие неполадки и их устранение.

Команда ГИКРЯ

Осенний технический релиз

Опубликовано Вторник Октябрь 11th, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи Генерального интернет-корпуса!

%d0%be%d0%ba%d1%82%d1%8f%d0%b1%d1%80%d1%8c-%d1%80%d0%b5%d0%bb%d0%b8%d0%b7

С новым учебным годом приходят и новые задачи: в ГИКРЯ мы позаботились о том, чтобы в ваших исследованиях вы могли получать более надежные результаты.

Обновление этого октября:

➡Для каждого результата поиска Вы теперь можете получить подробную статистику и легко увидеть, нет ли смещений.

➡Можно настраивать точность поиска вручную: в меню «Настройки поиска» кнопки «Пуск» теперь можно задавать погрешность документной частоты.

Зачем это нужно?
Когда мы оцениваем частоту того или иного явления в большом корпусе, а также занимаемся сравнением полученных частот, мы должны понимать, что результат, полученный на случайных 20 млн слов из ЖЖ, может отличаться от результата, полученного на 50 млн слов из ЖЖ. Чтобы убедиться, что результаты надежны, на вкладке «анализ результатов» Вы можете увидеть реальный IPM, его погрешность, а также информацию о количестве документов, попавших в область поиска.

Поиск смещений: при нажатии на кнопку «запустить поиск смещений» строится таблица с % каждого атрибута (пол, возраст, регион автора и так далее) в найденных результатах и во всем корпусе. Таким образом мы можем убедиться, что полученный результат не смещен.

Проверка на однородность производится критерием хи-квадрат. В столбце «Хи-квадрат» выводится значение статистики этого критерия: если значение больше 3.8415, то это говорит о том, что гипотеза об однородности отклоняется с уровнем значимости 95%. Такие значения выделяются красным цветом. Если значение меньше, то — зеленым. Если результатов с данным значением атрибута меньше 5, то значение статистики не может гарантировать надежность результатов. Такие значения выделяются желтым цветом.

Мы открыты для ваших отзывов и предложений по новому функционалу! Пишите нам на geekrya@gmail.com

Приглашение к исследованию на базе ГИКРЯ

Опубликовано Четверг Сентябрь 22nd, 2016 автором shavrina

Добавить комментарий

Дорогие друзья!

С началом учебного года все мы задумываемся над темами новых исследований, а также темами курсовых и НИР.

Мы рады сообщить вам, что ГИКРЯ подготовил для всех желающих большое количество тем для мини-исследований, которые мы с удовольствием предлагаем для реализации на нашем корпусе!

Темы мини-исследований/курсовых/НИР для студентов и всех желающих на базе Генерального интернет-корпуса русского языка (ГИКРЯ):

Некоторые проблемы токенизации на электронных текстах: особенности дистрибуции знаков препинания на различных сегментах сети интернет.
Жанровые различия распределения пунктуаторов в сети интернет.
Корпусные эксперименты по дистрибуции:
1. Дистрибуция причастий и прилагательных
2. Дистрибуция кратких прилагательных, наречий и предикативов
3. Дистрибуция предлогов и наречий
4. Дистрибуция прилагательных и порядковых числительных
5. Дистрибуция арабских чисел и числительных – различия на соцсетях и нормативном русском языке.
6. Дистрибуция римских чисел и числительных – различия на соцсетях и нормативном русском языке.
7. Дистрибуция спорных категорий, поиск различий:
  1. разряды союзов (подчинительные, сочинительные)
  2. разряды частиц
  3. разряды предлогов
  4. составные предлоги: если ли различия в дистрибуции по сравнению с их составными частями (например, «несмотря на» и «несмотря» и «на»).
  5. междометия и звукоподражательные слова

Неологизмы в текстах сети интернет: жанровые различия на отдельных сегментах. Корпусное исследование.

Если Вас заинтересовала какая-либо тема, а также, возможно, у Вас есть свои идеи корпусных исследований, которые вы бы хотели провести на ГИКРЯ или дать своим студентам, пишите нам на почту: geekrya@gmail.com

Обновлена лицензия на золотой стандарт

Опубликовано Понедельник Июль 11th, 2016 автором shavrina

Добавить комментарий

Дорогие пользователи ГИКРЯ, дорогие исследователи и все-все-все, кто интересуется новостями нашего корпуса!

Мы хотели бы отметить, что мы с радостью предоставляем интересующимся коллегам снятник ГИКРЯ, и в связи с участившимися заявками информируем, что мы бы хотели от этих исследований соблюдения следующих условий распространение снятника:

Снятник ГИКРЯ (далее «снятник») — корпус в 2 миллиона словоформ из Живого Журнала, с полностью автоматической разметкой, полученной в результате научной работы коллектива ГИКРЯ.

Снятник предоставляется бесплатно и на любые научные цели. Решение о выдаче снятника остается за правообладателем.

Тестовый корпус объемом 2 млн словоформ предоставляется адресно, по заявке, без права передачи третьим лицам или изменения содержания.

Корпус является тестовым, что значит, что мы будем премного благодарны за любые замечания по его разметке и содержанию, но также и можем исправлять любые найденные недочеты и заменять снятник в любой момент. Поэтому использование этого материала для всякой цели, кроме тестирования, не предусмотрено.

Использование и ссылка на стандарт для научных публикаций, проведения тестирований, evaluation и т.п. хотя и подразумевается в ближайшем будущем, но для данной версии не предусмотрено.

Доступен снятник ГИКРЯ, версия 1.0, Живой Журнал

Опубликовано Пятница Июнь 3rd, 2016 автором shavrina

Добавить комментарий

Дорогие коллеги!

Мы рады представить вам новый, открытый сегмент Генерального интернет-корпуса русского языка — корпус Живого Журнала с автоматически снятой неоднозначностью, размеченный в соответствии с новым форматом морфоразметки ГИКРЯ.

Здесь доступен демонстрационный вариант в 50.000 токенов:

Для скачивания доступны 2 миллиона словоформ (пожалуйста, обратитесь за ними по адресу geekrya@gmail.com), в дальнейшем мы собираемся увеличить этот объем за счет остальных сегментов ГИКРЯ (ВКонтакте, Блоги Mail.Ru, новостной корпус, Журнальный Зал).

Мы приглашаем разработчиков и исследователей использовать данный подкорпус для обучения собственных парсеров и улучшения существующих систем.

Материал: 2 миллиона словоформ из Живого Журнала (публикации пользователей и комментарии)
Разметка: Abbyy Compreno
Формат: MSD-GICR, обновленная версия известного позиционного тагсета, дополненная ранее нереализованными граммемами.

Пример разметки:

Словоформа [лемма] морфотег комментарий

Если [если] C #союз
хочешь [хотеть] V-ip2s-a-p-ym #глагол, личная форма, наст.вр., 2-е лицо, ед.ч., активный залог, несов., перех.
тусить [тусить] V-n—-a-p-nm #глагол, инфин., активный залог, несов., неперех.
—
туси [тусить] V-m-2s-a-p-nm #глагол, пов.накл., 2-е лицо, ед.ч., активный залог, несов., неперех.
.

Если [если] C #союз
хочешь [хотеть] V-ip2s-a-p-ym #глагол, личная форма, наст.вр., 2-е лицо, ед.ч., активный залог, несов., перех.
бухнуть [бухнуть] V-n—-a-e-ym #глагол, инфин., активный залог, соверш., перех.
—
бухни [бухнуть] V-m-2s-a-e-ym #глагол, пов.накл., 2-е лицо, ед.ч., активный залог, соверш., перех.

Новый тагсет MSD-GICR:

В. И. Беликов — Компьютер и эволюция русской полиграфической нормы

Опубликовано Четверг Май 26th, 2016 автором shavrina

Добавить комментарий

В. И. Беликов

Компьютер и эволюция русской полиграфической нормы

[«Компьютерная лингвистика и интеллектуальные технологии». Труды Международного семинара Диалог’2002. т. 2, Прикладные проблемы. М., «Наука», 2002. стр. 39—48]

Ключевые слова: полиграфическая норма, типометрия, компьютеризация, кавычки, дефис, пробел.

Восприятие письменного/печатного текста определяется не только его соответствием орфографическим нормам, но также таким параметрам, как положение на странице, размеры пробелов, последовательность в использовании разнообразных неалфавитных символов и т. п. Все такого рода параметры, не обусловленные правописной нормой, предлагается назвать фиксационной нормой. Различаются рукописная, машинописная и типографская фиксационные нормы, в каждой из них можно выделить собственно текстовый аспект и рамочный, где нормативность определяется лишь при соотнесении разных фрагментов текста между собой или с носителем, на котором они зафиксированы. Рассматриваются изменения в полиграфической фиксационной норме за последние 15 лет.

— Бывают ли синие зайцы?

— Бывают, мой друг, бывают.

Л. Толстой.

1. Разновидности фиксационных норм русского текста

Наряду с правописной (орфографической и пунктуационной) нормой внешний вид письменного/печатного текста определяется и другими параметрами: расположением на странице текста и отдельных его частей, размерами межстрочных и межсловных промежутков, видом письменных (печатных) знаков и т. п. Большинство таких параметров подвергается стихийной или целенаправленной нормализации; эту норму условно назовем фиксационной. Владение фиксационной и правописной нормой может быть активным и пассивным, причем второе ни в малейшей степени не предполагает первого. Для русского языка это ярче всего проявляется в способности воспринимать/порождать тексты в «старой» орфографии: относительно большой процент гуманитарной интеллигенции способен без напряжения читать «с ятями», но порождают соответствующие правильные тексты лишь единицы. Мало того, редко кто обращает внимание на то, что наиболее известный из такого рода текстов, согласно титульному листу большинства его изданий, является словарем живаго великорускаго языка, а не живого великорусскаго, как предусматривала норма, полустихийно сложившейся к далевским временам, а позднее закрепленной авторитетом Я. Грота.

Кроме общеязыковой нормы (точнее, общегосударственной: за пределами СССР даже орфографическая норма не имела универсального характера для текстов на русском языке), можно говорить о локальных нормах разного уровня. Некоторые аспекты фиксационной нормы были и остаются ГОСТированными, другие имеют ведомственный характер, распространяются на отдельные учреждения, предприятия, организации или даже малые социальные группы (таковыми еще недавно были требования к наклону почерка и «нажиму», определявшиеся, в конечном счете, конкретным школьным учителем).

Несколько огрубляя, на середину 1980‑х гг. для русского письменного текста можно констатировать существование трех основных фиксационных норм:

— рукописная норма; преподавалась в средней школе, но нормировалась почти исключительно стихийно, особенно после отмены интенсивного четырехгодичного курса чистописания; за пределами школы контролировалась локально (то есть формат заявления, докладной записки и т. п. мог отличаться от учреждения к учреждению);

— машинописная норма; преподавалась в ряде учебных заведений и на курсах; многие ее аспекты были нормированы на уровне государства (жестко или с указанием допустимых вариантов); в рамках делопроизводства возникали общегосударственные и локальные нормы для разнообразных типов документов, невольно распространявшиеся их носителями на машинописный текст в целом. (Скажем, издательская машинописная норма предусматривала использование символа «=» в значении дефиса (при знаке «-» как символе переноса) и «—» в значении тире.);

— полиграфическая норма, пассивное владение которой было свойственно всем читавшим, но в разной степени; тут практически все параметры были нормированы ГОСТами, хотя в мелочах отдельные издательства более или менее успешно проводили в жизнь свои «изводы», основываясь на эстетических критериях.

Специалисты по семиотике письменного текста о трех таких его разновидностях упоминают довольно часто, но их детальный сопоставительный анализ как связанных, но различных семиотических сущностей, насколько мне известно, не производился. Обычно говорится лишь о различающихся типах шрифтов, ср.: «В современных письменных языках также можно выделить три „уклада“. С уставом, очевидно, можно сопоставить все типы шрифтов высокой печати, с полууставом — шрифты от линотипных до машинописных (поскольку последние могут распространяться путем ротапринта), а со скорописью — все рукописные шрифты» [1:101].

Тексты, исполненные в соответствии с полиграфической нормой, были, вероятно, «наиболее потребляемы» большинством носителей русского языка, но активное владение ею среди непрофессионалов было явлением исключительно редким, если не сказать уникальным. Даже вполне квалифицированные смежники имели о ней лишь случайный набор сведений. Школьный методист по русскому языку общемосковского уровня в частной беседе высказала неудовольствие по поводу нововведения, согласно которому после заголовков точка перестала быть обязательной. Профессионально следя за исполнением рукописной фиксационной нормы в школьном ее варианте, когда отцентрованный заголовок типа Диктант. обязательно заканчивается точкой, она не обращала внимания, что аналогичные элементы в сборниках диктантов точек не содержат. Два других примера не менее показательны: профессиональный редактор с большим стажем работы в изд. «Прогресс» в середине 1990‑х высказывала полную убежденность, что 6 кегль называется петитом (в действительности — нонпарель); заведующая редакцией издательства «Большая Российская Энциклопедия» в 2002 г. сообщила, что за 40 лет ее профессиональной деятельности у нее не было нужды выяснять, чем тире отличается от дефиса, и разбираться в этом она не собирается. Обе продемонстрировали элементарную неосведомленность в метаязыке технического редактора (и полиграфистов), профессии более чем смежной.

Степень пассивного владения полиграфической нормой значительно колеблется. Одни сразу же отмечают в тексте отдельные ее нарушения. Другие их не осознают, но бессознательно на них реагируют, происходит эффект «двадцать пятого кадра»: что-то раздражает, а что — непонятно. Наконец, третьи совершенно не беспокоятся по поводу отклонений от полиграфической нормы, а при прямом указании на них недоуменно говорят: «А какая разница?». Корреляции между попаданием в одну из этих категорий и объемом прочитанного или навыками создания авторских текстов если и существуют, то далеко не прямые.

Каждый из трех типов фиксационной нормы имеет два аспекта: собственно текстовый и привязанный к бумажному (или другому) носителю. Рукописное слово, толкующееся несколькими способами из-за того, что ни одна буква не может быть однозначно прочитана; машинописное слово, которое, выражаясь языком ГОСТа, напечатано с «нечистым очком литер», или же такое, где все буквы перебиты (напечатаны поверх других); типографское слово, в котором одна литера набрана «вверх ногами» — все это явные нарушения фиксационных (а не орфографических, например) норм, независимо от того, в какой части страницы соответствующее слово расположено (залез ли школьник на поля, вставлено ли такое слово между строк при машинописи, находится ли оно, в типографском случае, в заглавии книги или в примечании).

Тем не менее, безупречно написанная (напечатанная, набранная) строка может не удовлетворять фиксационной норме по другим причинам. Рукописная объяснительная записка на двух листах вряд ли будет принята начальником, если две трети первого листа текстом не заняты. Четкий машинописный текст без опечаток, в котором строки начинаются на разном расстоянии от края бумаги, или же текст, напечатанный на двух сторонах листа, в издательство не принимался. Заголовок, набранный меньшим кеглем, чем основной текст, текст с разным числом строк на страницах (если одна из них не содержит иллюстраций, не является последней в разделе и т. п.) или же содержащий «коридор» (когда междусловные пробелы в нескольких строках, сливаясь, образуют вертикальную или наклонную прямую белую полосу) считался полиграфическим браком и подлежал перенабору. Во всех этих случаях ненормативность выявляется лишь при соотнесении разных частей текста между собой или с носителем, на котором они зафиксированы. За неимением лучшего термина будем говорить о соотнесении фрагмента текста с некоей рамкой, а такой аспект фиксационной нормы называть рамочным.

2. Исконная рамочная норма и ее разрушение

Для семиотики печатного текста важны и собственно текстовые, и рамочные фиксационные нормы. Начну с характеристики вторых, вынужденно поверхностной, поскольку вхождение в детали привело бы к значительному увеличению объема статьи.

Внимательно исследуя образцовую полиграфическую продукцию (а особенно сопоставляя ее с дефектной), нетрудно сформулировать практически все фиксационные нормы, относящиеся к собственно текстовому аспекту; с рамочным аспектом дело обстоит сложнее. На глаз видно, что между словами бывают пробелы, а абзацы в норме начинаются с красной строки, но каков именно размер абзацного отступа, в каких пределах допустимо варьирование междусловного пробела, на глаз определить сложно. Например, абзацному отступу, приятому в настоящем издании (7,5 мм), по традиционным нормам отечественной полиграфии должен был бы соответствовать текст кегля 13,3. Точные соответствия размера кегля и абзацного отступа касались эстетически немаркированного текста; художественный редактор мог задать принятый в данном тексте абзацный отступ при наборе любым доступным кеглем. Но дробных кеглей, естественно, не бывало. Последние десятилетия вышел из употребления (а потому отсутствовал в типографиях) и 11 кегль, каким якобы набрана основная часть данного сборника. «Якобы» — потому, что то, что в компьютере называется 11 кеглем, на четверть миллиметра меньше того, что так именовалось в традиционной полиграфии. Не много, но на 40 строк набегает целый сантиметр. Компьютер позволяет многое, в том числе и имитацию традиционного 11 кегля. Именно им набран настоящий абзац. Соседние — компьютерным 11 кеглем. Разница на глаз почти незаметна, и не стоило бы обращать на это внимание, но компьютер разрушил ранее принятую типометрию (систему типографских измерений). Как это случилось, кратко описано в Приложении.

Соблюдение буквально любых стандартов, связанных с измерениями, стало невозможным. А на этих стандартах — вырабатывавшихся в континентальной Европе в течение 200 лет и отнюдь не бессмысленных — держалось очень многое. Американская полиграфическая традиция ни чем не хуже и не лучше европейской, она просто другая. И причина заокеанской экспансии — не в безудержном американском глобализме. Отечественным программистам никто не мешал ознакомиться с азами полиграфии и грамотно локализовать американские программы компьютерного набора. Из тех, кто пользуется компьютерным набором (а ручной набор вот-вот вымрет окончательно) одни не подозревают о существовании стандартов, другие считают — «Подумаешь, стандарт…» и пускаются в компьютерные игры с размером шрифта, его плотностью в строке, интерлиньяжем и прочим. Результатом является все, что угодно, вплоть до синих зайцев, часто безобразных.

Чтобы не обижать коллег, займусь самокритикой. При макетировании собственной книги «Пиджины и креольские языки Океании» (1998) для того, чтобы уложить текст в заранее оговоренный объем, я на 3,5% уменьшил межстрочный интервал, на пару миллиметров увеличил вертикальный размер текста на странице и получил возможность впихнуть на всю книгу строк на 400—500 больше. На эстетико-потребительских свойствах изделия, как я вижу post factum, это сказалось отрицательно; лучше было сократить текст. Другая книга (вышедшая в 1995 г.), где я исполнял функции издательского редактора, несмотря на мои протесты (не очень, впрочем, настойчивые), набрана 13 кеглем академической гарнитуры (в ней выступающие части удлинены по вертикали за счет основной части букв) с интерлиньяжем в 12 пунктов; в результате буква б, оказавшись под р соседней сверху строки, налезает на нее. Мораль: хитрее многих поколений полиграфистов при наличии компьютера оказаться можно, умнее — нет.

Что же изменилось в рамочной норме за последние полтора десятилетия? Стандарты существуют и обновляются, но прескриптивная норма ужалась и превратилась в пустую формальность; теперь можно говорить лишь о дескриптивной норме — не как следует делать, а как фактически делается. Чаще всего делается так, как велит компьютер, а в нем «по умолчанию» часто оказываются заложенными американские настройки. Типометрические тонкости на глаз не заметны, но на них многое опирается. Из легко заметных семиотически значимых нововведений отмечу два, касающихся абзаца. Довольно часто стала встречаться межабзацная отбивка, и совсем рядовым явлением стал полудюймовый абзацный отступ, который на глаз в два раза больше традиционного. Каждая из этих инноваций делает членение на абзацы более отчетливым, а будучи совмещенными, они задают тексту принципиально новое структурирование. Это не плохо, это просто иначе, чем бывало раньше.

3. Перипетии собственно текстовой фиксационной нормы

На судьбы собственно тестовой фиксационной нормы за последние 15 лет оказывало влияние несколько обстоятельств. Рубеж 1980‑х — 1990‑х гг. ознаменовался ликвидацией государственного контроля за содержанием печатной продукции; вскоре фактически прекратился и контроль за многими качественными параметрами. Доступность лазерной печати с помощью персональных компьютеров придала массовый характер непрофессиональному макетированию без технического редактирования, а иногда и корректуры текста. Процесс редподготовки рукописи в ряде «традиционных» издательств по экономическим причинам был редуцирован, а в большинстве «новых», по крайней мере в первые годы их существования, свелся по сути к изготовлению оригинал-макета. Создается впечатление, что большинство макетчиков о существовании полиграфической фиксационной нормы не задумывалось, и лишь относительно небольшая их часть имела твердые представления о требованиях машинописной нормы.

В машинописи, как известно, из экономии «клавиатурного пространства», не различались открывающая и закрывающая кавычки, единый знак «прямая кавычка» соответствовал двум типографским «ёлочкам» и двум „лапкам“. Равномерный шрифт приравнивал символы дефиса и тире, цифры 0 и 3 практически не отличались от прописных О и З: на некоторых машинках в цифровом ряду они отсутствовали, и вместо них рекомендовалось использовать соответствующие прописные буквенные литеры. Существовали также особые конвенции типа обозначения знака умножения (2×2) через литеру х (2х2), знака «плюс-минус» (а±1) через подчеркнутый плюс (а+1) или написания римских цифр при помощи цифры один (которая на машинках с русской клавиатурой была представлена одной из двух литер: 1 или I) и русских прописных букв (1У вм. IV, Ш вм. III, УП вм. VII); разрешалась замена открывающей и закрывающей скобок дробная чертой /. Машинописная фиксационная норма допускала отсутствие пробелов после точки в общепринятых сокращениях (типа и т.д., т.е.), а также между инициалами, на практике широко использовалось (вообще говоря, запрещавшееся стандартами на машинописные работы) беспробельное написание инициала и фамилии. В низкокачественных машинописных текстах пробел после знаков препинания бывал факультативен, иногда знаки препинания отбивались от предшествующего текста (с вопросительным и восклицательным знаками это могло делаться намеренно, «потому что так красивее»). Некоторые машинописные приемы (связанные с обратным ходом каретки и вертикальными сдвигами литер менее, чем на строку) оказались трудноисполнимы, остальные — включая и несанкционированные — широко вошли в практику компьютерного набора. В качестве особого курьеза можно отметить использование в качестве римской цифры V буквы Y — ближайшего аналога русской У.

Клавиатура компьютера лишь незначительно расширяла инвентарь графем, доступных на пишущей машинке; то, что возможности компьютера не ограничиваются клавиатурой, не все макетчики поняли сразу, но те, кто понял, стали внедрять новые знаки по собственному разумению. Моден стал символ # как знак номера, многих окрылила возможность использовать знак, промежуточный по длине между тире и дефисом. В действительности это знак минуса, который в традиционной полиграфии последние годы использовался не часто и непоследовательно (отмечу, что в стандартных, специально не правленных наборах лазерных шрифтов его длина и высота соответствуют горизонтальной составляющей знака «плюс», так что между строчными буквами это «короткое тире» выглядит неуместно).

В начале 1990‑х вышли многие тысячи книг, изданных абсолютно как попало; ярким примером такого «синего зайца» служит издание Ф. Карлгрен, Воспитание к Свободе. (Пер. с нем.) М., Московский Центр Вальдорфской педагогики, 1992. В качестве кавычек здесь чаще всего используются «прямые» верхние лапки (они же иногда употребляются вм. ъ: об»ективирование — стр. 196); кроме них встречаются «ёлочки» (стр. 2, 58, 72), “американские” лапки (стр. 126), ‘‘удвоенные одинарные’’ (то, что у нас называется ‘марровские’ — стр. 266, 267). Открывающая и закрывающая кавычки могут отличаться: «__» (стр. 56—57) и «__» (стр. 51). Учитывая, что число кавычек не всегда четно, что в качестве скобок на первых 263 страницах используется только косая черта (далее появляются и круглые скобки), что последовательность Берген-Норвегия (стр. 259) обозначает город и страну, а Винер—Нойштадт (стр. 266) — единый город, что человек с двойной фамилией может писаться как О. Френкль — Лундборг (стр. 259) и многое подобное, для понимания текста требуется умственное напряжение, иногда довольно значительное.

Такие книги, где как угодно может быть изображено все, кроме букв (ср., впрочем, об»ективирование), для середины 1990‑х гг. уже не характерны. Но издания, в которых под одной обложкой собраны тексты с разной (и самодеятельной) полиграфической стилистикой появляются и позже. Ограничусь несколькими замечаниями об одном из сборников «Семиотики и информатики» (вып. 34, 1994). (Собственно говоря, знакомство с ним и подтолкнуло меня к семиотико-полиграфическим размышлениям.)

По использованию знаков тире (—), минус (–) и дефис (-) сборник делится на основной корпус статей и две специфических части. В основном корпусе наряду с тире и дефисом встречается минус, употребляющийся как символ междуцифрия (в примерно равном соотношении со знаком дефиса), а также — изредка — в функции «латинского дефиса»: Frankfurt–am–Main [96], N.–Y. [113, дважды]. В одной из специфических статей [стр. 205—233] знак «—» используется в качестве текстового тире, знак «-» — как символ переноса слова, а в функции собственно дефиса, дефиса присоединительного и сократительного, а также междуцифрия — знак минус (в последней функции — иногда с отбивкой): опять–таки, по–разному, Римско–Византийский, Anglo–Saxon, Византия–2, 1200–летний, на 28–м году, изд–во Московского ун–та, 830–1040, 379 – 395. Текст выглядит, например, так (цитирую с сохранением длины строки):

‹…› Хроники, относимые сегодня к английской истории
1040–1327 гг. н.э., описывают в действительности, Византию–
3 (она же — Византия–2), а потому отражают реальные визан-
тийские события IX–XV веков н.э. [стр. 228].

Наконец, в еще одной статье [стр. 185—204] оппозиция этих знаков по длине нейтрализована и во всех функциях используется символ минуса, причем не опущенный к середине строки строчных букв; между цифрами он выглядит естественно: С. 524–528, а в тексте — высоковат:

‹…› Их фактор–переменные – это классы пере–
менных унифицируемых термов ‹…› [200].

В отношении отбивки инициалов, сокращений типа и т. п., знаков № и § можно найти мелкие закономерности, но количество «исключений» таково, что в целом по сборнику правильнее говорить о свободном распределении написаний. Показательно, что в заголовке одной из статей фигурирует А.Н.Островский [стр. 165], при том, что при фамилии автора статьи оба инициала отбиты, в оглавлении же [стр. 5], напротив, упомянут А. Н. Островский, а у автора инициалы не отбиваются. Пробелы в сокращениях, как правило, отсутствуют; занятным исключением является центральный фрагмент одной из статей [стр. 128—151], где неожиданно появляется отбитое и т. д. (12 раз!), при том, что на тех же страницах 15 раз использовано сокращение т.е. без пробела.

К концу ХХ века положение стабилизировалось, но следы былого раздрая проскальзывают даже в лучших издательствах. Например, в 1998 г. в петербургском отделении издательства «Наука» выходит сборник статей, на титуле которого издательство обозначено как „НАУКА” (с русской открывающей и американской закрывающей, или, что то же самое, с русскими рукописными кавычками), а в тексте упоминается модель “Смысл <=> Текст„ (с американской открывающей в начале и русской открывающей (!) в конце).

Стабилизация не означала унификации; нормы локализовались. Описать сегодняшнее положение хоть сколь-нибудь полно невозможно. Ограничусь несколькими фрагментами.

Вот как устроена «подсистема кавычек» в современных газетах. Большинство использует кавычки только одного рисунка, как правило, «елочки»: «Известия», «Независимая газета» (при В. Третьякове), «Литературная Газета», «Труд», «Комсомольская правда», «Новые Известия», «Время-МН», «Вечерняя Москва», «Метро», «Парламентская газета», «Вёрсты», «Гражданин», «Санкт-Петербургские ведомости», «Петербургский Час пик», «Новый Петербургъ», «Москва-Центр». “Американские” лапки последовательно встречаются реже, из просмотренных — в «Московском комсомольце», в «Южных горизонтах» (газ. Южного округа Москвы) и в «Покровке» (газ. Басманного района Москвы). Наверняка есть и газеты, использующие только прямые кавычки.

Даже обладающие некоторой традицией и авторитетом газеты могут в отношении кавычек демонстрировать полную бессистемность, такова пост-Третьяковская Независимая газета. Так, в номере от 21.12.01 в статье Три лика промышленной политики (во избежание путаницы здесь и ниже цитаты я выделяю курсивом; наличие и вид кавычек соответствуют оригиналам, пропуски в цитатах обозначены знаком ‹…›) один и тот же семинар в Высшей школе бизнеса МГУ называется «Стратегия развития» и «Стратегия развития», в статье Контрапункт Восточного похода преобладают прямые кавычки, много раз упоминается группа армий «Центр», но дважды — группа армий «Центр»; в двух статьях об аукционах (Украинские торги и Женевский Антикворум — хранитель времени) использованы только елочки, в тексте соседней статьи Современные русские художники на Сотбис десятки раз находим прямые кавычки, елочки задействованы только для названия зала, где проходили торги («Олимпия»), а также в подписях под иллюстрациями (пять пар елочек).

Все перечисленные газеты не противопоставляют внешних и внутренних кавычек, ср., например, в выходных данных (традиционно эта часть издания содержала менее всего опечаток): ООО «Рекламно-компьютерное агентство «Труд»; ГУИ «ИПК «Московская правда»; ЗАО «Концерн «Вечерняя Москва». В тексте: ‹…› открылась выставка «Бубновый валет». Путь на Запад? Путь к себе» [Время-МН, 6.02.02]; Исполнилось 35 лет знаменитому “Клубу “12 стульев” “Литературной газеты” [Моск. комс., 28.01.02] — в первом примере не сразу сообразишь, каково название выставки, а в последнем без дополнительной информации невозможно определить, где кончается название клуба.

Различаются эти два типа кавычек редко. Из просмотренных газет последовательно это делается лишь в «Коммерсанте», при этом как внутренние используются традиционные русские лапки. Они же задействованы в газетном логотипе-сокращении — это, конечно, дань архаике. Вот пример из номера от 9.02.02: Господин Венедиктов заявил „Ъ“: «У нас были договоренности с прежним руководством „Газпром-медиа“ о том, что пока„Газпром“ не объявит условия продажи медиаактивов, никто не будет менять менеджмент и совет директоров. Меня оскорбило нынешнее решение руководства „Газпром-медиа“, хотя формально они действуют по закону». В «Газпром-медиа» заявляют, что не намерены вмешиваться в редакционную политику ‹…›. Эта газета отличается исключительно бережным отношением к отечественной полиграфии, здесь оставляют пробел не только между инициалами (что встречается и в других газетах), но даже в сокращениях типа и т. п., а также не отбивают тире от предыдущей точки или запятой («Этот иск,— сказала Мирослава Гонгадзе ‹…›»). Мало того, здесь регулярно противопоставляется отбитое и неотбитое тире (последнее — в случаях типа Мали—Камерун 0:3; «Рома»—«Ювентус»; саммит Россия—ЕС; страны—члены ОПЕК).

Еще одно издание, аналитический еженедельник «Дело» (СПб), хоть и отступает от прошлой практики, но, по крайней мере, в точности соответствует букве Правил 1956 г., требовавших различения рисунка внутренних и внешних кавычек, если они встречаются «в начале или в конце цитаты» (§ 200, Прим. 2) [2:113]. Если кавычки не оказываются в соприкосновении, «Дело» оба раза использует елочки, при «стыковке» кавычек как внутренние применяются лапки разной конфигурации; вот примеры из номера от 11.03.02: «Заявление Думы – шаг совершенно бессмысленный ‹…› Встать против всего мира ради «мандариновой республики» Путин вряд ли пожелает»; «‹…› [СМИ не хотят оказаться] инструментом разрешения пресловутых споров “хозяйствующих субъектов”»; «Падение „Черного ястреба“» [название кинофильма].

Совершенно оригинальным способом расставляет кавычки Газета: лапки в основном тексте, но американские ёлочки в заголовках статей (где прописные буквы используются только в именах собственных — еще одна инновация); внешние и внутренние кавычки не противопоставлены. Подзаголовки разделов статей и мелких заметок в рубриках типа НОВОСТИ или ХРОНИКА в отношении кавычек приравнены к основному тексту. Вот несколько примеров заголовков из номера от 25.01.02 (в нотации этого издания — #13 (68)): “воспитывать человека надо, когда он поперек кровати лежит”; Андрей Николишин: “я не удивился, увидев Буре вновь на льду”; “мы не будем глотать неприятные пилюли”; Газпромбанк уходит от “Газпрома”; “сесть в деканское кресло…” (вот подзаголовки этого материала: настоящий «ухало»; «Виноградов «выглядел» Соколова»); охота на “енотов” (там же в тексте: Первый эпизод на бандитском сленге называется охотой на «енота»). Вот примеры заголовков мелких заметок: «Белнефтехим» будет акционирован; «ЛУКОЙЛ» определился; «дело «Аэрофлота» [внутренние и внешние закрывающие кавычки совмещены!]; не вернули на доследование (как видим, в «малозначительных» заголовках начальных прописных также нет).

Такое противопоставление кавычек нередко встречается в Интернете. Скажем, в Выпуске № 2 Дайджеста «Ассоциация компьютерной лингвистики и интеллектуальных технологий» (http://www.dialog-21.ru/digest.asp) кавычки в заголовке и тексте сообщения одновременно встретились 7 раз, при этом в тексте они всегда оказались прямыми, а в заголовках — трижды прямыми, дважды русскими и по разу американскими и «псевдоамериканскими»; под последним термином я имею в виду дважды употребленные открывающие:

заголовок: Ефремовский завод синтетического каучука строит свою КИС на базе продуктов “1C“

текст под ним: Московская компания «Институт типовых решений — Производство» (ИТРП) завершила очередной этап начатого в марте 2001 г. проекта ‹…›

Еще одна «критическая» подсистема знаков — это дефис—минус—тире. Бóльшая часть упомянутой выше периодики пользуется всеми тремя знаками, при этом в функции тире используется как собственно тире, так и минус («короткое тире»); изредка они бессистемно перемежаются в одном издании. Иногда прослеживается тенденция к использованию минуса как разделителя цифр, но последовательного его такого употребления мне не встречалось. Встречаются и «нейтрализующие» издания, где нет ни тире, ни минуса, а все их возможные функции берет на себя дефис. Как правило, это малотиражные недолговечные издания, но в их число попали относительно давний «Новый Петербургъ» и даже «Комсомольская правда». Экзотическое и очень последовательное распределение трех знаков встретилось мне в двух иностранных изданиях — рижских газетах Вести и Rеспублика (просматривал номера за июнь 1999 г.). За тире здесь сохранены все его традиционные функции, дефис используется лишь как символ переноса, во всех остальных случаях употребляется минус: г–н Горбунов, минута–другая, какой–то, пресс–конференция, Нью–Йорк, в 89–м году, МИ–6, аль–Файед и т. п.

Русская фиксационная норма расшаталась не только в области символов, но и в области пробелов. В современной полиграфии сосуществует две нормы: пробел после любой сократительной точки и беспробельное написание сокращений типа и т. п. и инициалов; как вариант последней встречается также отсутствие пробела между инициалом и фамилией. Речь идет именно о норме, не о случайности. Мне, как архаику, в разных изданиях приходилось сталкиваться с ликвидацией имевшихся у меня пробелов с мотивировкой «у нас так положено». Реально беспробельная норма уже побеждает. Рассмотрим, как устроены инициалы у авторов двухтомного сборника материалов семинара ДИАЛОГ 2000 (http://www.dialog-21.ru/full_archive2000.asp?arch_id=1242&parent_menu_id=711).

В числе докладчиков, имеющих перед фамилией два инициала, беспробельная модель (И.И.Иванов) представлена у 40, модель И. И. Иванов — у 31, модель И.И. Иванов — у 84. (Кроме того, четырежды представлена модель с двусторонней отбивкой точки: И . И . Иванов.) Поскольку я пользовался электронной версией, удалось выяснить, что инициалы разделены неразрывным пробелом лишь у 15 «И. И. Ивановых» (у четверых из них неразрывен и пробел между инициалами и фамилией) — это явно сознательные сторонники классической русской традиции. Среди последователей новой модели неразнывным пробелом пользуется лишь один. Поскольку этот факт явно свидетельствует о сознательности данного человека, я выяснил у него отношение к проблеме пробелов. Он сообщил, что уже несколько лет, как перешел на новую модель. Я попытался установить корреляцию между новым оформлением инициалов и использованием новых (американских) кавычек. Выяснилось, что все, кто не пользуется елочками, не делают пробела между инициалами.

* * *

Тенденции налицо: современная русская полиграфическая практика испытала серьезное воздействие машинописной практики и американской компьютерной нормы (где тоже без влияния машинописи не обошлось). Современная норма довольно расплывчата, хотя ее локальные варианты могут быть довольно жесткими.

Приложение: Традиционная и компьютерная типометрия

Минимальная типометрическая единица называется везде одинаково — пункт (point) — и составляет ¹/₇₂ дюйма, но сами дюймы различны. Континентальная типометрия была разработана французским словолитчиком Франсуа Амбруазом Дидо в конце XVIII в. и соотносится с тогдашним французским дюймом, британская — с архаичным британским. Поскольку каждая англоговорящая страна имела собственный эталон дюйма, в конце концов в 1960‑х годах было решено повсеместно считать его в точности равным 25,4 мм, и англо-американский point оказался чуть меньше его ¹/₇₂; при компьютеризации американской полиграфии point был приравнен в точности к ¹/₇₂ дюйма современного. Соотношение разных пунктов с миллиметром и современным дюймом таково:

— отечественный (и континентальный): 0,3759 мм 0,0148 дюйма

— традиционный британско-американский: 0,3514 мм 0,0138 дюйма

— современный компьютерный: 0,3528 мм 0,0139 дюйма.

При «компьютерной» печати смещение по сравнению с британско-американской традицией абсолютно не заметно: при 10 кегле теряется одна строка из 250, но различие с русской и континентальноевропейской печатью очень существенно: на стандартную книжную страницу набегает около трех лишних строк.

Вертикальный размер литеры (в центре которой расположено изображение буквы или другого знака, а сверху и снизу — так называемые заплечики, которые не пропечатываются и создают минимальный просвет между нижними и верхними границами соседних строк) измеряется в пунктах; при одном и том же кегле в зависимости от гарнитуры сами буквы и их выступающие вверх и вниз части могут быть крупнее или мельче, но размер литер остается неизменным за счет заплечиков. В последние десятилетия существования СССР стандарты предусматривали употребление кеглей в 5—10, 12, 14, 16, 20, 24, 28, 36 пунктов и некоторых более крупных.

Пробельный материал измеряется также в пунктах; минимальный размер шпаций (разделяющих литеры в строке) составляет 1 пункт, а шпон (использующихся для увеличения расстояния между строками) — 2 пт. (прежде были и однопунктовые). Стандартный минимальный междусловный интервал формировался при помощи полукегельной шпации (то есть 4 пт. для кегля 8, 5 пт. для кегля 10, 6 пт. для кегля 12 и т. п.), абзацный отступ — при помощи полуторакегельной. Большие длины принято измерять квадратами (это единица длины, равная 48 пунктам, или 18,043 мм), при этом формат полосы набора (части книжной страницы, занятой текстом) до недавнего времени измерялся исключительно в квадратах, их половинах и четвертях, так, широко известные сборники «Новое в лингвистике» печатались на бумаге 84×108 (в сантиметрах, но единицу измерения формата печатного листа обозначать не принято) в ¹/₃₂ листа с форматом набора 5½×9 квадратов. С 1994 г. действует ОСТ 29.124—94 [3], согласно которому нормирована лишь длина строки (единицы измерения, меньшей, чем четверть квадрата, по-прежнему нет), минимальный размер поля (для наружного — 11 мм) и интерлиньяж (соответствующий кеглю или отличающийся от него наличием шпон). Ранее вертикальный размер текста также был определен; точнее, в абсолютных единицах (в квадратах, их половинах и четвертях) был стандартизован формат полосы набора. Выбор стандартов был не случаен, а обуславливался экономической целесообразностью. При их введении решался вопрос, каким образом максимально выгодно использовать для печати бумажные листы принятых в стране размеров, оставляя разумную пропорцию между текстом и полями. И оборудование, и стандарты достались СССР от имперских времен. В бумагоделательном производстве оборудование заменялось быстрее, и в начале 1960‑х гг. два (кажется) из типовых бумажных размеров уменьшились (60×92 → 60×90, 72×108 → 70×108). Поскольку полиграфический стандарт не изменился, бумажная составляющая себестоимости книг упала на 2,2%, но поля в них, естественно, уменьшились. Каждый может убедиться, что при одинаковой ширине полосы набора делать заметки на полях, скажем, «Принципов истории языка» Пауля (1960) несколько удобнее, чем в «Языке и философии культуры» Гумбольдта (1985). Многочисленные постсоветские отступления от форматов не очень волнуют издателей и полиграфистов, но с точки зрения потребителя они либо антиэкономичны (удорожают книгу), либо антиэргономичны (съедают поля). Порядок, предусмотренный в современном стандарте, когда жестко зафиксированы варианты лишь одной из сторон текстового прямоугольника, не помогает решению экономической и эргономической задач, и его никто не соблюдает.

Формат представления рукописей в настоящее издание предусматривал верхнее и нижнее поля в 1 дюйм и боковые в 1¼ дюйма на формате A4, то есть полоса набора имеет размеры 146,6×246,2 мм, что типометрически означает 8,125×13,645 квадрата [390×665 пт.]. Новому стандарту это не соответствует лишь по ширине (она должна быть увеличена или уменьшена на ¹/₈ квадрата, 2,3 мм), а старому — также по форме прямоугольника; сколь сильно — можно судить по тому, что ближайшие допустимые прежде полосы набора — 8×12¾ кв. (для печати в ¹/₁₆ листа формата 70×108) и 9¼×13½ кв. (в ¹/₈ листа 60×84); заранее известен был и формат издания после обрезки: в первом варианте 170×260 мм, во втором — 205×290 мм.

Список литературы

Волков А. А. Грамматология. Семиотика письменной речи. М.: МГУ, 1982.
Правила русской орфографии и пунктуации. М.: Учпедгиз, 1956.
ОСТ 29.124—94 // Стандарты по издательскому делу. М.: Юристъ, 1998.