В. И. Беликов — Компьютер и эволюция русской полиграфической нормы

Опубликовано Четверг Май 26th, 2016 автором shavrina

В. И. Беликов

Компьютер и эволюция русской полиграфической нормы

[«Компьютерная лингвистика и интеллектуальные технологии». Труды Международного семинара Диалог’2002. т. 2, Прикладные проблемы. М., «Наука», 2002. стр. 39—48]

Ключевые слова: полиграфическая норма, типометрия, компьютеризация, кавычки, дефис, пробел.

Восприятие письменного/печатного текста определяется не только его соответствием орфографическим нормам, но также таким параметрам, как положение на странице, размеры пробелов, последовательность в использовании разнообразных неалфавитных символов и т. п. Все такого рода параметры, не обусловленные правописной нормой, предлагается назвать фиксационной нормой. Различаются рукописная, машинописная и типографская фиксационные нормы, в каждой из них можно выделить собственно текстовый аспект и рамочный, где нормативность определяется лишь при соотнесении разных фрагментов текста между собой или с носителем, на котором они зафиксированы. Рассматриваются изменения в полиграфической фиксационной норме за последние 15 лет.

— Бывают ли синие зайцы?

— Бывают, мой друг, бывают.

Л. Толстой.

1. Разновидности фиксационных норм русского текста

Наряду с правописной (орфографической и пунктуационной) нормой внешний вид письменного/печатного текста определяется и другими параметрами: расположением на странице текста и отдельных его частей, размерами межстрочных и межсловных промежутков, видом письменных (печатных) знаков и т. п. Большинство таких параметров подвергается стихийной или целенаправленной нормализации; эту норму условно назовем фиксационной. Владение фиксационной и правописной нормой может быть активным и пассивным, причем второе ни в малейшей степени не предполагает первого. Для русского языка это ярче всего проявляется в способности воспринимать/порождать тексты в «старой» орфографии: относительно большой процент гуманитарной интеллигенции способен без напряжения читать «с ятями», но порождают соответствующие правильные тексты лишь единицы. Мало того, редко кто обращает внимание на то, что наиболее известный из такого рода текстов, согласно титульному листу большинства его изданий, является словарем живаго великорускаго языка, а не живого великорусскаго, как предусматривала норма, полустихийно сложившейся к далевским временам, а позднее закрепленной авторитетом Я. Грота.

Кроме общеязыковой нормы (точнее, общегосударственной: за пределами СССР даже орфографическая норма не имела универсального характера для текстов на русском языке), можно говорить о локальных нормах разного уровня. Некоторые аспекты фиксационной нормы были и остаются ГОСТированными, другие имеют ведомственный характер, распространяются на отдельные учреждения, предприятия, организации или даже малые социальные группы (таковыми еще недавно были требования к наклону почерка и «нажиму», определявшиеся, в конечном счете, конкретным школьным учителем).

Несколько огрубляя, на середину 1980‑х гг. для русского письменного текста можно констатировать существование трех основных фиксационных норм:

— рукописная норма; преподавалась в средней школе, но нормировалась почти исключительно стихийно, особенно после отмены интенсивного четырехгодичного курса чистописания; за пределами школы контролировалась локально (то есть формат заявления, докладной записки и т. п. мог отличаться от учреждения к учреждению);

— машинописная норма; преподавалась в ряде учебных заведений и на курсах; многие ее аспекты были нормированы на уровне государства (жестко или с указанием допустимых вариантов); в рамках делопроизводства возникали общегосударственные и локальные нормы для разнообразных типов документов, невольно распространявшиеся их носителями на машинописный текст в целом. (Скажем, издательская машинописная норма предусматривала использование символа «=» в значении дефиса (при знаке «-» как символе переноса) и «—» в значении тире.);

— полиграфическая норма, пассивное владение которой было свойственно всем читавшим, но в разной степени; тут практически все параметры были нормированы ГОСТами, хотя в мелочах отдельные издательства более или менее успешно проводили в жизнь свои «изводы», основываясь на эстетических критериях.

Специалисты по семиотике письменного текста о трех таких его разновидностях упоминают довольно часто, но их детальный сопоставительный анализ как связанных, но различных семиотических сущностей, насколько мне известно, не производился. Обычно говорится лишь о различающихся типах шрифтов, ср.: «В современных письменных языках также можно выделить три „уклада“. С уставом, очевидно, можно сопоставить все типы шрифтов высокой печати, с полууставом — шрифты от линотипных до машинописных (поскольку последние могут распространяться путем ротапринта), а со скорописью — все рукописные шрифты» [1:101].

Тексты, исполненные в соответствии с полиграфической нормой, были, вероятно, «наиболее потребляемы» большинством носителей русского языка, но активное владение ею среди непрофессионалов было явлением исключительно редким, если не сказать уникальным. Даже вполне квалифицированные смежники имели о ней лишь случайный набор сведений. Школьный методист по русскому языку общемосковского уровня в частной беседе высказала неудовольствие по поводу нововведения, согласно которому после заголовков точка перестала быть обязательной. Профессионально следя за исполнением рукописной фиксационной нормы в школьном ее варианте, когда отцентрованный заголовок типа Диктант. обязательно заканчивается точкой, она не обращала внимания, что аналогичные элементы в сборниках диктантов точек не содержат. Два других примера не менее показательны: профессиональный редактор с большим стажем работы в изд. «Прогресс» в середине 1990‑х высказывала полную убежденность, что 6 кегль называется петитом (в действительности — нонпарель); заведующая редакцией издательства «Большая Российская Энциклопедия» в 2002 г. сообщила, что за 40 лет ее профессиональной деятельности у нее не было нужды выяснять, чем тире отличается от дефиса, и разбираться в этом она не собирается. Обе продемонстрировали элементарную неосведомленность в метаязыке технического редактора (и полиграфистов), профессии более чем смежной.

Степень пассивного владения полиграфической нормой значительно колеблется. Одни сразу же отмечают в тексте отдельные ее нарушения. Другие их не осознают, но бессознательно на них реагируют, происходит эффект «двадцать пятого кадра»: что-то раздражает, а что — непонятно. Наконец, третьи совершенно не беспокоятся по поводу отклонений от полиграфической нормы, а при прямом указании на них недоуменно говорят: «А какая разница?». Корреляции между попаданием в одну из этих категорий и объемом прочитанного или навыками создания авторских текстов если и существуют, то далеко не прямые.

Каждый из трех типов фиксационной нормы имеет два аспекта: собственно текстовый и привязанный к бумажному (или другому) носителю. Рукописное слово, толкующееся несколькими способами из-за того, что ни одна буква не может быть однозначно прочитана; машинописное слово, которое, выражаясь языком ГОСТа, напечатано с «нечистым очком литер», или же такое, где все буквы перебиты (напечатаны поверх других); типографское слово, в котором одна литера набрана «вверх ногами» — все это явные нарушения фиксационных (а не орфографических, например) норм, независимо от того, в какой части страницы соответствующее слово расположено (залез ли школьник на поля, вставлено ли такое слово между строк при машинописи, находится ли оно, в типографском случае, в заглавии книги или в примечании).

Тем не менее, безупречно написанная (напечатанная, набранная) строка может не удовлетворять фиксационной норме по другим причинам. Рукописная объяснительная записка на двух листах вряд ли будет принята начальником, если две трети первого листа текстом не заняты. Четкий машинописный текст без опечаток, в котором строки начинаются на разном расстоянии от края бумаги, или же текст, напечатанный на двух сторонах листа, в издательство не принимался. Заголовок, набранный меньшим кеглем, чем основной текст, текст с разным числом строк на страницах (если одна из них не содержит иллюстраций, не является последней в разделе и т. п.) или же содержащий «коридор» (когда междусловные пробелы в нескольких строках, сливаясь, образуют вертикальную или наклонную прямую белую полосу) считался полиграфическим браком и подлежал перенабору. Во всех этих случаях ненормативность выявляется лишь при соотнесении разных частей текста между собой или с носителем, на котором они зафиксированы. За неимением лучшего термина будем говорить о соотнесении фрагмента текста с некоей рамкой, а такой аспект фиксационной нормы называть рамочным.

2. Исконная рамочная норма и ее разрушение

Для семиотики печатного текста важны и собственно текстовые, и рамочные фиксационные нормы. Начну с характеристики вторых, вынужденно поверхностной, поскольку вхождение в детали привело бы к значительному увеличению объема статьи.

Внимательно исследуя образцовую полиграфическую продукцию (а особенно сопоставляя ее с дефектной), нетрудно сформулировать практически все фиксационные нормы, относящиеся к собственно текстовому аспекту; с рамочным аспектом дело обстоит сложнее. На глаз видно, что между словами бывают пробелы, а абзацы в норме начинаются с красной строки, но каков именно размер абзацного отступа, в каких пределах допустимо варьирование междусловного пробела, на глаз определить сложно. Например, абзацному отступу, приятому в настоящем издании (7,5 мм), по традиционным нормам отечественной полиграфии должен был бы соответствовать текст кегля 13,3. Точные соответствия размера кегля и абзацного отступа касались эстетически немаркированного текста; художественный редактор мог задать принятый в данном тексте абзацный отступ при наборе любым доступным кеглем. Но дробных кеглей, естественно, не бывало. Последние десятилетия вышел из употребления (а потому отсутствовал в типографиях) и 11 кегль, каким якобы набрана основная часть данного сборника. «Якобы» — потому, что то, что в компьютере называется 11 кеглем, на четверть миллиметра меньше того, что так именовалось в традиционной полиграфии. Не много, но на 40 строк набегает целый сантиметр. Компьютер позволяет многое, в том числе и имитацию традиционного 11 кегля. Именно им набран настоящий абзац. Соседние — компьютерным 11 кеглем. Разница на глаз почти незаметна, и не стоило бы обращать на это внимание, но компьютер разрушил ранее принятую типометрию (систему типографских измерений). Как это случилось, кратко описано в Приложении.

Соблюдение буквально любых стандартов, связанных с измерениями, стало невозможным. А на этих стандартах — вырабатывавшихся в континентальной Европе в течение 200 лет и отнюдь не бессмысленных — держалось очень многое. Американская полиграфическая традиция ни чем не хуже и не лучше европейской, она просто другая. И причина заокеанской экспансии — не в безудержном американском глобализме. Отечественным программистам никто не мешал ознакомиться с азами полиграфии и грамотно локализовать американские программы компьютерного набора. Из тех, кто пользуется компьютерным набором (а ручной набор вот-вот вымрет окончательно) одни не подозревают о существовании стандартов, другие считают — «Подумаешь, стандарт…» и пускаются в компьютерные игры с размером шрифта, его плотностью в строке, интерлиньяжем и прочим. Результатом является все, что угодно, вплоть до синих зайцев, часто безобразных.

Чтобы не обижать коллег, займусь самокритикой. При макетировании собственной книги «Пиджины и креольские языки Океании» (1998) для того, чтобы уложить текст в заранее оговоренный объем, я на 3,5% уменьшил межстрочный интервал, на пару миллиметров увеличил вертикальный размер текста на странице и получил возможность впихнуть на всю книгу строк на 400—500 больше. На эстетико-потребительских свойствах изделия, как я вижу post factum, это сказалось отрицательно; лучше было сократить текст. Другая книга (вышедшая в 1995 г.), где я исполнял функции издательского редактора, несмотря на мои протесты (не очень, впрочем, настойчивые), набрана 13 кеглем академической гарнитуры (в ней выступающие части удлинены по вертикали за счет основной части букв) с интерлиньяжем в 12 пунктов; в результате буква б, оказавшись под р соседней сверху строки, налезает на нее. Мораль: хитрее многих поколений полиграфистов при наличии компьютера оказаться можно, умнее — нет.

Что же изменилось в рамочной норме за последние полтора десятилетия? Стандарты существуют и обновляются, но прескриптивная норма ужалась и превратилась в пустую формальность; теперь можно говорить лишь о дескриптивной норме — не как следует делать, а как фактически делается. Чаще всего делается так, как велит компьютер, а в нем «по умолчанию» часто оказываются заложенными американские настройки. Типометрические тонкости на глаз не заметны, но на них многое опирается. Из легко заметных семиотически значимых нововведений отмечу два, касающихся абзаца. Довольно часто стала встречаться межабзацная отбивка, и совсем рядовым явлением стал полудюймовый абзацный отступ, который на глаз в два раза больше традиционного. Каждая из этих инноваций делает членение на абзацы более отчетливым, а будучи совмещенными, они задают тексту принципиально новое структурирование. Это не плохо, это просто иначе, чем бывало раньше.

3. Перипетии собственно текстовой фиксационной нормы

На судьбы собственно тестовой фиксационной нормы за последние 15 лет оказывало влияние несколько обстоятельств. Рубеж 1980‑х — 1990‑х гг. ознаменовался ликвидацией государственного контроля за содержанием печатной продукции; вскоре фактически прекратился и контроль за многими качественными параметрами. Доступность лазерной печати с помощью персональных компьютеров придала массовый характер непрофессиональному макетированию без технического редактирования, а иногда и корректуры текста. Процесс редподготовки рукописи в ряде «традиционных» издательств по экономическим причинам был редуцирован, а в большинстве «новых», по крайней мере в первые годы их существования, свелся по сути к изготовлению оригинал-макета. Создается впечатление, что большинство макетчиков о существовании полиграфической фиксационной нормы не задумывалось, и лишь относительно небольшая их часть имела твердые представления о требованиях машинописной нормы.

В машинописи, как известно, из экономии «клавиатурного пространства», не различались открывающая и закрывающая кавычки, единый знак «прямая кавычка» соответствовал двум типографским «ёлочкам» и двум „лапкам“. Равномерный шрифт приравнивал символы дефиса и тире, цифры 0 и 3 практически не отличались от прописных О и З: на некоторых машинках в цифровом ряду они отсутствовали, и вместо них рекомендовалось использовать соответствующие прописные буквенные литеры. Существовали также особые конвенции типа обозначения знака умножения (2×2) через литеру х (2х2), знака «плюс-минус» (а±1) через подчеркнутый плюс (а+1) или написания римских цифр при помощи цифры один (которая на машинках с русской клавиатурой была представлена одной из двух литер: 1 или I) и русских прописных букв (1У вм. IV, Ш вм. III, УП вм. VII); разрешалась замена открывающей и закрывающей скобок дробная чертой /. Машинописная фиксационная норма допускала отсутствие пробелов после точки в общепринятых сокращениях (типа и т.д., т.е.), а также между инициалами, на практике широко использовалось (вообще говоря, запрещавшееся стандартами на машинописные работы) беспробельное написание инициала и фамилии. В низкокачественных машинописных текстах пробел после знаков препинания бывал факультативен, иногда знаки препинания отбивались от предшествующего текста (с вопросительным и восклицательным знаками это могло делаться намеренно, «потому что так красивее»). Некоторые машинописные приемы (связанные с обратным ходом каретки и вертикальными сдвигами литер менее, чем на строку) оказались трудноисполнимы, остальные — включая и несанкционированные — широко вошли в практику компьютерного набора. В качестве особого курьеза можно отметить использование в качестве римской цифры V буквы Y — ближайшего аналога русской У.

Клавиатура компьютера лишь незначительно расширяла инвентарь графем, доступных на пишущей машинке; то, что возможности компьютера не ограничиваются клавиатурой, не все макетчики поняли сразу, но те, кто понял, стали внедрять новые знаки по собственному разумению. Моден стал символ # как знак номера, многих окрылила возможность использовать знак, промежуточный по длине между тире и дефисом. В действительности это знак минуса, который в традиционной полиграфии последние годы использовался не часто и непоследовательно (отмечу, что в стандартных, специально не правленных наборах лазерных шрифтов его длина и высота соответствуют горизонтальной составляющей знака «плюс», так что между строчными буквами это «короткое тире» выглядит неуместно).

В начале 1990‑х вышли многие тысячи книг, изданных абсолютно как попало; ярким примером такого «синего зайца» служит издание Ф. Карлгрен, Воспитание к Свободе. (Пер. с нем.) М., Московский Центр Вальдорфской педагогики, 1992. В качестве кавычек здесь чаще всего используются «прямые» верхние лапки (они же иногда употребляются вм. ъ: об»ективирование — стр. 196); кроме них встречаются «ёлочки» (стр. 2, 58, 72), “американские” лапки (стр. 126), ‘‘удвоенные одинарные’’ (то, что у нас называется ‘марровские’ — стр. 266, 267). Открывающая и закрывающая кавычки могут отличаться: «__» (стр. 56—57) и «__» (стр. 51). Учитывая, что число кавычек не всегда четно, что в качестве скобок на первых 263 страницах используется только косая черта (далее появляются и круглые скобки), что последовательность Берген-Норвегия (стр. 259) обозначает город и страну, а Винер—Нойштадт (стр. 266) — единый город, что человек с двойной фамилией может писаться как О. Френкль — Лундборг (стр. 259) и многое подобное, для понимания текста требуется умственное напряжение, иногда довольно значительное.

Такие книги, где как угодно может быть изображено все, кроме букв (ср., впрочем, об»ективирование), для середины 1990‑х гг. уже не характерны. Но издания, в которых под одной обложкой собраны тексты с разной (и самодеятельной) полиграфической стилистикой появляются и позже. Ограничусь несколькими замечаниями об одном из сборников «Семиотики и информатики» (вып. 34, 1994). (Собственно говоря, знакомство с ним и подтолкнуло меня к семиотико-полиграфическим размышлениям.)

По использованию знаков тире (—), минус (–) и дефис (-) сборник делится на основной корпус статей и две специфических части. В основном корпусе наряду с тире и дефисом встречается минус, употребляющийся как символ междуцифрия (в примерно равном соотношении со знаком дефиса), а также — изредка — в функции «латинского дефиса»: Frankfurt–am–Main [96], N.–Y. [113, дважды]. В одной из специфических статей [стр. 205—233] знак «—» используется в качестве текстового тире, знак «-» — как символ переноса слова, а в функции собственно дефиса, дефиса присоединительного и сократительного, а также междуцифрия — знак минус (в последней функции — иногда с отбивкой): опять–таки, по–разному, Римско–Византийский, Anglo–Saxon, Византия–2, 1200–летний, на 28–м году, изд–во Московского ун–та, 830–1040, 379 – 395. Текст выглядит, например, так (цитирую с сохранением длины строки):

‹…› Хроники, относимые сегодня к английской истории
1040–1327 гг. н.э., описывают в действительности, Византию–
3 (она же — Византия–2), а потому отражают реальные визан-
тийские события IX–XV веков н.э. [стр. 228].

Наконец, в еще одной статье [стр. 185—204] оппозиция этих знаков по длине нейтрализована и во всех функциях используется символ минуса, причем не опущенный к середине строки строчных букв; между цифрами он выглядит естественно: С. 524–528, а в тексте — высоковат:

‹…› Их фактор–переменные – это классы пере–
менных унифицируемых термов ‹…› [200].

В отношении отбивки инициалов, сокращений типа и т. п., знаков № и § можно найти мелкие закономерности, но количество «исключений» таково, что в целом по сборнику правильнее говорить о свободном распределении написаний. Показательно, что в заголовке одной из статей фигурирует А.Н.Островский [стр. 165], при том, что при фамилии автора статьи оба инициала отбиты, в оглавлении же [стр. 5], напротив, упомянут А. Н. Островский, а у автора инициалы не отбиваются. Пробелы в сокращениях, как правило, отсутствуют; занятным исключением является центральный фрагмент одной из статей [стр. 128—151], где неожиданно появляется отбитое и т. д. (12 раз!), при том, что на тех же страницах 15 раз использовано сокращение т.е. без пробела.

К концу ХХ века положение стабилизировалось, но следы былого раздрая проскальзывают даже в лучших издательствах. Например, в 1998 г. в петербургском отделении издательства «Наука» выходит сборник статей, на титуле которого издательство обозначено как „НАУКА” (с русской открывающей и американской закрывающей, или, что то же самое, с русскими рукописными кавычками), а в тексте упоминается модель “Смысл <=> Текст„ (с американской открывающей в начале и русской открывающей (!) в конце).

Стабилизация не означала унификации; нормы локализовались. Описать сегодняшнее положение хоть сколь-нибудь полно невозможно. Ограничусь несколькими фрагментами.

Вот как устроена «подсистема кавычек» в современных газетах. Большинство использует кавычки только одного рисунка, как правило, «елочки»: «Известия», «Независимая газета» (при В. Третьякове), «Литературная Газета», «Труд», «Комсомольская правда», «Новые Известия», «Время-МН», «Вечерняя Москва», «Метро», «Парламентская газета», «Вёрсты», «Гражданин», «Санкт-Петербургские ведомости», «Петербургский Час пик», «Новый Петербургъ», «Москва-Центр». “Американские” лапки последовательно встречаются реже, из просмотренных — в «Московском комсомольце», в «Южных горизонтах» (газ. Южного округа Москвы) и в «Покровке» (газ. Басманного района Москвы). Наверняка есть и газеты, использующие только прямые кавычки.

Даже обладающие некоторой традицией и авторитетом газеты могут в отношении кавычек демонстрировать полную бессистемность, такова пост-Третьяковская Независимая газета. Так, в номере от 21.12.01 в статье Три лика промышленной политики (во избежание путаницы здесь и ниже цитаты я выделяю курсивом; наличие и вид кавычек соответствуют оригиналам, пропуски в цитатах обозначены знаком ‹…›) один и тот же семинар в Высшей школе бизнеса МГУ называется «Стратегия развития» и «Стратегия развития», в статье Контрапункт Восточного похода преобладают прямые кавычки, много раз упоминается группа армий «Центр», но дважды — группа армий «Центр»; в двух статьях об аукционах (Украинские торги и Женевский Антикворум — хранитель времени) использованы только елочки, в тексте соседней статьи Современные русские художники на Сотбис десятки раз находим прямые кавычки, елочки задействованы только для названия зала, где проходили торги («Олимпия»), а также в подписях под иллюстрациями (пять пар елочек).

Все перечисленные газеты не противопоставляют внешних и внутренних кавычек, ср., например, в выходных данных (традиционно эта часть издания содержала менее всего опечаток): ООО «Рекламно-компьютерное агентство «Труд»; ГУИ «ИПК «Московская правда»; ЗАО «Концерн «Вечерняя Москва». В тексте: ‹…› открылась выставка «Бубновый валет». Путь на Запад? Путь к себе» [Время-МН, 6.02.02]; Исполнилось 35 лет знаменитому “Клубу “12 стульев” “Литературной газеты” [Моск. комс., 28.01.02] — в первом примере не сразу сообразишь, каково название выставки, а в последнем без дополнительной информации невозможно определить, где кончается название клуба.

Различаются эти два типа кавычек редко. Из просмотренных газет последовательно это делается лишь в «Коммерсанте», при этом как внутренние используются традиционные русские лапки. Они же задействованы в газетном логотипе-сокращении — это, конечно, дань архаике. Вот пример из номера от 9.02.02: Господин Венедиктов заявил „Ъ“: «У нас были договоренности с прежним руководством „Газпром-медиа“ о том, что пока„Газпром“ не объявит условия продажи медиаактивов, никто не будет менять менеджмент и совет директоров. Меня оскорбило нынешнее решение руководства „Газпром-медиа“, хотя формально они действуют по закону». В «Газпром-медиа» заявляют, что не намерены вмешиваться в редакционную политику ‹…›. Эта газета отличается исключительно бережным отношением к отечественной полиграфии, здесь оставляют пробел не только между инициалами (что встречается и в других газетах), но даже в сокращениях типа и т. п., а также не отбивают тире от предыдущей точки или запятой («Этот иск,— сказала Мирослава Гонгадзе ‹…›»). Мало того, здесь регулярно противопоставляется отбитое и неотбитое тире (последнее — в случаях типа Мали—Камерун 0:3; «Рома»—«Ювентус»; саммит Россия—ЕС; страны—члены ОПЕК).

Еще одно издание, аналитический еженедельник «Дело» (СПб), хоть и отступает от прошлой практики, но, по крайней мере, в точности соответствует букве Правил 1956 г., требовавших различения рисунка внутренних и внешних кавычек, если они встречаются «в начале или в конце цитаты» (§ 200, Прим. 2) [2:113]. Если кавычки не оказываются в соприкосновении, «Дело» оба раза использует елочки, при «стыковке» кавычек как внутренние применяются лапки разной конфигурации; вот примеры из номера от 11.03.02: «Заявление Думы – шаг совершенно бессмысленный ‹…› Встать против всего мира ради «мандариновой республики» Путин вряд ли пожелает»; «‹…› [СМИ не хотят оказаться] инструментом разрешения пресловутых споров “хозяйствующих субъектов”»; «Падение „Черного ястреба“» [название кинофильма].

Совершенно оригинальным способом расставляет кавычки Газета: лапки в основном тексте, но американские ёлочки в заголовках статей (где прописные буквы используются только в именах собственных — еще одна инновация); внешние и внутренние кавычки не противопоставлены. Подзаголовки разделов статей и мелких заметок в рубриках типа НОВОСТИ или ХРОНИКА в отношении кавычек приравнены к основному тексту. Вот несколько примеров заголовков из номера от 25.01.02 (в нотации этого издания — #13 (68)): “воспитывать человека надо, когда он поперек кровати лежит”; Андрей Николишин: “я не удивился, увидев Буре вновь на льду”; “мы не будем глотать неприятные пилюли”; Газпромбанк уходит от “Газпрома”; “сесть в деканское кресло…” (вот подзаголовки этого материала: настоящий «ухало»; «Виноградов «выглядел» Соколова»); охота на “енотов” (там же в тексте: Первый эпизод на бандитском сленге называется охотой на «енота»). Вот примеры заголовков мелких заметок: «Белнефтехим» будет акционирован; «ЛУКОЙЛ» определился; «дело «Аэрофлота» [внутренние и внешние закрывающие кавычки совмещены!]; не вернули на доследование (как видим, в «малозначительных» заголовках начальных прописных также нет).

Такое противопоставление кавычек нередко встречается в Интернете. Скажем, в Выпуске № 2 Дайджеста «Ассоциация компьютерной лингвистики и интеллектуальных технологий» (http://www.dialog-21.ru/digest.asp) кавычки в заголовке и тексте сообщения одновременно встретились 7 раз, при этом в тексте они всегда оказались прямыми, а в заголовках — трижды прямыми, дважды русскими и по разу американскими и «псевдоамериканскими»; под последним термином я имею в виду дважды употребленные открывающие:

заголовок: Ефремовский завод синтетического каучука строит свою КИС на базе продуктов “1C“

текст под ним: Московская компания «Институт типовых решений — Производство» (ИТРП) завершила очередной этап начатого в марте 2001 г. проекта ‹…›

Еще одна «критическая» подсистема знаков — это дефис—минус—тире. Бóльшая часть упомянутой выше периодики пользуется всеми тремя знаками, при этом в функции тире используется как собственно тире, так и минус («короткое тире»); изредка они бессистемно перемежаются в одном издании. Иногда прослеживается тенденция к использованию минуса как разделителя цифр, но последовательного его такого употребления мне не встречалось. Встречаются и «нейтрализующие» издания, где нет ни тире, ни минуса, а все их возможные функции берет на себя дефис. Как правило, это малотиражные недолговечные издания, но в их число попали относительно давний «Новый Петербургъ» и даже «Комсомольская правда». Экзотическое и очень последовательное распределение трех знаков встретилось мне в двух иностранных изданиях — рижских газетах Вести и Rеспублика (просматривал номера за июнь 1999 г.). За тире здесь сохранены все его традиционные функции, дефис используется лишь как символ переноса, во всех остальных случаях употребляется минус: г–н Горбунов, минута–другая, какой–то, пресс–конференция, Нью–Йорк, в 89–м году, МИ–6, аль–Файед и т. п.

Русская фиксационная норма расшаталась не только в области символов, но и в области пробелов. В современной полиграфии сосуществует две нормы: пробел после любой сократительной точки и беспробельное написание сокращений типа и т. п. и инициалов; как вариант последней встречается также отсутствие пробела между инициалом и фамилией. Речь идет именно о норме, не о случайности. Мне, как архаику, в разных изданиях приходилось сталкиваться с ликвидацией имевшихся у меня пробелов с мотивировкой «у нас так положено». Реально беспробельная норма уже побеждает. Рассмотрим, как устроены инициалы у авторов двухтомного сборника материалов семинара ДИАЛОГ 2000 (http://www.dialog-21.ru/full_archive2000.asp?arch_id=1242&parent_menu_id=711).

В числе докладчиков, имеющих перед фамилией два инициала, беспробельная модель (И.И.Иванов) представлена у 40, модель И. И. Иванов — у 31, модель И.И. Иванов — у 84. (Кроме того, четырежды представлена модель с двусторонней отбивкой точки: И . И . Иванов.) Поскольку я пользовался электронной версией, удалось выяснить, что инициалы разделены неразрывным пробелом лишь у 15 «И. И. Ивановых» (у четверых из них неразрывен и пробел между инициалами и фамилией) — это явно сознательные сторонники классической русской традиции. Среди последователей новой модели неразнывным пробелом пользуется лишь один. Поскольку этот факт явно свидетельствует о сознательности данного человека, я выяснил у него отношение к проблеме пробелов. Он сообщил, что уже несколько лет, как перешел на новую модель. Я попытался установить корреляцию между новым оформлением инициалов и использованием новых (американских) кавычек. Выяснилось, что все, кто не пользуется елочками, не делают пробела между инициалами.

* * *

Тенденции налицо: современная русская полиграфическая практика испытала серьезное воздействие машинописной практики и американской компьютерной нормы (где тоже без влияния машинописи не обошлось). Современная норма довольно расплывчата, хотя ее локальные варианты могут быть довольно жесткими.

Приложение: Традиционная и компьютерная типометрия

Минимальная типометрическая единица называется везде одинаково — пункт (point) — и составляет ¹/₇₂ дюйма, но сами дюймы различны. Континентальная типометрия была разработана французским словолитчиком Франсуа Амбруазом Дидо в конце XVIII в. и соотносится с тогдашним французским дюймом, британская — с архаичным британским. Поскольку каждая англоговорящая страна имела собственный эталон дюйма, в конце концов в 1960‑х годах было решено повсеместно считать его в точности равным 25,4 мм, и англо-американский point оказался чуть меньше его ¹/₇₂; при компьютеризации американской полиграфии point был приравнен в точности к ¹/₇₂ дюйма современного. Соотношение разных пунктов с миллиметром и современным дюймом таково:

— отечественный (и континентальный): 0,3759 мм 0,0148 дюйма

— традиционный британско-американский: 0,3514 мм 0,0138 дюйма

— современный компьютерный: 0,3528 мм 0,0139 дюйма.

При «компьютерной» печати смещение по сравнению с британско-американской традицией абсолютно не заметно: при 10 кегле теряется одна строка из 250, но различие с русской и континентальноевропейской печатью очень существенно: на стандартную книжную страницу набегает около трех лишних строк.

Вертикальный размер литеры (в центре которой расположено изображение буквы или другого знака, а сверху и снизу — так называемые заплечики, которые не пропечатываются и создают минимальный просвет между нижними и верхними границами соседних строк) измеряется в пунктах; при одном и том же кегле в зависимости от гарнитуры сами буквы и их выступающие вверх и вниз части могут быть крупнее или мельче, но размер литер остается неизменным за счет заплечиков. В последние десятилетия существования СССР стандарты предусматривали употребление кеглей в 5—10, 12, 14, 16, 20, 24, 28, 36 пунктов и некоторых более крупных.

Пробельный материал измеряется также в пунктах; минимальный размер шпаций (разделяющих литеры в строке) составляет 1 пункт, а шпон (использующихся для увеличения расстояния между строками) — 2 пт. (прежде были и однопунктовые). Стандартный минимальный междусловный интервал формировался при помощи полукегельной шпации (то есть 4 пт. для кегля 8, 5 пт. для кегля 10, 6 пт. для кегля 12 и т. п.), абзацный отступ — при помощи полуторакегельной. Большие длины принято измерять квадратами (это единица длины, равная 48 пунктам, или 18,043 мм), при этом формат полосы набора (части книжной страницы, занятой текстом) до недавнего времени измерялся исключительно в квадратах, их половинах и четвертях, так, широко известные сборники «Новое в лингвистике» печатались на бумаге 84×108 (в сантиметрах, но единицу измерения формата печатного листа обозначать не принято) в ¹/₃₂ листа с форматом набора 5½×9 квадратов. С 1994 г. действует ОСТ 29.124—94 [3], согласно которому нормирована лишь длина строки (единицы измерения, меньшей, чем четверть квадрата, по-прежнему нет), минимальный размер поля (для наружного — 11 мм) и интерлиньяж (соответствующий кеглю или отличающийся от него наличием шпон). Ранее вертикальный размер текста также был определен; точнее, в абсолютных единицах (в квадратах, их половинах и четвертях) был стандартизован формат полосы набора. Выбор стандартов был не случаен, а обуславливался экономической целесообразностью. При их введении решался вопрос, каким образом максимально выгодно использовать для печати бумажные листы принятых в стране размеров, оставляя разумную пропорцию между текстом и полями. И оборудование, и стандарты достались СССР от имперских времен. В бумагоделательном производстве оборудование заменялось быстрее, и в начале 1960‑х гг. два (кажется) из типовых бумажных размеров уменьшились (60×92 → 60×90, 72×108 → 70×108). Поскольку полиграфический стандарт не изменился, бумажная составляющая себестоимости книг упала на 2,2%, но поля в них, естественно, уменьшились. Каждый может убедиться, что при одинаковой ширине полосы набора делать заметки на полях, скажем, «Принципов истории языка» Пауля (1960) несколько удобнее, чем в «Языке и философии культуры» Гумбольдта (1985). Многочисленные постсоветские отступления от форматов не очень волнуют издателей и полиграфистов, но с точки зрения потребителя они либо антиэкономичны (удорожают книгу), либо антиэргономичны (съедают поля). Порядок, предусмотренный в современном стандарте, когда жестко зафиксированы варианты лишь одной из сторон текстового прямоугольника, не помогает решению экономической и эргономической задач, и его никто не соблюдает.

Формат представления рукописей в настоящее издание предусматривал верхнее и нижнее поля в 1 дюйм и боковые в 1¼ дюйма на формате A4, то есть полоса набора имеет размеры 146,6×246,2 мм, что типометрически означает 8,125×13,645 квадрата [390×665 пт.]. Новому стандарту это не соответствует лишь по ширине (она должна быть увеличена или уменьшена на ¹/₈ квадрата, 2,3 мм), а старому — также по форме прямоугольника; сколь сильно — можно судить по тому, что ближайшие допустимые прежде полосы набора — 8×12¾ кв. (для печати в ¹/₁₆ листа формата 70×108) и 9¼×13½ кв. (в ¹/₈ листа 60×84); заранее известен был и формат издания после обрезки: в первом варианте 170×260 мм, во втором — 205×290 мм.

Список литературы

Волков А. А. Грамматология. Семиотика письменной речи. М.: МГУ, 1982.
Правила русской орфографии и пунктуации. М.: Учпедгиз, 1956.
ОСТ 29.124—94 // Стандарты по издательскому делу. М.: Юристъ, 1998.

ГИКРЯ на «Диалоге»-2016

Опубликовано Четверг Май 26th, 2016 автором shavrina

Добавить комментарий

Дорогие читатели!
C радостью сообщаем вам, что опубликована обновленная программа конференции «Диалог»!

Расписание выступлений участников проекта ГИКРЯ:

4 день, 4 июня
10:00-14:00 / Секция 1

➡Piperski A. Ch., Kukhto A. V.
Intra-speaker Stress Variation in Russian: A Corpus-driven Study of Russian Poetry

11:30-12:00 / Секция 1 SpellRuEval

➡Shavrina T. O., Sorokin A. A., Baytin A. V., Galinskaya I. E.
SpellRuEval: the First Competition on Automatic Spelling Correction for Russian

➡Dereza O. V., Kayutenko D. A., Marakasova A. A., Fenogenova A. S.
A Complex Approach to Spellchecking and Autocorrection for Russian

➡Sorokin A. A., Shavrina T. O.
Automatic Spelling Correction for Russian Social Media Texts

15:30-19:00/Стендовая сессия

➡Selegey D., Shavrina T., Selegey V., Sharoff S.
Automatic Morphological Tagging of Russian Social Media Corpora: Training and Testing

Полная программа «Диалога» по дням:
http://www.dialog-21.ru/dialogue2016/participants/pro..

Если кто-то еще не успел зарегистрироваться, это можно сделать здесь: http://www.dialog-21.ru/registration/

До встречи на конференции!

Яндекс. Так ли уж найдется все?

Опубликовано Понедельник Май 16th, 2016 автором shavrina

Добавить комментарий

В. И. Беликов

Яндекс: Так ли уж найдётся всё?

[Написано в сентябре 2012. Статья, в которой этот текст был приложением, позднее опубликована; оказавшись редактором сборника, куда она вошла, я не счел приличным снабжать длинную статью еще и длинными приложениями]

Как любая коммерческая компания, «Яндекс» развивается в борьбе разработчиков и менеджеров. И те, и другие заинтересованы в результате, но для первых в норме результатом является качественная работа программных продуктов, для вторых — прибыль. Лозунг Найдётся всё! при его появлении был гораздо ближе к реальности, чем сейчас. Уже несколько лет Яндекс (по примеру Гугла, исконно имевшего ту же особенность) не показывает 1001-й результата найденного. Ищет ли он всё — «неизвестно», но зато ясно, что если не предъявлять результат найденного, то и искать нет смысла. Поиск стоит денег, поиск «просто так» — выброшенные деньги. Индексация документов Интернета стоит денег. Надо ли индексировать все документы некоторого сайта? Для полноты выдачи безусловно надо (скажет разработчик), но вполне достаточно той полноты, которая удовлетворяет пользователя, дальше — пустая трата денег (скажет менеджер). Стоит ли индексировать весь документ, или достаточно половины (четверти, десятой части…)? Про короткие документы ответ ясен: не просто стоит, а совершенно необходимо. Про длинные тоже ясен: если текст документа однороден, то индексировать его полностью для многих поисковых задач не имеет смысла: деньги на ветер. Любая поисковая машина изучает запросы. Редкие типы запросов вполне можно игнорировать, а в отношении частых стоит ублажать клиента, в частности, угадывать его желание — пользователь ввел четыре первые буквы, а для него уже готов список подсказок. Год назад вопрос о выборе между Яндексом и Гуглом для лингвиста не стоял: грамматика запроса у Яндекса существенно богаче. Но когда заявленная грамматика перестает работать, причем в совсем простых случаях (с 2011 года даже при запросе точной формы не всегда удается получить то, что хотел, а именно, все те и только те документы, где это форма содержится), толку от ее заявленного богатства немного.

В марте 2012 г. выяснилось, что Яндекс стал индексировать в Журнальном зале не все документы: конкретные ранее находившиеся тексты в выдачу не попадают (разумеется, речь о текстах, которые из Интернета никуда не делись, введением в адресную строку их «старого» адреса они прекрасно находятся). Кроме того, количество дублей в выдаче стало непредсказуемым, при небольшой переформулировке запроса релевантный документ можно получить и в двух экземплярах, и в пяти:

Помыкавшись некоторое время с Яндексом, при работе с этим сегментом я перешел на Гугл: сложнее, но надежнее.

Далее надо ждать частичной индексации документов. Тогда, например, при запросе (даже без кавычек) зима крестьянин торжествуя будет выдан весь текст, и про дровни, и про лошадку, и про бразды, а на дровни Яндекс будет предлагать что-нибудь про деревню, древнее, деревянное, но история про торжествующего крестьянина не выплывет.

Неполнота выдачи (отсутствие всего, что соответствует пользовательскому запросу), вообще говоря, естественна. А нерелевантность при текстовом поиске (появление в выдаче того, что пользователь не запрашивал) обычно фиктивная и объясняется коммуникативной неудачей между пользователем и поисковиком, ответственность за которую целиком лежит на пользователе: он имел в виду попросить одно, а получает то, что запросил на самом деле[1].

Но нерелевантные документы, часто выдаются намеренно, дабы угодить пользователю. Автоматически принятое за опечатку Яндекс поправляет (и с точки зрения менеджмента это правильно, поскольку способствует повышению имиджа поисковика в глазах большинства пользователей. Но плохо то, что возможность вернуться к поиску именно «как бы опечатки» (лингвиста иногда интересует как раз такой запрос) предоставляется не всегда. В других случаях программа поиска услужливо расширяет запрос, причем шум — нерелевантное и незапрашивавшееся — может быть велик, составляя вместе с дублями 9/10 выдачи и более. В Журнальном зале на август 2012 есть несколько сот документов, удовлетворяющих несложному запросу владик. Яндекс предлагает «10 тыс. ответов», а самым релевантным документом считает рецензию Валерия Шубинского на книгу Владислава Кулакова «Постфактум. Книга о стихах» (М.: НЛО, 2007):

Разумеется, рецензент панибратства не проявляет и в отзыве на книгу Владислава Кулакова слово Владик отсутствует. И как Яндекс догадался, что конкретного Владислава зовут именно Владик, а не Славик или не Влад? Или на соответствующие запросы эта единица тоже выдается? При таком поиске на славик среди самых релевантных соответствующего документа нет:

Впрочем, и здесь выдача по релевантности начинается с документов, запросу не удовлетворяющих. Уменьшительное имя естественно выглядит в воспоминаниях Ю. Богатырева, которому «довелось не только знать Славу Терентьева, но и дружить с ним», но до Славика он не доходит. В эссе Омри Ронена встречается только нарицательная слава (а также славный и бесславье)[2]. Есть ли среди «90 тыс. ответов» на славик тот, где рецензируется книга Владислава Кулакова, установить невозможно, но, по-видимому, нет. Во всяком случае на запрос славик Шубинский Постфактум рецензия не выдается:

Можно заметить, что среди «11 ответов» текстуально различаются только четыре. При этом в «Книжной полке» К. Р. Кобрина (ответ № 2) в действительности не упомянут Постфактум, в романе Дж. Литтелла «Благоволительницы» (ответ № 10) не говорится о Шубинском, а славика нет ни в одном из найденных Яндексом текстов.

Сходный запрос со словом влад дает нулевую выдачу:

Между тем в современных художественных текстах Влад как сокращение от Владислав по крайней мере столь же частотен, что и Владик[3], а в повседневном узусе встречается в несколько раз чаще. В блогосфере, где Яндекса ищет по иному алгоритму, чем в основном поиске, и претензий не вызывает, результаты за 1.09.2011 — 31.07.2012 для практически не дающих шума контекстов таковы (для сравнения добавлены и имена Слава, Славик):

	всего записей	сгруппировано по авторам, без «очень похожих»
«зовут Влад»	998	794
«зовут Владик»	101	95
«зовут Владом»	16	16
«зовут Владиком»	6*	6*
«зовут Слава»	441	388
«зовут Славик»	207	190
«зовут Славой»	40	23
«зовут Славиком»	2	2
* Трижды — о Владивостоке. В остальных поисках доля Владивостока невелика.

Сходные результаты дает и бесконтекстный поиск на «влад» | «владом» (другие словоформы дают заметный шум за счет украинского влада ‘власть’) и «владик» | «владиком», но здесь не удается получить результат за период больше суток; на 1.07.2012 число блоггеров, употребивших соответствующие словоформы, было 855 и 175, на 31.07.2012 — 775 и 151; пятикратное преимущество за Владом.

Конечно, это не прямые данные о том, каково соотношение тех, к кому применяется соответствующие уменьшительные формы имени Владислав, тем более, что Влад изредка может быть полным именем (варианты Влад и Владик иногда могут использоваться также для имен Владимир, Владилен и подобных, но для наших целей это несущественно). Итак, если уж оказывать «услугу», дополняя поиск полного имени уменьшительным, то следует не забывать частотные варианты.

Замечание о поиске Гугла

При запросе «владик» по сайту magazines.russ.ru 5.09.2012 Гугл выдавал 94 документа. При запросе владик (без кавычек) 5.09.2012 — 109. В этом случае выдача имела следующую специфику:

вообще не попадают те документы, где это слово представлено только словоформой Владике[4];
те, где встречается только Владиком, могут попасть[5], а могут и не попасть[6]. При этом на запросы владике и владиком (в кавычках или без них) все соответствующие документы выдаются;
два последних выданных документа (то есть сочтенные наименее релевантными, но все же полезными для пользователя) буквальному пониманию запроса не соответствовали; в документе 108 фигурировал Влад (но документов с Владом и без Владика на этом сайте многие десятки), а в последнем выданном (см. скриншот) из похожего стречается лишь Владелец (2 раза), владельца, Владыка/владыка (4), владыке (4), владыки (2), владыку (2).

Упомяну еще одно специфическое свойство этого поисковика, до конца ставшее мне понятным лишь при этом поиске. Гугл пишет мою поисковую биографию, любезно сообщая при некоторых единицах выдачи что-нибудь вроде Вы посещали эту страницу несколько раз (2). Дата последнего посещения: 16.08.12:

Я детального дневника не веду, но в середине августа занимался распространенностью двух омонимичных топонимов Владик ‘Владивосток’ и Владик ‘Владикавказ’ и интересовался релевантными текстами в Журнальном зале. Но тогда я посещал эту страницу с другого компьютера, с другим провайдером, в Новгородской области. Так что «кукиз» тут ни при чем. Дело, вероятно, в том, что и сейчас, и 16 августа я первым делом смотрел почту на gmail.com. Уверен, что владедец почтового ящика от Гугл при желании может отыскать место, где можно поставить галочку при чем-нибудь типа «Историей своего поиска не интересуюсь». Тогда про даты посещения сообщать не будут, а в остальном… Все мы под колпаком у Мюллера / Гугла / <вставьте нужное>.

Выдача документов, нерелевантных буквальному запросу, происходит заведомо намеренно и вряд ли по инициативе собственно разработчиков. Но не так уж редко часть выдачи Яндекса такова, что не устроит даже менеджмент, тем более тех, кто непосредственно причастен к созданию программного обеспечения. Во всяком случае при сообщении о пустой выдаче там, где релевантные документы заведомо имеются, или нелепых выдачах Яндекса И. В. Сегалович (директор компании по технологиям и разработке) говорит «Этого не может быть».

Трудно с этим не согласиться: с давно отлаженными программами такого быть не может. Но бывает, причем достаточно часто, чтобы испытывать номинативную потребность в общем термине, характеризующем подобные флуктуации.

Нетерминологичность русского языка подталкивает к поиску его среди заимствований. Думаю, идеально подходит не обремененное другими терминологическими значениями слово фортель. Фортелем я называю результат работы компьютерной программы, заведомо не соответствующий желанию правильно применяющего ее пользователя, и который трудно считать намеренной practical joke со стороны ее создателей; думаю, фортели впечатляют (должны впечатлять) и самих производителей программного обеспечения.

На стадии отладки программы не вполне адекватное ее поведение естественно, но после внутреннего тестирования (которое, разумеется, серьезными производителями софта проводится тщательно) и перехода от бета-версий к распространению окончательного продукта, а особенно после его длительной массовой эксплуатации пользователь редко приходит в состояние изумления.

Фортели характерны отнюдь не только для Яндекса. Гугл, например, нередко сообщает, что число страниц, на которых он находит упоминание Пушкина, заметно больше найденных страниц с упоминанием Shakespeare[7]. Фортелем здесь является именно сообщение о якобы имевшем место факте, по разным причинам заведомо абсурдном, а не факт нахождения Гуглом 202 млн упоминаний Пушкина и 151 млн упоминаний Shakespeare’а (цифры от 24.01.2012): нет никаких оснований считать, что по какому-то запросу Гугл продолжает поиск документов после предъявленной пользователю тысячи.

Примером фортеля от Майкрософта может служить «незнакомство» с правилом округления до целого числа. Калькулятор в комплекте Windows 7 в варианте «Домашняя базовая» при делении 43200 на 491 выдает результат 87,9837067209776 (не проверял, но похоже на правду), а модуль подсчета процентов, встроенный в пасьянс FreeCell/Солитер, сообщает, что 432 составляет 87% от 491. Программиста такой способ вычисления процентов может не удивить (если, конечно, речь не идет о начислении ему процентов по вкладу и других «бытовых» процентах), но Windows 7 используют не только программисты[8].

Что касается фортелей Яндекса, то они типологически разнородны. Один уже упоминался выше: предложить поискать нечто в регионе Нижний Новгород и не уметь найти там ни Яндекс’а, ни Yandex’а ни даже «чего нибудь» — это ли не фортель?

Впрочем, с 2010 г. поиск в Яндекс-блогах по Нижнему Новгороду стал возможен[9].

Важное свойство фортеля — неожиданность результата для самих разработчиков, поэтому отнесение Киевской области Украины к Центральному федеральному округу (а административная единица с таким названием есть, кажется, только в Российской Федерации) фортелем не является — это результат сознательного действия программиста.

А расширение русскоязычной блогосферы Грузии за счет блоггеров, описавших в профиле свое местонахождение как

[Atlanta или другой населенный пункт,] Georgia, United States,

следует считать фортелем. Геополитической составляющей за этим фортелем нет: тех, чье место жительства описано русскими буквами (…Джорджия…) к Грузии не приписывают.

В результате на семантически далекие от Грузии запросы, ограниченные коротким временным промежутком, вся выдача может формироваться за счет американских записей. Так, за четыре месяца Япония была упомянута в пяти записях двух «жителей Грузии»:

Но живут они в городах Evans и Marietta (по профилю первый заканчивал школу в пос. Ерзовка Волгоградской обл., второй — в Москве):

Поиску «грузинско-ориентированной» лексики этот фортель не мешает[10], но серьезно препятствует выявлению распространения в Грузии синхронной вариативности (типа матюгаться/матюкаться, мучать/мучить, лазит/лазает), вариативности, связанной с архаизацией (типа телячий восторг → щенячий восторг, шофер → водитель), недавних инноваций (типа нормуль, фиолетово) и многих других лексических противопоставлений. Во всех этих случаях получение аккуратных результатов для русского языка Грузии возможно только при просмотре профилей.

Остановлюсь на двух фортелях общего поиска Яндекса.

Парадигму глагола матюгаться Яндекс знает, но предлагает поискать «приличное слово» матюкаться.

Наивный пользователь сочтет, что матюгаться нехорошо, надо матюкаться. Но на запрос матюкаться (без кавычек), получив совсем небольшую выдачу, решает, что теперь почти никто не матюкается, и сам перестает.

Но подлинный матерщинник хочет проверить соотношение тех, кто решил не матюкаться (они должны были попасть в предыдущую выдачу) и тех, кто вовсю матюкается:

Неожиданный результат на последнем скриншоте объясняется просто: по запросам матюкаться и матюкается (без кавычек) Яндекс ищет лишь вхождения соответствующих словоформ, поскольку спрягать этот глагол не умеет. В результате выявлять географию распространения вариантов матюкаться и матюгаться приходится по дизъюнкции словоформ[11].

Среди опций расширенного поиска Яндекса предлагается выбор места расположения искомых слов в документе: «где угодно» и «в заголовке»[12]. Стандартно на странице выдачи в каждой выдаваемой единице присутствует один-два фрагмента, релевантных запросу; при поиске по заголовкам, вроде бы, не следует ожидать ничего, кроме заголовка, однако фрагменты текста, не относящиеся к заголовку, выдаются. При поиске в сегменте «Классика» Библиотеки Мошкова документов со словоформой люди в заголовке среди 55 «ответов» имелся и представленный на следующем скриншоте, где в найденном словоформа люди хоть и присутствует, но отнюдь не в заголовке.

Довольно очевидно, что такой документ запросу не соответствует. В числе 55 выданных есть еще шесть документов, где в заголовках нет слова люди:

Дмитриев Иван Иванович. Стихотворения;
Карлейль Томас. Этика жизни (Трудиться и не унывать!);
Сведенборг Эмануэль. О Небесах, о мире духов и об аде;
Булгаков Валентин Федорович Христианская этика;
Бальмонт Константин Дмитриевич. П. Б. Шелли. Стихотворения;
Вовчок Марко. Iнститутка.

При запросе title:»людей» выдается 12 документов, в том числе и с заголовками:

Соловьев Сергей Михайлович. Учебная книга по русской истории;
Мамин-Сибиряк Д. Н. Три конца.

Но наиболее удивляет результат запроса title:»людям» (см. следующий скриншот).

Здесь выдается только шум, среди пяти «ответов» нет ни одного релевантного[13].

Постскриптумное замечание к Приложению 2

Коллега попросил отреагировать на одно его сочинение совсем непредвзято, именуя меня вслед за Mitrius’ом «беспощадным Беликовым». На таковую номинацию была и прямая ссылка, но я — не по беспощадности, а из педантизма — поискал исходный текст Яндексом.

Выше я писал, что алгоритмы поиска Яндекс-блогов и общего поиска Яндекса различны, но подтверждений не считал нужным приводить. Однако в общем поиске Яндекс выкинул двойной фортель, который особенно впечатляет на фоне аккуратного поиска Яндекс-блогов[14]:

Как видим, адреса двух «найденных» в общем поиске документов отличаются многозначительным многоточием в адресе «первого». Кликнув на ссылку, узнаем и точный адрес:

http://mitrius.livejournal.com/891144.html,

который ничем не отличается от адреса «второго» «найденного» документа. Конечно, двойная выдача каждого документа существенно повышает авторитет поисковика среди пользователей, умиляющихся количеством найденного. Программисты — люди подневольные: что менеджмент велит, то и делают. Но следовало бы поставить запрет на такое увеличение продуктивности при не очень богатой выдаче: уж больно очевидны приписки.

Но забавнее всего полное презрение к арифметике. Задолго до интернета, еще до денежной реформы 1961 года, был анекдот про продавца: Два пирожка по сорок — два сорок… В современной интерпретации от Яндекса: Одна запись в блоге — раз, она же еще раз, итого — «Нашлось три ответа».

[1] Иногда это неизбежно; так, интересуясь формой 1 ед. от лазить, пользователь получает некоторое число вхождений глагольной словоформы, но в основном разнообразную лажу. приходится зауживать запрос: на «не лажу» шума от существительного будет совсем немного, на «я не лажу» — так мало, что им можно пренебречь. Но никуда не денется шум от ладить₁ (ладить с кем-л.) и довольно редкого ладить₂ (ладить что-л.). О соотношении омонимичных словоформ в современных литературных текстах говорит, например, ручная обработка выдачи по Журнальному залу по июль 2012 г. включительно: из 64 текстов с сегментом лажу в 44 это вин. пад. от лажа, в 6 текстах — 1 лицо ед. числа от лазить (в двух случаях это цитирование державинского То с ней на голубятню лажу), в 12 — от ладить₁ , в 2 от ладить₂. (В сочетании с отрицанием, не лажу, — только глаголы, однажды от лазить, в четырех в случаях от ладить₁). Вариант лазаю представлен в 11 текстах, лазию — в 1 (а соотношение лазит/лазает —33 / 41).

[2] Занятно, что на «основной» текст О. Ронена и его версию для печати (см. фрагмент «-pr» в адресе) Яндекс выдает разные цитаты.

[3] Простой поиск на Влад и Владик даст трудно интерпретируемые результаты из-за сокращения Влад. и Владик (реже Влад) в знач. ‘Владивосток’; кроме того, выдача Яндекса сильно замусорена, а Гугл плохо умеет склонять Владик. Поиск Гуглом с минимальным контекстом дает такие результаты в Журнальном зале на 25.08.2012: «с Владом» и «с Владиком» — по 26 вхождений, «у Влада»: 18, «у Владика»: 15, «о Владе»: 4, «о Владике»: 1.

[4] А именно, следующие тексты: Ольга Кучкина. Русский вагон // «Континент» 2010, № 144; Вячеслав Усов. Побег паука // «Звезда» 2003, № 7; Евгений Пинаев. Похвальное слово Бахусу, или Верстовые столбы бродячего живописца. Роман воспоминаний. Книга третья // «Урал» 2004, № 7; Олег Захаров. Два рассказа. [Двое] // «Урал» 2005, № 10; Сергей Вараксин. Рассказы. [Утекай!] // «Нева» 2007, № 11; Олег Нетово. Новый год к нам мчится… // «Урал» 2008, № 5; Алексей Варламов. За счастьем // «Октябрь» 2009, № 4; Борис Евсеев. Далекая? Великая? Большая? // «Октябрь» 2009, № 4.

[5] Например, Геннадий Айги. Я — малевичеанец // «Зеркало» 2005, № 25; Сергей Шерстюк. Украденная книга // «Октябрь» 2000, № 8.

[6] Например, Владимир Лавров. Стихи [Раскувыркино детство] // «Нева» 2003, № 7; Любовь Задко. Марафон. Записки дилетанта // «Урал» 2002, № 5.

[7] Скриншоты поисков от 9.01.2011, 10.08.2011 и 24.01.2012 демонстрировались в моем докладе «Сегментно-статистический подход к Интернету как корпусу (на примере анализа блогосферы)» на семинаре ABBYY Open (abbyy.ru/science/seminars/archive).

[8] Такое же правило вычисления процентов применялось и в некоторых более ранних вариантах Windows, в других (например, в Windows XP) округление процентов происходит так, как предпочитают математики и сторонники здравого смысла без специальных знаний.

[9] Этот скриншот был опубликован в материалах конференции «Диалог» 2009 г. И. В. Сегалович в ней участвовал; годом ранее на той же конференции я говорил ему об отсутствии поиска по заявленному в меню городу в частной беседе. Яндекс так неторопливо избавлялся от этого фортеля, что создается впечатление, будто происходило это через силу.

[10] Так, при поиске на «шаталó» (‘прогул уроков’, обычно в контексте ходить, бегать на шатало) все записи из американской Джорджии отражают глагольную словоформу и оказываются шумом.

[11] Для проиллюстрированной на скриншотах Новгородской области при таком поиске (без форм причастий) по 2011 г. нашлось 13 блогов, где использовался глагол матюкаться, и 24 с глаголом матюгаться, результат типичный для северных регионов. В соседней Псковской области, соответственно, — 17 и 16: сказывается языковая близость к Белоруссии (327 и 262 блога за тот же период). Доля матюкаться максимальна на Украине — 893 и 76 блогов за 2011 г. В ряде регионов у этих глаголов есть конкуренты. За 2001—2011 гг. в Пермском крае матюкаться регистрируется в 30 блогах, матюгаться в 40, а в 55 — матькаться, в Волгоградской области 74 матюкаться, 20 матюгаться и 164 матиться.

[12] Заголовок документа отражает историю создания оцифрованного текста и может плохо соотноситься с «человеческим» пониманием того, что может быть заголовком (к приводимым ниже примерам это замечание не относится). В каждой единице выдачи заголовок (или его начало) располагается в первой кликабельной строке.

[13] Заголовок первой единицы не уместился на странице выдачи, полностью он выглядит так: Одоевский Владимир Федорович. Н. Ф. Сумцов. Князь В. Ф. Одоевский.

[14] Имеется в виду положение на август 2012 г. В действительности поиск в Яндекс-блогах не всегда шел аккуратно, о чем выше говорилось.

SpellRuEval на Диалоге-2016

Опубликовано Вторник Май 10th, 2016 автором shavrina

Добавить комментарий

Дорогие друзья! Участники соревнования и все интересующиеся коррекцией орфографии!

С радостью сообщаем Вам, что в этом году на «Диалоге»-2016 у нас будет секция по исправлению орфографии, приуроченная к итогам нашей дорожки.

Все желающие, а особенно участники соревнования приглашаются — даже если Вы не подавали статью, у Вас будет возможность выступить с докладом, короткой презентацией или просто послушать других участников и задать им вопросы.
Пожалуйста, отпишитесь о своих планах на конференцию!

В ближайшее время мы сообщим организационные моменты этой секции, а пока открыта регистрация участников:

http://www.dialog-21.ru/dialog2016/participants/registration/

С уважением,

Оргкомитет дорожки

Опрос: как часто вы пользуетесь корпусами?

Опубликовано Воскресенье Апрель 3rd, 2016 автором shavrina

Добавить комментарий

SpellRuEval: итоги соревнования

Опубликовано Четверг Март 10th, 2016 автором shavrina

Добавить комментарий

Итоги соревнования ‪#‎SpellRuEval‬
Уважаемые участники соревнования и все интересующиеся развитием российского NLP!
Мы рады опубликовать итоги первого в России соревнования по автоматическому исправлению опечаток SpellRuEval, прошедшее в рамках формата Dialogue Evaluation.

Итоговые метрики качества находится в таблице: https://docs.google.com/spreadsheets/d/1zoBaOHFMIO4_W..

Все файлы соревнования, в том числе золотой стандарт, скрипты для проверки и результаты контрольной выборки лежат в папке: https://drive.google.com/drive/u/0/folders/0B8XxHuDfy..

Подходы участников радуют своим разнообразием — основной упор сделан на развитие контекстных методов, от векторных моделей до н-грамм. Мы благодарим всех, кто помогал нам с разметкой, организацией и, конечно, разжигал исследовательский интерес участников! Спасибо вам!
Всех желающих узнать более подробно подходы участников, встретиться с ними лично, поделиться опытом и высказать свои идеи — приглашаем на Диалог-2016!
http://www.dialog-21.ru/dialog2016/

SpellRuEval: методика оценивания

Опубликовано Четверг Январь 28th, 2016 автором shavrina

Добавить комментарий

Дорогие коллеги, участники первого в России соревнования по автоматическому исправлению опечаток #SpellRuEval !

Так как накопилось достаточно большое количество вопросов о том, как именно мы будем сверять полученные результаты и какие метрики будем использовать, мы решили разослать участникам наш скрипт для проверки, чтобы каждый имел возможность предварительно увидеть принципы его работы и запустить на собственном материале.

source_sents.txt и corrected_sents.txt — обучающая выборка, answer_file — файл с ответами вашей системы, evaluate.py — скрипт на 3-ем питоне.

Если после у Вас останутся вопросы по критериям оценивания, просьба написать нам.

С уважением,
Алексей Сорокин и Татьяна Шаврина
alexey.sorokin@list.ru
rybolos@gmail.com

SpellRuEval: обучающая выборка

Опубликовано Суббота Январь 9th, 2016 автором shavrina

Добавить комментарий

Дорогие друзья корпуса ГИКРЯ и участники первого в России соревнования по автоматическому исправлению опечаток SpellRuEval!
Не так давно мы разослали всем командам обучающую выборку (у нас уже 30 команд!), состоящую из 2000 предложений, для каждого из которых приведено как исходное, так и исправленное предложения.

Но праздники заканчиваются, и мы хотели бы напомнить всем, что ждем комментариев, пожеланий, вопросов
alexey.sorokin@list.ru

Первый из приложенных файлов содержит исходные предложения, а второй —- результаты их исправления. Результаты прогона на контрольной выборке необходимо будет сдать в том же формате.

При разметке, равно как и при оценке результатов использовались следующие соглашения:
1) капитализация не учитывалась
2) знаки препинания не учитываются (кроме внутрисловных дефисов), поэтому они отсутствуют в исправленных предложениях
3) ё заменено на е
4) кодировка всех предложений utf-8

Обучающая коллекция планируется к публикации 10 февраля.

В ближайшую неделю будет выслано письмо с более подробным описанием методики оценивания и приложением некоторых дополнительных материалов.

С наилучшими пожеланиями,
организаторы соревнования SpellRuEval
#dialog21 #dialogue #spellrueval #spellcheck

Разметка обучающей выборки SpellRuEval

Опубликовано Среда Декабрь 16th, 2015 автором shavrina

Добавить комментарий

Уважаемые коллеги!

Мы организуем первое в России соревнование по исправлению опечаток в рамках Dialogue Evaluation 2016!
http://www.dialog-21.ru/evaluation/SpellingCorrection/
Для этого нам нужно вручную разметить порядка 10000 предложений, что невозможно без вашей помощи. В то же время усилиями нескольких десятков человек эта работа может быть выполнена за несколько дней. Мы просим Вас о репосте этого объявления, а также о разметке некоторого небольшого количества предложений (желательно 100-200, это займет около получаса), расположенных здесь.

После регистрации Вам будет предложено предложение из Рунета, предположительно содержащее опечатку/орфографическую ошибку. Инструкции по разметке прикреплены к письму, а также их можно прочитать на сайте.
Надеемся на Вашу помощь!

Если у вас есть затруднения, замечания или предложения, напишите нам:
Оргвопросы, предложения и замечания: Алексей Сорокин (alexey.sorokin@list.ru)
Техническая поддержка: Елена Рыкунова (alena.rykunova@gmail.com)
Подбор предложений: Татьяна Шаврина (geekrya@gmail.com)

С уважением,
организаторы соревнования Dialogue Evaluation по исправлению опечаток.
#dialog21 #spellrueval

Диалог 2016: соревнование по исправлению опечаток SpellRuEval

Опубликовано Четверг Декабрь 3rd, 2015 автором shavrina

Добавить комментарий

Дорогие коллеги!
Мы рады сообщить вам, что в этом году в рамках Dialogue Evaluation впервые планируется провести соревнование по автоматическому исправлению опечаток SpellRuEval, материалы для которого предоставляет наш корпус!

Задача исправления опечаток и нормализации текста является одной из наиболее важных в вычислительной лингвистике. Она значима как сама по себе, так и как промежуточный этап при информационном поиске, автоматической морфологической разметке, извлечении информации из текста, а также в других задачах. Особенно актуальной данная задача является при автоматической обработке текстов из сети Интернет, прежде всего социальных медиа.

В настоящее время нам важно оценить количество потенциальных участников. Если вы рассматриваете возможность принять участие в данном соревновании, заполните электронную заявку:
https://docs.google.com/forms/d/1AyMRgFeUCxJq9O_TJ49m..

Вы также можете написать письмо Алексею Сорокину по адресу alexey.sorokin@list.ru . Помимо заявок, мы будем рады любым конструктивным комментариям и предложениям по проведению дорожки, а также оценке результатов и другим связанным вопросам.

Более подробную информацию о соревновании вы можете прочитать во вложенном файле, а также на сайте конференции Диалог и нашей странице на Facebook.

Первое информационное письмо SpellRuEval-2016

ГИКРЯ

Генеральный Интернет-Корпус Русского Языка

Архив рубрики: Новости

В. И. Беликов — Компьютер и эволюция русской полиграфической нормы

1. Разновидности фиксационных норм русского текста

2. Исконная рамочная норма и ее разрушение

3. Перипетии собственно текстовой фиксационной нормы

Список литературы

ГИКРЯ на «Диалоге»-2016

Яндекс. Так ли уж найдется все?

Яндекс: Так ли уж найдётся всё?

SpellRuEval на Диалоге-2016

Опрос: как часто вы пользуетесь корпусами?

SpellRuEval: итоги соревнования

SpellRuEval: методика оценивания

SpellRuEval: обучающая выборка

Разметка обучающей выборки SpellRuEval

Диалог 2016: соревнование по исправлению опечаток SpellRuEval