ГИКРЯ на «Диалоге»-2016

Дорогие читатели!
C радостью сообщаем вам, что опубликована обновленная программа конференции «Диалог»!
диалог
Расписание выступлений участников проекта ГИКРЯ:

4 день, 4 июня
10:00-14:00 / Секция 1

➡Piperski A. Ch., Kukhto A. V.
Intra-speaker Stress Variation in Russian: A Corpus-driven Study of Russian Poetry

11:30-12:00 / Секция 1 SpellRuEval

➡Shavrina T. O., Sorokin A. A., Baytin A. V., Galinskaya I. E.
SpellRuEval: the First Competition on Automatic Spelling Correction for Russian

➡Dereza O. V., Kayutenko D. A., Marakasova A. A., Fenogenova A. S.
A Complex Approach to Spellchecking and Autocorrection for Russian

➡Sorokin A. A., Shavrina T. O.
Automatic Spelling Correction for Russian Social Media Texts

15:30-19:00/Стендовая сессия

➡Selegey D., Shavrina T., Selegey V., Sharoff S.
Automatic Morphological Tagging of Russian Social Media Corpora: Training and Testing

Полная программа «Диалога» по дням:
http://www.dialog-21.ru/dialogue2016/participants/pro..

Если кто-то еще не успел зарегистрироваться, это можно сделать здесь: http://www.dialog-21.ru/registration/

До встречи на конференции!

Яндекс. Так ли уж найдется все?

беликов В. И. Беликов

Яндекс: Так ли уж найдётся всё?

найдется все

[Написано в сентябре 2012. Статья, в которой этот текст был приложением, позднее опубликована; оказавшись редактором сборника, куда она вошла, я не счел приличным снабжать длинную статью еще и длинными приложениями]

Как любая коммерческая компания, «Яндекс» развивается в борьбе разработчиков и менеджеров. И те, и другие заинтересованы в результате, но для первых в норме результатом является качественная работа программных продуктов, для вторых — прибыль. Лозунг Найдётся всё! при его появлении был гораздо ближе к реальности, чем сейчас. Уже несколько лет Яндекс (по примеру Гугла, исконно имевшего ту же особенность) не показывает 1001-й результата найденного. Ищет ли он всё — «неизвестно», но зато ясно, что если не предъявлять результат найденного, то и искать нет смысла. Поиск стоит денег, поиск «просто так» — выброшенные деньги. Индексация документов Интернета стоит денег. Надо ли индексировать все документы некоторого сайта? Для полноты выдачи безусловно надо (скажет разработчик), но вполне достаточно той полноты, которая удовлетворяет пользователя, дальше — пустая трата денег (скажет менеджер). Стоит ли индексировать весь документ, или достаточно половины (четверти, десятой части…)? Про короткие документы ответ ясен: не просто стоит, а совершенно необходимо. Про длинные тоже ясен: если текст документа однороден, то индексировать его полностью для многих поисковых задач не имеет смысла: деньги на ветер. Любая поисковая машина изучает запросы. Редкие типы запросов вполне можно игнорировать, а в отношении частых стоит ублажать клиента, в частности, угадывать его желание — пользователь ввел четыре первые буквы, а для него уже готов список подсказок. Год назад вопрос о выборе между Яндексом и Гуглом для лингвиста не стоял: грамматика запроса у Яндекса существенно богаче. Но когда заявленная грамматика перестает работать, причем в совсем простых случаях (с 2011 года даже при запросе точной формы не всегда удается получить то, что хотел, а именно, все те и только те документы, где это форма содержится), толку от ее заявленного богатства немного.

В марте 2012 г. выяснилось, что Яндекс стал индексировать в Журнальном зале не все документы: конкретные ранее находившиеся тексты в выдачу не попадают (разумеется, речь о текстах, которые из Интернета никуда не делись, введением в адресную строку их «старого» адреса они прекрасно находятся). Кроме того, количество дублей в выдаче стало непредсказуемым, при небольшой переформулировке запроса релевантный документ можно получить и в двух экземплярах, и в пяти:

Помыкавшись некоторое время с Яндексом, при работе с этим сегментом я перешел на Гугл: сложнее, но надежнее.

Далее надо ждать частичной индексации документов. Тогда, например, при запросе (даже без кавычек) зима крестьянин торжествуя будет выдан весь текст, и про дровни, и про лошадку, и про бразды, а на дровни Яндекс будет предлагать что-нибудь про деревню, древнее, деревянное, но история про торжествующего крестьянина не выплывет.

Неполнота выдачи (отсутствие всего, что соответствует пользовательскому запросу), вообще говоря, естественна. А нерелевантность при текстовом поиске (появление в выдаче того, что пользователь не запрашивал) обычно фиктивная и объясняется коммуникативной неудачей между пользователем и поисковиком, ответственность за которую целиком лежит на пользователе: он имел в виду попросить одно, а получает то, что запросил на самом деле[1].

Но нерелевантные документы, часто выдаются намеренно, дабы угодить пользователю. Автоматически принятое за опечатку Яндекс поправляет (и с точки зрения менеджмента это правильно, поскольку способствует повышению имиджа поисковика в глазах большинства пользователей. Но плохо то, что возможность вернуться к поиску именно «как бы опечатки» (лингвиста иногда интересует как раз такой запрос) предоставляется не всегда. В других случаях программа поиска услужливо расширяет запрос, причем шум — нерелевантное и незапрашивавшееся — может быть велик, составляя вместе с дублями 9/10 выдачи и более. В Журнальном зале на август 2012 есть несколько сот документов, удовлетворяющих несложному запросу владик. Яндекс предлагает «10 тыс. ответов», а самым релевантным документом считает рецензию Валерия Шубинского на книгу Владислава Кулакова «Постфактум. Книга о стихах» (М.: НЛО, 2007):

Разумеется, рецензент панибратства не проявляет и в отзыве на книгу Владислава Кулакова слово Владик отсутствует. И как Яндекс догадался, что конкретного Владислава зовут именно Владик, а не Славик или не Влад? Или на соответствующие запросы эта единица тоже выдается? При таком поиске на славик среди самых релевантных соответствующего документа нет:

Впрочем, и здесь выдача по релевантности начинается с документов, запросу не удовлетворяющих. Уменьшительное имя естественно выглядит в воспоминаниях Ю. Богатырева, которому «довелось не только знать Славу Терентьева, но и дружить с ним», но до Славика он не доходит. В эссе Омри Ронена встречается только нарицательная слава (а также славный и бесславье)[2]. Есть ли среди «90 тыс. ответов» на славик тот, где рецензируется книга Владислава Кулакова, установить невозможно, но, по-видимому, нет. Во всяком случае на запрос славик Шубинский Постфактум рецензия не выдается:

Можно заметить, что среди «11 ответов» текстуально различаются только четыре. При этом в «Книжной полке» К. Р. Кобрина (ответ № 2) в действительности не упомянут Постфактум, в романе Дж. Литтелла «Благоволительницы» (ответ № 10) не говорится о Шубинском, а славика нет ни в одном из найденных Яндексом текстов.

Сходный запрос со словом влад дает нулевую выдачу:

Между тем в современных художественных текстах Влад как сокращение от Владислав по крайней мере столь же частотен, что и Владик[3], а в повседневном узусе встречается в несколько раз чаще. В блогосфере, где Яндекса ищет по иному алгоритму, чем в основном поиске, и претензий не вызывает, результаты за 1.09.2011 — 31.07.2012 для практически не дающих шума контекстов таковы (для сравнения добавлены и имена Слава, Славик):

всего
записей
сгруппировано
по авторам, без
«очень похожих»
«зовут Влад» 998 794
«зовут Владик» 101 95
«зовут Владом» 16 16
«зовут Владиком» 6* 6*
«зовут Слава» 441 388
«зовут Славик» 207 190
«зовут Славой» 40 23
«зовут Славиком» 2 2
* Трижды — о Владивостоке. В остальных
поисках доля Владивостока невелика.

Сходные результаты дает и бесконтекстный поиск на «влад» | «владом» (другие словоформы дают заметный шум за счет украинского влада ‘власть’) и «владик» | «владиком», но здесь не удается получить результат за период больше суток; на 1.07.2012 число блоггеров, употребивших соответствующие словоформы, было 855 и 175, на 31.07.2012 — 775 и 151; пятикратное преимущество за Владом.

Конечно, это не прямые данные о том, каково соотношение тех, к кому применяется соответствующие уменьшительные формы имени Владислав, тем более, что Влад изредка может быть полным именем (варианты Влад и Владик иногда могут использоваться также для имен Владимир, Владилен и подобных, но для наших целей это несущественно). Итак, если уж оказывать «услугу», дополняя поиск полного имени уменьшительным, то следует не забывать частотные варианты.

Замечание о поиске Гугла

При запросе «владик» по сайту magazines.russ.ru 5.09.2012 Гугл выдавал 94 документа. При запросе владик (без кавычек) 5.09.2012 — 109. В этом случае выдача имела следующую специфику:

  • вообще не попадают те документы, где это слово представлено только словоформой Владике[4];
  • те, где встречается только Владиком, могут попасть[5], а могут и не попасть[6]. При этом на запросы владике и владиком (в кавычках или без них) все соответствующие документы выдаются;
  • два последних выданных документа (то есть сочтенные наименее релевантными, но все же полезными для пользователя) буквальному пониманию запроса не соответствовали; в документе 108 фигурировал Влад (но документов с Владом и без Владика на этом сайте многие десятки), а в последнем выданном (см. скриншот) из похожего стречается лишь Владелец (2 раза), владельца, Владыка/владыка (4), владыке (4), владыки (2), владыку (2).

Упомяну еще одно специфическое свойство этого поисковика, до конца ставшее мне понятным лишь при этом поиске. Гугл пишет мою поисковую биографию, любезно сообщая при некоторых единицах выдачи что-нибудь вроде Вы посещали эту страницу несколько раз (2). Дата последнего посещения: 16.08.12:

Я детального дневника не веду, но в середине августа занимался распространенностью двух омонимичных топонимов Владик ‘Владивосток’ и Владик ‘Владикавказ’ и интересовался релевантными текстами в Журнальном зале. Но тогда я посещал эту страницу с другого компьютера, с другим провайдером, в Новгородской области. Так что «кукиз» тут ни при чем. Дело, вероятно, в том, что и сейчас, и 16 августа я первым делом смотрел почту на gmail.com. Уверен, что владедец почтового ящика от Гугл при желании может отыскать место, где можно поставить галочку при чем-нибудь типа «Историей своего поиска не интересуюсь». Тогда про даты посещения сообщать не будут, а в остальном… Все мы под колпаком у Мюллера / Гугла / <вставьте нужное>.

Выдача документов, нерелевантных буквальному запросу, происходит заведомо намеренно и вряд ли по инициативе собственно разработчиков. Но не так уж редко часть выдачи Яндекса такова, что не устроит даже менеджмент, тем более тех, кто непосредственно причастен к созданию программного обеспечения. Во всяком случае при сообщении о пустой выдаче там, где релевантные документы заведомо имеются, или нелепых выдачах Яндекса И. В. Сегалович (директор компании по технологиям и разработке) говорит «Этого не может быть».

Трудно с этим не согласиться: с давно отлаженными программами такого быть не может. Но бывает, причем достаточно часто, чтобы испытывать номинативную потребность в общем термине, характеризующем подобные флуктуации.

Нетерминологичность русского языка подталкивает к поиску его среди заимствований. Думаю, идеально подходит не обремененное другими терминологическими значениями слово фортель. Фортелем я называю результат работы компьютерной программы, заведомо не соответствующий желанию правильно применяющего ее пользователя, и который трудно считать намеренной practical joke со стороны ее создателей; думаю, фортели впечатляют (должны впечатлять) и самих производителей программного обеспечения.

На стадии отладки программы не вполне адекватное ее поведение естественно, но после внутреннего тестирования (которое, разумеется, серьезными производителями софта проводится тщательно) и перехода от бета-версий к распространению окончательного продукта, а особенно после его длительной массовой эксплуатации пользователь редко приходит в состояние изумления.

Фортели характерны отнюдь не только для Яндекса. Гугл, например, нередко сообщает, что число страниц, на которых он находит упоминание Пушкина, заметно больше найденных страниц с упоминанием Shakespeare[7]. Фортелем здесь является именно сообщение о якобы имевшем место факте, по разным причинам заведомо абсурдном, а не факт нахождения Гуглом 202 млн упоминаний Пушкина и 151 млн упоминаний Shakespeare’а (цифры от 24.01.2012): нет никаких оснований считать, что по какому-то запросу Гугл продолжает поиск документов после предъявленной пользователю тысячи.

Примером фортеля от Майкрософта может служить «незнакомство» с правилом округления до целого числа. Калькулятор в комплекте Windows 7 в варианте «Домашняя базовая» при делении 43200 на 491 выдает результат 87,9837067209776 (не проверял, но похоже на правду), а модуль подсчета процентов, встроенный в пасьянс FreeCell/Солитер, сообщает, что 432 составляет 87% от 491. Программиста такой способ вычисления процентов может не удивить (если, конечно, речь не идет о начислении ему процентов по вкладу и других «бытовых» процентах), но Windows 7 используют не только программисты[8].

Что касается фортелей Яндекса, то они типологически разнородны. Один уже упоминался выше: предложить поискать нечто в регионе Нижний Новгород и не уметь найти там ни Яндекс’а, ни Yandex’а ни даже «чего нибудь» — это ли не фортель?

Впрочем, с 2010 г. поиск в Яндекс-блогах по Нижнему Новгороду стал возможен[9].

Важное свойство фортеля — неожиданность результата для самих разработчиков, поэтому отнесение Киевской области Украины к Центральному федеральному округу (а административная единица с таким названием есть, кажется, только в Российской Федерации) фортелем не является — это результат сознательного действия программиста.

А расширение русскоязычной блогосферы Грузии за счет блоггеров, описавших в профиле свое местонахождение как

[Atlanta или другой населенный пункт,] Georgia, United States,

следует считать фортелем. Геополитической составляющей за этим фортелем нет: тех, чье место жительства описано русскими буквами (…Джорджия…) к Грузии не приписывают.

В результате на семантически далекие от Грузии запросы, ограниченные коротким временным промежутком, вся выдача может формироваться за счет американских записей. Так, за четыре месяца Япония была упомянута в пяти записях двух «жителей Грузии»:

Но живут они в городах Evans и Marietta (по профилю первый заканчивал школу в пос. Ерзовка Волгоградской обл., второй — в Москве):

 

Поиску «грузинско-ориентированной» лексики этот фортель не мешает[10], но серьезно препятствует выявлению распространения в Грузии синхронной вариативности (типа матюгаться/матюкаться, мучать/мучить, лазит/лазает), вариативности, связанной с архаизацией (типа телячий восторгщенячий восторг, шоферводитель), недавних инноваций (типа нормуль, фиолетово) и многих других лексических противопоставлений. Во всех этих случаях получение аккуратных результатов для русского языка Грузии возможно только при просмотре профилей.

Остановлюсь на двух фортелях общего поиска Яндекса.

1.

Парадигму глагола матюгаться Яндекс знает, но предлагает поискать «приличное слово» матюкаться.

Наивный пользователь сочтет, что матюгаться нехорошо, надо матюкаться. Но на запрос матюкаться (без кавычек), получив совсем небольшую выдачу, решает, что теперь почти никто не матюкается, и сам перестает.

Но подлинный матерщинник хочет проверить соотношение тех, кто решил не матюкаться (они должны были попасть в предыдущую выдачу) и тех, кто вовсю матюкается:

Неожиданный результат на последнем скриншоте объясняется просто: по запросам матюкаться и матюкается (без кавычек) Яндекс ищет лишь вхождения соответствующих словоформ, поскольку спрягать этот глагол не умеет. В результате выявлять географию распространения вариантов матюкаться и матюгаться приходится по дизъюнкции словоформ[11].

2.

Среди опций расширенного поиска Яндекса предлагается выбор места расположения искомых слов в документе: «где угодно» и «в заголовке»[12]. Стандартно на странице выдачи в каждой выдаваемой единице присутствует один-два фрагмента, релевантных запросу; при поиске по заголовкам, вроде бы, не следует ожидать ничего, кроме заголовка, однако фрагменты текста, не относящиеся к заголовку, выдаются. При поиске в сегменте «Классика» Библиотеки Мошкова документов со словоформой люди в заголовке среди 55 «ответов» имелся и представленный на следующем скриншоте, где в найденном словоформа люди хоть и присутствует, но отнюдь не в заголовке.

Довольно очевидно, что такой документ запросу не соответствует. В числе 55 выданных есть еще шесть документов, где в заголовках нет слова люди:

  • Дмитриев Иван Иванович. Стихотворения;
  • Карлейль Томас. Этика жизни (Трудиться и не унывать!);
  • Сведенборг Эмануэль. О Небесах, о мире духов и об аде;
  • Булгаков Валентин Федорович  Христианская этика;
  • Бальмонт Константин Дмитриевич. П. Б. Шелли. Стихотворения;
  • Вовчок Марко. Iнститутка.

При запросе title:»людей» выдается 12 документов, в том числе и с заголовками:

  • Соловьев Сергей Михайлович. Учебная книга по русской истории;
  • Мамин-Сибиряк Д. Н. Три конца.

Но наиболее удивляет результат запроса title:»людям» (см. следующий скриншот).

Здесь выдается только шум, среди пяти «ответов» нет ни одного релевантного[13].

 

Постскриптумное замечание к Приложению 2

Коллега попросил отреагировать на одно его сочинение совсем непредвзято, именуя меня вслед за Mitrius’ом «беспощадным Беликовым». На таковую номинацию была и прямая ссылка, но я — не по беспощадности, а из педантизма — поискал исходный текст Яндексом.

Выше я писал, что алгоритмы поиска Яндекс-блогов и общего поиска Яндекса различны, но подтверждений не считал нужным приводить. Однако в общем поиске Яндекс выкинул двойной фортель, который особенно впечатляет на фоне аккуратного поиска Яндекс-блогов[14]:

 

Как видим, адреса двух «найденных» в общем поиске документов отличаются многозначительным многоточием в адресе «первого». Кликнув на ссылку, узнаем и точный адрес:

http://mitrius.livejournal.com/891144.html,

который ничем не отличается от адреса «второго» «найденного» документа. Конечно, двойная выдача каждого документа существенно повышает авторитет поисковика среди пользователей, умиляющихся количеством найденного. Программисты — люди подневольные: что менеджмент велит, то и делают. Но следовало бы поставить запрет на такое увеличение продуктивности при не очень богатой выдаче: уж больно очевидны приписки.

Но забавнее всего полное презрение к арифметике. Задолго до интернета, еще до денежной реформы 1961 года, был анекдот про продавца: Два пирожка по сорок — два сорок… В современной интерпретации от Яндекса: Одна запись в блоге — раз, она же еще раз, итого — «Нашлось три ответа».

 

[1] Иногда это неизбежно; так, интересуясь формой 1 ед. от лазить, пользователь получает некоторое число вхождений глагольной словоформы, но в основном разнообразную лажу. приходится зауживать запрос: на «не лажу» шума от существительного будет совсем немного, на «я не лажу» — так мало, что им можно пренебречь. Но никуда не денется шум от ладить1 (ладить с кем-л.) и довольно редкого ладить2 (ладить что-л.). О соотношении омонимичных словоформ в современных литературных текстах говорит, например, ручная обработка выдачи по Журнальному залу по июль 2012 г. включительно: из 64 текстов с сегментом лажу в 44 это вин. пад. от лажа, в 6 текстах — 1 лицо ед. числа от лазить (в двух случаях это цитирование державинского То с ней на голубятню лажу), в 12 — от ладить1 , в 2 от ладить2. (В сочетании с отрицанием, не лажу, — только глаголы, однажды от лазить, в четырех в случаях от ладить1). Вариант лазаю представлен в 11 текстах, лазию — в 1 (а соотношение лазит/лазает —33 / 41).

[2] Занятно, что на «основной» текст О. Ронена и его версию для печати (см. фрагмент «-pr» в адресе) Яндекс выдает разные цитаты.

[3] Простой поиск на Влад и Владик даст трудно интерпретируемые результаты из-за сокращения Влад. и Владик (реже Влад) в знач. ‘Владивосток’; кроме того, выдача Яндекса сильно замусорена, а Гугл плохо умеет склонять Владик. Поиск Гуглом с минимальным контекстом дает такие результаты в Журнальном зале на 25.08.2012: «с Владом» и «с Владиком» — по 26 вхождений, «у Влада»: 18, «у Владика»: 15, «о Владе»: 4, «о Владике»: 1.

[4] А именно, следующие тексты: Ольга Кучкина. Русский вагон // «Континент» 2010, № 144; Вячеслав Усов. Побег паука // «Звезда» 2003, № 7; Евгений Пинаев. Похвальное слово Бахусу, или Верстовые столбы бродячего живописца. Роман воспоминаний. Книга третья // «Урал» 2004, № 7; Олег Захаров. Два рассказа. [Двое] // «Урал» 2005, № 10; Сергей Вараксин. Рассказы. [Утекай!] // «Нева» 2007, № 11; Олег Нетово. Новый год к нам мчится… // «Урал» 2008, № 5; Алексей Варламов. За счастьем // «Октябрь» 2009, № 4; Борис Евсеев. Далекая? Великая? Большая? // «Октябрь» 2009, № 4.

[5] Например, Геннадий Айги. Я — малевичеанец // «Зеркало» 2005, № 25; Сергей Шерстюк. Украденная книга // «Октябрь» 2000, № 8.

[6] Например, Владимир Лавров. Стихи [Раскувыркино детство] // «Нева» 2003, № 7; Любовь Задко. Марафон. Записки дилетанта // «Урал» 2002, № 5.

[7] Скриншоты поисков от 9.01.2011, 10.08.2011 и 24.01.2012 демонстрировались в моем докладе «Сегментно-статистический подход к Интернету как корпусу (на примере анализа блогосферы)» на семинаре ABBYY Open (abbyy.ru/science/seminars/archive).

[8] Такое же правило вычисления процентов применялось и в некоторых более ранних вариантах Windows, в других (например, в Windows XP) округление процентов происходит так, как предпочитают математики и сторонники здравого смысла без специальных знаний.

[9] Этот скриншот был опубликован в материалах конференции «Диалог» 2009 г. И. В. Сегалович в ней участвовал; годом ранее на той же конференции я говорил ему об отсутствии поиска по заявленному в меню городу в частной беседе. Яндекс так неторопливо избавлялся от этого фортеля, что создается впечатление, будто происходило это через силу.

[10] Так, при поиске на «шаталó» (‘прогул уроков’, обычно в контексте ходить, бегать на шатало) все записи из американской Джорджии отражают глагольную словоформу и оказываются шумом.

[11] Для проиллюстрированной на скриншотах Новгородской области при таком поиске (без форм причастий) по 2011 г. нашлось 13 блогов, где использовался глагол матюкаться, и 24 с глаголом матюгаться, результат типичный для северных регионов. В соседней Псковской области, соответственно, — 17 и 16: сказывается языковая близость к Белоруссии (327 и 262 блога за тот же период). Доля матюкаться максимальна на Украине — 893 и 76 блогов за 2011 г. В ряде регионов у этих глаголов есть конкуренты. За 2001—2011 гг. в Пермском крае матюкаться регистрируется в 30 блогах, матюгаться в 40, а в 55 — матькаться, в Волгоградской области 74 матюкаться, 20 матюгаться и 164 матиться.

[12] Заголовок документа отражает историю создания оцифрованного текста и может плохо соотноситься с «человеческим» пониманием того, что может быть заголовком (к приводимым ниже примерам это замечание не относится). В каждой единице выдачи заголовок (или его начало) располагается в первой кликабельной строке.

[13] Заголовок первой единицы не уместился на странице выдачи, полностью он выглядит так: Одоевский Владимир Федорович. Н. Ф. Сумцов. Князь В. Ф. Одоевский.

[14] Имеется в виду положение на август 2012 г. В действительности поиск в Яндекс-блогах не всегда шел аккуратно, о чем выше говорилось.

SpellRuEval на Диалоге-2016

Дорогие друзья! Участники соревнования и все интересующиеся коррекцией орфографии!

С радостью сообщаем Вам, что в этом году на «Диалоге»-2016 у нас будет секция по исправлению орфографии, приуроченная к итогам нашей дорожки.

Все желающие, а особенно участники соревнования приглашаются — даже если Вы не подавали статью, у Вас будет возможность выступить с докладом, короткой презентацией или просто послушать других участников и задать им вопросы.
Пожалуйста, отпишитесь о своих планах на конференцию!

В ближайшее время мы сообщим организационные моменты этой секции, а пока открыта регистрация участников:

С уважением,
Оргкомитет дорожки
spellruseval_май

SpellRuEval: итоги соревнования

Итоги соревнования ‪#‎SpellRuEval‬
Уважаемые участники соревнования и все интересующиеся развитием российского NLP!
Мы рады опубликовать итоги первого в России соревнования по автоматическому исправлению опечаток SpellRuEval, прошедшее в рамках формата Dialogue Evaluation.

spellruseval_final3

Итоговые метрики качества находится в таблице: https://docs.google.com/spreadsheets/d/1zoBaOHFMIO4_W..

Все файлы соревнования, в том числе золотой стандарт, скрипты для проверки и результаты контрольной выборки лежат в папке: https://drive.google.com/drive/u/0/folders/0B8XxHuDfy..

Подходы участников радуют своим разнообразием — основной упор сделан на развитие контекстных методов, от векторных моделей до н-грамм. Мы благодарим всех, кто помогал нам с разметкой, организацией и, конечно, разжигал исследовательский интерес участников! Спасибо вам!
Всех желающих узнать более подробно подходы участников, встретиться с ними лично, поделиться опытом и высказать свои идеи — приглашаем на Диалог-2016!
http://www.dialog-21.ru/dialog2016/

SpellRuEval: методика оценивания

Дорогие коллеги, участники первого в России соревнования по автоматическому исправлению опечаток #SpellRuEval !

dTW9aJmv2PA

Так как накопилось достаточно большое количество вопросов о том, как именно мы будем сверять полученные результаты и какие метрики будем использовать, мы решили разослать участникам наш скрипт для проверки, чтобы каждый имел возможность предварительно увидеть принципы его работы и запустить на собственном материале.

source_sents.txt и corrected_sents.txt — обучающая выборка, answer_file — файл с ответами вашей системы, evaluate.py — скрипт на 3-ем питоне.

Если после у Вас останутся вопросы по критериям оценивания, просьба написать нам.

С уважением,
Алексей Сорокин и Татьяна Шаврина
alexey.sorokin@list.ru
rybolos@gmail.com

SpellRuEval: обучающая выборка

Дорогие друзья корпуса ГИКРЯ и участники первого в России соревнования по автоматическому исправлению опечаток SpellRuEval!
Не так давно мы разослали всем командам обучающую выборку (у нас уже 30 команд!), состоящую из 2000 предложений, для каждого из которых приведено как исходное, так и исправленное предложения.

spellruseval2
Но праздники заканчиваются, и мы хотели бы напомнить всем, что ждем комментариев, пожеланий, вопросов :)
alexey.sorokin@list.ru

Первый из приложенных файлов содержит исходные предложения, а второй —- результаты их исправления. Результаты прогона на контрольной выборке необходимо будет сдать в том же формате.

При разметке, равно как и при оценке результатов использовались следующие соглашения:
1) капитализация не учитывалась
2) знаки препинания не учитываются (кроме внутрисловных дефисов), поэтому они отсутствуют в исправленных предложениях
3) ё заменено на е
4) кодировка всех предложений utf-8

Обучающая коллекция планируется к публикации 10 февраля.

В ближайшую неделю будет выслано письмо с более подробным описанием методики оценивания и приложением некоторых дополнительных материалов.

С наилучшими пожеланиями,
организаторы соревнования SpellRuEval
#dialog21 #dialogue #spellrueval #spellcheck

Разметка обучающей выборки SpellRuEval

Уважаемые коллеги!

Мы организуем первое в России соревнование по исправлению опечаток в рамках Dialogue Evaluation 2016!
http://www.dialog-21.ru/evaluation/SpellingCorrection/
Для этого нам нужно вручную разметить порядка 10000 предложений, что невозможно без вашей помощи. В то же время усилиями нескольких десятков человек эта работа может быть выполнена за несколько дней. Мы просим Вас о репосте этого объявления, а также о разметке некоторого небольшого количества предложений (желательно 100-200, это займет около получаса), расположенных здесь.

После регистрации Вам будет предложено предложение из Рунета, предположительно содержащее опечатку/орфографическую ошибку. Инструкции по разметке прикреплены к письму, а также их можно прочитать на сайте.
Надеемся на Вашу помощь!

Если у вас есть затруднения, замечания или предложения, напишите нам:
Оргвопросы, предложения и замечания: Алексей Сорокин (alexey.sorokin@list.ru)
Техническая поддержка: Елена Рыкунова (alena.rykunova@gmail.com)
Подбор предложений: Татьяна Шаврина (geekrya@gmail.com)

С уважением,
организаторы соревнования Dialogue Evaluation по исправлению опечаток.
#dialog21 #spellrueval

Диалог 2016: соревнование по исправлению опечаток SpellRuEval

Дорогие коллеги!
Мы рады сообщить вам, что в этом году в рамках Dialogue Evaluation впервые планируется провести соревнование по автоматическому исправлению опечаток SpellRuEval, материалы для которого предоставляет наш корпус!

Задача исправления опечаток и нормализации текста является одной из наиболее важных в вычислительной лингвистике. Она значима как сама по себе, так и как промежуточный этап при информационном поиске, автоматической морфологической разметке, извлечении информации из текста, а также в других задачах. Особенно актуальной данная задача является при автоматической обработке текстов из сети Интернет, прежде всего социальных медиа.

В настоящее время нам важно оценить количество потенциальных участников. Если вы рассматриваете возможность принять участие в данном соревновании, заполните электронную заявку:
https://docs.google.com/forms/d/1AyMRgFeUCxJq9O_TJ49m..

Вы также можете написать письмо Алексею Сорокину по адресу alexey.sorokin@list.ru . Помимо заявок, мы будем рады любым конструктивным комментариям и предложениям по проведению дорожки, а также оценке результатов и другим связанным вопросам.

Более подробную информацию о соревновании вы можете прочитать во вложенном файле, а также на сайте конференции Диалог и нашей странице на Facebook.

Первое информационное письмо SpellRuEval-2016

Семинары ГИКРЯ: «Об автоматическом определении морфологических парадигм»

Коллектив ГИКРЯ приглашает всех желающих на доклад участника нашего проекта, Алексея Сорокина, который пройдет на семинаре «Некоторые применения математических методов в языкознании»!

Хорошо известно, что порождающей способности контекстно-свободных грамматик недостаточно для адекватного моделирования синтаксиса естественных языков. В связи с этим интересны обобщения контекстно-свободных грамматик, обладающие большей порождающей способностью, но при этом сохраняющие такие полезные свойства КС-грамматик, как независимость вывода от контекста, существование простых нормальных форм и наличие полиномиального алгоритма разбора. Одним из таких обобщений являются разрывные контекстно-свободные грамматики (РКС-грамматики). В докладе будет надо определение РКС-грамматики, изучены их простейшие свойства, а также рассмотрены некоторые примеры, интересные с точки зрения приложений.
◘ Что: доклад «Об автоматическом определении морфологических парадигм»

◘ Где: ауд.951, филфак МГУ

◘ Когда: в субботу, 21 ноября, в 10-45

Ждем!

annotation_Sorokin