SpellRuEval: методика оценивания

Дорогие коллеги, участники первого в России соревнования по автоматическому исправлению опечаток #SpellRuEval !

dTW9aJmv2PA

Так как накопилось достаточно большое количество вопросов о том, как именно мы будем сверять полученные результаты и какие метрики будем использовать, мы решили разослать участникам наш скрипт для проверки, чтобы каждый имел возможность предварительно увидеть принципы его работы и запустить на собственном материале.

source_sents.txt и corrected_sents.txt — обучающая выборка, answer_file — файл с ответами вашей системы, evaluate.py — скрипт на 3-ем питоне.

Если после у Вас останутся вопросы по критериям оценивания, просьба написать нам.

С уважением,
Алексей Сорокин и Татьяна Шаврина
alexey.sorokin@list.ru
rybolos@gmail.com

SpellRuEval: обучающая выборка

Дорогие друзья корпуса ГИКРЯ и участники первого в России соревнования по автоматическому исправлению опечаток SpellRuEval!
Не так давно мы разослали всем командам обучающую выборку (у нас уже 30 команд!), состоящую из 2000 предложений, для каждого из которых приведено как исходное, так и исправленное предложения.

spellruseval2
Но праздники заканчиваются, и мы хотели бы напомнить всем, что ждем комментариев, пожеланий, вопросов :)
alexey.sorokin@list.ru

Первый из приложенных файлов содержит исходные предложения, а второй —- результаты их исправления. Результаты прогона на контрольной выборке необходимо будет сдать в том же формате.

При разметке, равно как и при оценке результатов использовались следующие соглашения:
1) капитализация не учитывалась
2) знаки препинания не учитываются (кроме внутрисловных дефисов), поэтому они отсутствуют в исправленных предложениях
3) ё заменено на е
4) кодировка всех предложений utf-8

Обучающая коллекция планируется к публикации 10 февраля.

В ближайшую неделю будет выслано письмо с более подробным описанием методики оценивания и приложением некоторых дополнительных материалов.

С наилучшими пожеланиями,
организаторы соревнования SpellRuEval
#dialog21 #dialogue #spellrueval #spellcheck