Корпус

В данном разделе описывается процедура отбора и технологическая цепочка обработки текста в ГИКРЯ и смежные проекты.

Отбор текстов:

Для сбора и очистки текстов используется программа Nutch. Для наших целей её пришлось доработать вот основные моменты: для любых веб-страниц в Apache Nutch использовались общие алгоритмы выделения ссылок и отделения служебной информации от пользовательского контента. Не было возможности присваивать метки контенту, представляющему собой метаинформацию, связанную с текстом – такому, как интернет-псевдоним автора, возраст, пол, место рождения, получения среднего образования и настоящего места проживания. Мы научили программу выделять все это на тех страницах сайтов, которые сделаны по одному и тому же шаблону.

Далее отобранные тексты очищаются от «мусора» (служебной информации, рекламы, динамически формируемых новостных полос, спама, автоматически сгенерированного текста). В ГИКРЯ также проводится дедубликация текстов по алгоритму «3+5».

Если Вы являетесь правообладателем какого-либо текста, который по результатам автоматического краулинга находится в нашем корпусе, и это представляет проблему — напишите нам. Наш проект — некоммерческий, и тексты в корпусе являются доступными только для поиска (максимальный контекст — 50 слов).

Токенизация

Токенизация в корпусе осуществляется при помощи собственного токенизатора ГИКРЯ. Отдельными токенами считаются все знаки препинания, а также все сочетания с дефисами, где каждая часть имеет часть речи. Токенизатор опирается на словарь неотделимых частей слова («гамма-« в «гамма-излучении» и др.), который будет доступен для ознакомления после открытия корпуса.

Морфология

В ГИКРЯ мы используем свободно распространяемую программу TnT-Russian (автор – Сергей Шаров), которая отвечает за морфологическую разметку и лемматизацию с некоторыми внесенными нами модификациями. При разметке используется словарь, созданный при помощи объединения возможностей TnT-Russian и mystem. Объем словаря – более 7 млн словоформ.

Разметка на настоящий момент соответствует широко используемой кодировке MULTEXT-East for Russian.

В корпусе осуществляется лемматизация на базе упомянутых выше модифицированных словарей TnT-Russian, а несловарные слова проходят модуль cstlemma, работающий на базе русских суффиксов.

В настоящий момент разрабатывается собственный модуль лемматизации несловарных слов, а так же, с учетом специфики нашего корпусного материала, также модуль исправления опечаток.

Пример морфологический разметки в корпусе:

Другая разметка

ГИКРЯ богат метатекстовой разметкой: для каждого текста из соцсетей хранятся время и место его написания, URL, интернет-жанр (блог, новости и т.д.), а также год, место рождения автора, пол автора. Благодаря интерфейсу ГИКРЯ, при поиске удобно задавать любые настройки из вышеперечисленных, а также сортировать уже полученные результаты по данным признакам.

На материале корпуса решаются актуальные задачи современной прикладной лингвистики: автоматическая региональная, жанровая, гендерная, возрастная классификация текстов,   (то есть дедубликация поисковой выдачи, а не корпуса целиком),  автоматическое исправление опечаток, улучшение автоматического снятия .

Индексирование

Чтобы обеспечить прямой доступ к текстам, должны применяться язык запросов и методы быстрого поиска. Индексирование таких больших корпусов – это сама по себе большая научная задача. Чтобы обеспечить быстрый поиск по текстам с возможностью задать в качестве признаков грамматические категории, точные формы слов или леммы, в ГИКРЯ мы реализуем собственный поисковый индекс.

Лингвистический поиск в ГИКРЯ можно осуществлять двумя способами: через поисковую строку, набирая вручную требования к поисковым позициям или используя для этих же целей конструктор запросов. Например, чтобы искать имена собственные женского рода, можно набрать выражение на corpus query language [pos=»Npf….»]  самому или просто расставить флажки:

Объем корпуса

В настоящий момент в ГИКРЯ уже представлены крупнейшие ресурсы social media – Вконтакте, ЖЖ, а также Блоги Mail.ru, новостные ресурсы и Журнальный Зал. Многие из этих ресурсов постоянно докачиваются, ведется также скачивание некоторых форумов.

Состав ГИКРЯ на 2016 год:

  • Журнальный Зал – 313 млн слов, 56547 документов
  • Новости (Риа, Регнум, Лента ру, Росбалт): 851 млн слов, 2964897 документов
  • Живой Журнал: 8110 млн слов, 73229158 документов
  • Блоги Mail.ru: 707 млн слов, 9882120 документов
  • ВКонтакте: 9820 млн слов, 193770717 документов
  • Итого: 19801 млн слов, 279903439 документов

Возможности корпуса

ГИКРЯ  –  корпус, который соединяет полноту и объем данных интернета и точность анализа, которая свойственна корпусам, собранным вручную. И решили, что для того, чтобы выйти на новый уровень достоверности частот изучаемых явлений, нам стоит поставить себе цель собрать новый дифференциально полный корпус размером не меньше 50 млрд. слов. Отличительной особенностью задачи сбора сверхбольшого корпуса является необходимость использования полностью автоматических методов сбора, очистки и лингвистической разметки корпуса. Этот проект связан с разными областями компьютерной лингвистики – можно испытывать и усовершенствовать разные системы автоматической разметки, автоматической классификации текстов, задействовать машинное обучение. Так что не только результат, но и сам процесс работы, как мы надеемся, принесет много пользы научному сообществу.

Зарубежные ученые тоже пытаются делать такие текстовые коллекции, но они мало размечены и можно сказать, что эта отрасль только начала развиваться и правила, по которым нужно собирать тексты, только формируются. Самые большие из существующих корпусов – это Британский национальный корпус (около 1 млрд. слов), Национальный корпус русского языка (500 млн. слов) и корпуса и Araneum Russicum (в этих корпусах содержится 15 миллиардов слов, они собраны из интернет-источников, но не содержат подробных метаданных о текстах). Несмотря на, казалось бы, внушительный размер, для серьезных научных целей эти корпуса вряд ли годятся, так как слишком малы и не содержат нужной метаинформации – зачастую лингвист не может правильно интерпретировать результаты исследования, так как остается неизвестным, какие тексты сформировали область поиска. Также в них нет критической массы текстов конкретных типов, достаточной, например, чтобы говорить о частоте, приемлемости или особенности употребления того или иного слова или языковой конструкции.

Поэтому-то для лингвистов и привлекателен интернет-корпус. Гикря дает лингвистам возможность использовать материал из интернета:

  • Размеченный лингвистически
  • Дедублицированный
  • Со сведенной на нет структурной неоднородностью страниц, но с сохраненной априорной разметкой пользователей интернета
  • Подготовленный и индексированный специально для лингвистического анализа

Также корпус предоставляет обширный функционал для статистических исследований: пользователю доступны частоты запроса, ускоренный вариант поиска для получения только частот, а также разрабатывается функционал для установки пользовательского доверительного интервала при поиске.

Наши уникальные функции:

  • Почта запросов: возможность пересылки запросов другим пользователям внутри интерфейса корпуса , с результатами и комментариями.
  • Регулируемая длина контекста и тонкие пользовательские настройки дедубликации

Мы в соцсетях:

Facebook

ВКонтакте

Смежные проекты:

Работа над Генеральным Интернет-корпусом велась с учетом материалов и технологий, используемых в следующих проектах:

  • Словарь «Языки русских городов»

http://community.lingvo.ru/goroda/

  • Форум «Городские диалекты» ABBYY

http://forum.lingvo.ru/actualtopics.aspx?bid=26

  • Интернет-корпус русского языка университета Лидс (Великобритания)

http://corpus.leeds.ac.uk/ruscorpora.html

  • Национальный корпус Русского Языка

http://www.ruscorpora.ru/

Мы выражаем искреннюю благодарность следующим организациям, оказавшим поддержку нашего проекта и внесшим существенный вклад в его развитие:

  • Российский Государственный Гуманитарный университет http://rsuh.ru/
  • Компания ABBYY http://www.abbyy.ru/
  • Московский физико-технический институт (Государственный университет) http://mipt.ru/
  • Университет «СколТех» http://www.skoltech.ru/

 

Поделитесь с коллегами!