Статья о ГИКРЯ на сайте «Наука и технологии РФ»

Российские учёные разметят интернет

Лингвисты и математики из РГГУ, Физтеха и компании ABBYY разрабатывают алгоритмы, с помощью которых можно определить жанровую, гендерную, возрастную, региональную принадлежность интернет-текстов. Основным результатом работы станет создание Генерального интернет-корпуса русского языка. Это исследование полезно как с академической точки зрения, так и для решения прикладных лингвистических задач, например для улучшения алгоритмов автоматического перевода.

Интернет для обычного пользователя начинается с поисковой системы, как театр с вешалки. Нужен ему, допустим, пылесос – любой поисковик выдаст необъятное количество рекламных объявлений и сравнительных обзоров этого чуда бытовой техники. Для тех, кто интересуется пылесосами как объектом исследования, а не потенциальной покупкой, поисковая система выдаст среди объявлений ссылку на «Википедию». Этим, по её мнению, интересы пользователей интернета к пылесосам исчерпываются. «Для любой поисковой системы бизнес-задачи – первоочередные. На втором месте стоят задачи информационного поиска, хотя первая функция им уже заметно мешает. Для исследования же языка система поиска совсем не предназначена», – поясняет Владимир Селегей, заведующий кафедрой компьютерной лингвистики в РГГУ, директор по лингвистическим исследованиям компании ABBYY.

Владимир_СелегейВладимир Селегей: русский язык постепенно теряет авторитет в мире компьютерной лингвистики

Лингвистам вовсе не нужно то, что умеют поисковые системы: ни ранжирование результатов поиска, ни исправление ошибок в запросе. Им хотелось бы иметь возможность, например, искать в интернете предложения с определённой синтаксической структурой или тексты, в которых слово «мочить» употребляется применительно к фруктам и овощам, а не к чему-то другому. Для этого тексты должны иметь лингвистическую разметку, содержащую данные об их языковом строении.

Сейчас такие размеченные тексты собраны в Национальном корпусе русского языка (НКРЯ). Он составлен учёными вручную и содержит около 300 миллионов слов. Звучит внушительно, но с точки зрения исследователя языка этот корпус мал и возможности его ограничены. А для больших объёмов материала ручной сбор материала уже не годится.

Сами по себе алгоритмы языковой разметки текстов уже существуют. Задача учёных, работающих над проектом, – создать алгоритмы, связывающие метаязыковые параметры – данные о поле, возрасте, месте обитания автора, дате написания текста и его жанре – с языковыми признаками. Для этого существуют методы машинного обучения. «Есть система жанров: судебные очерки, техническая литература, любовная переписка и так далее. Все они отличаются друг от друга по очень большому количеству признаков. Чтобы научить компьютер их различать, строится обучающий корпус, включающий в себя очень много текстов разных жанров с языковой разметкой. В результате вы получаете алгоритм, который умеет связывать те параметры оценки, которые вас интересуют, с параметрами языковой разметки. Например, какие слова, какие конструкции, какие значения встречаются в текстах той или иной жанровой, социальной, гендерной, географической принадлежности, – поясняет Владимир Селегей. – В нашем проекте работают математики и лингвисты. Задача лингвистов – разобраться с тем, какие вообще параметры классификации возможны. Задача математиков – на основе релевантных параметров обучить систему, чтобы она могла работать на большом корпусе текстов».

Соединение двух видов разметок даёт лингвистам – а также социологам, психологам и другим гуманитариям – большие возможности. Исследователи смогут проследить за динамикой языковых явлений в интернете, их распространением в разных возрастных, половых, региональных группах. «Легко выяснить, сколько блогеров употребили за свою историю конкретное слово (словосочетание и т. п.). Для новых выражений при погодовых срезах отчётливо виден, например, переход от конкретных (чуваков)к реальным (пацанам), от тусоваться к тусить. Но в отсутствии разметки приходится “изворачиваться”», – пишут принимающие участие в проекте лингвисты в «Пролегоменах к проекту Генерального интернет-корпуса русского языка (ГИКРЯ)». С точки зрения практического применения разрабатываемые технологии пригодятся для улучшения алгоритмов автоматического перевода, поисковых алгоритмов или, например, для поиска в интернете текстов определённого содержания.

Основным результатом этой работы станет создание Генерального интернет-корпуса русского языка (ГИКРЯ) – массива текстов, взятых из интернета и содержащих как языковую разметку, так и метаязыковые данные. ГИКРЯ по объёму предполагается в сто раз больше вышеупомянутого НКРЯ. Кроме того, с помощью разрабатываемых учёными технологий можно будет создавать корпуса для решения специальных задач, например, чтобы сделать выборку текстов по определенному региону.

Наиболее же общая цель работы – способствовать развитию компьютерной лингвистики в России и на материале русского языка, который в последнее время стремительно теряет популярность у лингвистов. «Это первый открытый научный проект такого рода по русскому языку, – подчёркивает Владимир Селегей, – результаты публикуются, их можно использовать». Первую модель ГИКРЯ исследователи планируют подготовить к конференции «Диалог» в 2014 году.

Работа поддержана ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007–2013 годы».