GICR disambigued subcorpus now available, version 1.0, LiveJournal

Dear Colleagues!

We are pleased to present a new, open subcorpora of the General Internet Corpus of  Russian – the segment of LiveJournal with automatically disambiguated homonymy, tagged in accordance with the new tagging format of GICR.

Here you can download the example of 50.000 tokens:

конпка2англ

2 million wordforms are now available for downloading (please make a request at geekrya@gmail.com), and in the future we are going to increase this amount by using other GICR segments (VKontakte,  Mail.Ru Blogs, News, Russian Magazine Hall).

We kindly invite developers and researchers to use this subcorpus to train their own parsers and improve existing systems.

  • Material: 2 million wordforms from LiveJournal (users’ posts and comments)
  • Tagging: Abbyy Compreno system
  • Format: MSD-GICR, an updated version of the well-known tagset supplemented with previously unrealized categories.

Tagging example:
Если                    [если]                          C
хочешь                  [хотеть]                        V-ip2s-a-p-ym
тусить                  [тусить]                        V-n—-a-p-nm

туси                    [тусить]                        V-m-2s-a-p-nm
.

Если                    [если]                          C
хочешь                  [хотеть]                        V-ip2s-a-p-ym
бухнуть                 [бухнуть]                       V-n—-a-e-ym

бухни                   [бухнуть]                       V-m-2s-a-e-ym

New MSD-GICR tagset:

новый тагсет

Публикации о проекте ГИКРЯ

Научные публикации:

В. И. Беликов, В. П. Селегей, С. А. Шаров. Пролегомены к проекту Генерального интернет-корпуса русского языка (ГИКРЯ). В сборнике: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18). — М.: Изд-во РГГУ, 2012. Т. 1, стр. 37—49

Alexander Piperski, Vladimir Belikov, Nikolay Kopylov, Vladimir Selegey, Serge Sharoff. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation. Submitted to the 8th Web as Corpus Workshop (Lancaster, July 2013).

Публичные лекции:

В. П. Селегей. Компьютерный анализ языка: успехи, разочарования, перспективы

В. П. Селегей. Компьютерная лингвистика сегодня:от автоматической обработки текста до машинного понимания.

В. И. Беликов. Компьютерный анализ блогосферы как источник знаний о языке

С. А. Шаров. Компьютерный анализ жанра и характеристик автора текста

Научно-популярные публикации:

«Наша цель — понимающий компьютер» (интервью В. П. Селегея на сайте Gazeta.ru)

Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru»)

Интервью с В. П. Селегеем на gazeta.ru

«Наша цель — понимающий компьютер»
Заведующий кафедрами компьютерной лингвистики РГГУ и МФТИ о том, может ли компьютер не только сравнивать, но и понимать смысл сравнения

http://www.gazeta.ru/science/2013/02/06_a_4954761.shtml

Какие задачи можно решать с помощью корпуса

Корпус – это инструмент для исследований в области лингвистики и компьютерной лингвистики. Все эти исследования естественным образом можно отнести к двум категориям:

  1. Задачи по корпусометрии, разметке корпуса и, шире, по корпусному строительству.
  2. Исследовательские задачи, которые можно решать на готовом корпусе.

При разработке ГИКРЯ решение задач первого типа осуществляется с постоянным учетом задач второго типа, которые могут возникнуть у лингвистов на этапе использования корпуса.