GICR disambigued subcorpus now available, version 1.0, LiveJournal

Posted on Friday June 3rd, 2016 by shavrina

Dear Colleagues!

We are pleased to present a new, open subcorpora of the General Internet Corpus of Russian – the segment of LiveJournal with automatically disambiguated homonymy, tagged in accordance with the new tagging format of GICR.

Here you can download the example of 50.000 tokens:

2 million wordforms are now available for downloading (please make a request at geekrya@gmail.com), and in the future we are going to increase this amount by using other GICR segments (VKontakte, Mail.Ru Blogs, News, Russian Magazine Hall).

We kindly invite developers and researchers to use this subcorpus to train their own parsers and improve existing systems.

Material: 2 million wordforms from LiveJournal (users’ posts and comments)
Tagging: Abbyy Compreno system
Format: MSD-GICR, an updated version of the well-known tagset supplemented with previously unrealized categories.

Tagging example:
Если [если] C
хочешь [хотеть] V-ip2s-a-p-ym
тусить [тусить] V-n—-a-p-nm
—
туси [тусить] V-m-2s-a-p-nm
.

Если [если] C
хочешь [хотеть] V-ip2s-a-p-ym
бухнуть [бухнуть] V-n—-a-e-ym
—
бухни [бухнуть] V-m-2s-a-e-ym

New MSD-GICR tagset:

Публикации о проекте ГИКРЯ

Posted on Thursday March 14th, 2013 by apiperski

Научные публикации:

В. И. Беликов, В. П. Селегей, С. А. Шаров. Пролегомены к проекту Генерального интернет-корпуса русского языка (ГИКРЯ). В сборнике: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18). — М.: Изд-во РГГУ, 2012. Т. 1, стр. 37—49

Alexander Piperski, Vladimir Belikov, Nikolay Kopylov, Vladimir Selegey, Serge Sharoff. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation. Submitted to the 8th Web as Corpus Workshop (Lancaster, July 2013).

Публичные лекции:

В. П. Селегей. Компьютерный анализ языка: успехи, разочарования, перспективы

В. П. Селегей. Компьютерная лингвистика сегодня:от автоматической обработки текста до машинного понимания.

В. И. Беликов. Компьютерный анализ блогосферы как источник знаний о языке

С. А. Шаров. Компьютерный анализ жанра и характеристик автора текста

Научно-популярные публикации:

«Наша цель — понимающий компьютер» (интервью В. П. Селегея на сайте Gazeta.ru)

Российские учёные разметят интернет (на сайте «Наука и технологии России — STRF.ru»)

Интервью с В. П. Селегеем на gazeta.ru

Posted on Thursday February 7th, 2013 by apiperski

«Наша цель — понимающий компьютер»
Заведующий кафедрами компьютерной лингвистики РГГУ и МФТИ о том, может ли компьютер не только сравнивать, но и понимать смысл сравнения

http://www.gazeta.ru/science/2013/02/06_a_4954761.shtml

Расписание семинаров по ГИКРЯ в феврале-марте

Posted on Sunday February 3rd, 2013 by apiperski

11 февраля (пн), 17:00–18:30
13 февраля (ср), 18:30–20:00
21 февраля (чт), 15:30–17:00
22 февраля (пт), 17:00–18:30
28 февраля (чт), 19:00–20:30
1 марта (пт), 17:00–18:30

Статья о ГИКРЯ на сайте «Наука и технологии РФ»

Posted on Wednesday December 19th, 2012 by apiperski

Российские учёные разметят интернет

Какие задачи можно решать с помощью корпуса

Posted on Tuesday November 20th, 2012 by Владимир Селегей

Корпус – это инструмент для исследований в области лингвистики и компьютерной лингвистики. Все эти исследования естественным образом можно отнести к двум категориям:

Задачи по корпусометрии, разметке корпуса и, шире, по корпусному строительству.
Исследовательские задачи, которые можно решать на готовом корпусе.

При разработке ГИКРЯ решение задач первого типа осуществляется с постоянным учетом задач второго типа, которые могут возникнуть у лингвистов на этапе использования корпуса.

Ближайший семинар по проекту ГИКРЯ

Posted on Thursday November 15th, 2012 by Владимир Селегей

Дорогие коллеги, приглашаем всех на лекцию главного научного консультанта проекта Владимира Ивановича Беликова в Политехнический Музей 20 ноября 2012, вторник, 19:00.

GICR

General Internet-Corpus of Russian

Category Archives: Новости