Хроника версий и изменений Серебряного Стандарта ГИКРЯ

Список основных улучшений и различий между версиями можно найти на этой странице. Последняя версия Серебряного Стандарта ГИКРЯ: 1.2

Список основных изменения в версии 1.2:

  1. Состав подкорпуса: теперь в Серебряном стандарте ГИКРЯ представлен не только Живой Журнал, но и ВКонтакте. Ресурсы представлены в пропорции приблизительно 43% (ЖЖ) / 57% (ВКонтакте):
    ВКонтакте: 1140731 словоформ в 27892 текстах;
    ЖЖ: 860504 словоформ в 14255 текстах
  2. Фильтрация: значительно улучшена фильтрация, снтяник очищен от текстов, в котором несловарных слов больше определенного порога, а также выброшены тексты на иностранных языках. Удалены тексты с необоснованными разрывами строк, так как это влияет на качество разметки. Таким образом, в подкорпусе представлены тексты соцсетей только в надежной разметке.
  3. Морфологический стандарт изменен, теперь это формат MSD-Ru: в формате изменен порядок следования категорий в пользу большей системности: категории рода, числа, падежа, лица и степени сравнения получили фиксированную позицию у всех релевантных частей речи. Помимо изменений в порядке категорий, изменения коснулись категорий вида глагола и ситаксического типа местоимений.

Анонс версии 1.2

Список основных изменений в версии 1.1:

  1. Предлоги:
    разметка падежей предлогов (категория S3). Предлогам приписан падеж в соответствии с управлением именной группой в контексте их употребления.
    — введена категория S2, которая различает простые предлоги (s — simple), и те, что всегда употребляются вместе с простыми предлогами (с — compound). Таким предлогам падеж не приписывается. (На данный момент таким образом размечаются «невзирая» и «несмотря»).
    — введена категория S1, которая различает обычные предлоги (p — preposition), и те, что употребляются только в позиции послелога (t — postposition). (На данный момент как послелоги размечаются только «назад» и «тому_назад»).
  2. Значительно улучено разрешение омонимии предлогов и наречий (таких как «позади», «внутри», «вслед» и т.д.).
  3. Изменения в формате серебряного стандарта:
    — первой колонкой добавлен ID текста для более удобной идентификации токенов;
    — пробелы в словоформах и леммах заменяются на подчёркивания для токенов с обычными леммами (т.е., такими, которые не начинаются с ‘#’).
    — эмотиконы заменяются на пунктуатор ‘@’ вместо ‘<emo>’ во избежание конфликтов с пунктуаторами ‘<‘ и ‘>’
  4. Исправлены отсутствующие метки композитов (с- и с+) во многих случаях.
  5. Исправлены отсутствующие знаки препинания в строках, обозначенных как «P».
  6. Убраны нерелевантные категории у кратких прилагательных/причастий (падеж (A5, V10)), и у сравнительных степеней прилагательных (падеж (A5) и краткость (A6)).
  7. Проставлен несовершенный вид биаспектуальным деепричастиям в настоящем времени.
  8. Категория M1 для чисел, записанных арабскими цифрами, поменяла своё значение.
  9. Исправлен падеж в счётных формах: в случаях типа «на/за/в/по $10», «по 10 долларов», «по десять долларов» падеж ставится единообразно — аккузатив.
  10. Дополнен список местоименных наречий.
  11. Также исправлена разметка многих отдельных частотных конструкций («Что за…», «после чего», разметка местоимения/союза «что», местоимений «прочий», «несколько/нескольку» и др.) и прочие более мелкие ошибки.

Анонс версии 1.1
Описание старого морфостандарта MSD-GICR

Версия 1.0:

Анонс версии 1.0

Поделитесь с коллегами!