Осенний технический релиз

Дорогие пользователи Генерального интернет-корпуса!
%d0%be%d0%ba%d1%82%d1%8f%d0%b1%d1%80%d1%8c-%d1%80%d0%b5%d0%bb%d0%b8%d0%b7
С новым учебным годом приходят и новые задачи: в ГИКРЯ мы позаботились о том, чтобы в ваших исследованиях вы могли получать более надежные результаты.
Обновление этого октября:

➡Для каждого результата поиска Вы теперь можете получить подробную статистику и легко увидеть, нет ли смещений.

➡Можно настраивать точность поиска вручную: в меню «Настройки поиска» кнопки «Пуск» теперь можно задавать погрешность документной частоты.

Зачем это нужно?
Когда мы оцениваем частоту того или иного явления в большом корпусе, а также занимаемся сравнением полученных частот, мы должны понимать, что результат, полученный на случайных 20 млн слов из ЖЖ, может отличаться от результата, полученного на 50 млн слов из ЖЖ. Чтобы убедиться, что результаты надежны, на вкладке «анализ результатов» Вы можете увидеть реальный IPM, его погрешность, а также информацию о количестве документов, попавших в область поиска.
Поиск смещений: при нажатии на кнопку «запустить поиск смещений» строится таблица с % каждого атрибута (пол, возраст, регион автора и так далее) в найденных результатах и во всем корпусе. Таким образом мы можем убедиться, что полученный результат не смещен.
screen_101971

Проверка на однородность производится критерием хи-квадрат. В столбце «Хи-квадрат» выводится значение статистики этого критерия: если значение больше 3.8415, то это говорит о том, что гипотеза об однородности отклоняется с уровнем значимости 95%. Такие значения выделяются красным цветом. Если значение меньше, то — зеленым. Если результатов с данным значением атрибута меньше 5, то значение статистики не может гарантировать надежность результатов. Такие значения выделяются желтым цветом.

screen_101973
Мы открыты для ваших отзывов и предложений по новому функционалу! Пишите нам на geekrya@gmail.com