Дорожка по классификации Веб сайтов
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по тематической классификации

Дорожка посвящена классической задаче тематической классификации документов на основе коллекции нормативных документов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Постановка задачи

Задан список категорий, обучающая выборка и множество документов. Надо присвоить каждому из документов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же документ может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых документов.

Отметим, что документ может не относится ни к одной из категорий, и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция нормативных документов.

Документы, относящиеся к обучающей выборке, хранятся в архивах с именами вида legal_training.*.

Предполагается, что классификации должны подвергаться все документы из архивов вида legal.*, и для каждого из этих документов будет указано от 0 до 5 рубрик (список должен быть упорядочен в порядке убывания вероятности принадлежности к рубрике).

Оценка результатов будет проводится для некоторого количества выбранных случайным образом рубрик и будет основана на использовании полного каталога Кодекс (верифицированного экспертами вручную). Также планируется проведение независимой оценки части данных экспертами РОМИП (не имеющими опыта работы с нормативными документами).

Форматы