Дорожка по тематической классификации нормативно-правовых документов
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по тематической классификации нормативно-правовых документов

Задача

Дорожка посвящена классической задаче тематической классификации документов на основе коллекции нормативных документов.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходным набором данных является коллекция нормативных документов.

Формулировка задания для участвующей системы

Каждой системе-участнику предоставляется список категорий, обучающая выборка и множество документов из коллекции нормативных документов. Надо присвоить каждому из документов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же документ может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых документов. Документ может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Обучающая выборка - подвыборка коллекции, построеная на основе каталога Кодекс. Документы, относящиеся к ней, хранятся в архивах с именами вида legal_training.*.

Предполагается, что классификации должны подвергаться все документы из архивов вида legal.*, и для каждого из этих документов будет указано от 0 до 5 рубрик (список должен быть упорядочен в порядке убывания вероятности принадлежности к рубрике).

Методология оценки

  • Оценка результатов будет проводится для некоторого количества выбранных случайным образом рубрик и будет основана на использовании полного каталога Кодекс (верифицированного экспертами вручную).
  • Также планируется проведение независимой оценки части данных экспертами РОМИП (не имеющими опыта работы с нормативными документами).
    В этом случае предполагается следующая процедура:
    • постановка задания ассессору:
      Ассессор оценивает соответствие документа указанной теме.
    • шкала оценки релевантности:
      • точно/возможно/вероятно/нет/невозможно оценить
      • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Результаты оценки

Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год.

Форматы данных