Дорожка по тематической классификации нормативно-правовых документовЗадачаДорожка посвящена классической задаче тематической классификации документов на основе коллекции нормативных документов.Общая процедура проведения дорожки стандартна. КоллекцияИсходным набором данных является коллекция нормативных документов.Формулировка задания для участвующей системыКаждой системе-участнику предоставляется список категорий, обучающая выборка и множество документов из коллекции нормативных документов. Надо присвоить каждому из документов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же документ может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых документов. Документ может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий. Обучающая выборка - подвыборка коллекции, построеная на основе каталога Кодекс. Документы, относящиеся к ней, хранятся в архивах с именами вида legal_training.*. Предполагается, что классификации должны подвергаться все документы из архивов вида legal.*, и для каждого из этих документов будет указано от 0 до 5 рубрик (список должен быть упорядочен в порядке убывания вероятности принадлежности к рубрике). Методология оценки
Результаты оценки
Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год. Форматы данных |