РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-сайтов

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-сайтов, аналогичной той, что рассматривалась в предыдущих циклах РОМИП (2003, 2004).

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию Narod.ru и коллекцию DMOZ, используемую в качестве обучающего множества.

Формулировка задания для участвующей системы

Каждой системе-участнику предоставляется список категорий, обучающая выборка и множество сайтов (не документов!) из коллекции Narod.ru. Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Cайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Множество категорий сформировано на основе подмножества русскоязычных рубрик каталога DMOZ.

Предполагается, что классификации должны подвергаться все сайты коллекции narod.ru, т.е. не только те, что содержатся в файлах вида narod.*, но и в файлах вида narod_training.*.
Поскольку обучающая выборка содержит несколько сайтов из домена narod.ru, то эти сайты будут исключены из ответов при проведении оценки.

Методолгия оценки

  • постановка задания ассессору (полная инструкция):
    Ассессор оценивает соответсвие сайта категории или с учетом расширенного описания этой категории.
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Результаты оценки

Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год.

Форматы данных