Дорожка по классификации Веб-страниц
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-страниц

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-страниц.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию Narod.ru и коллекцию DMOZ, используемую в качестве обучающего множества.
Обучающее множество состоит из сайтов, но не обязательно все страницы сайта относятся к одной теме.

Формулировка задания для участвующей системы

Аналогично дорожке по классификации Веб-сайтов, каждой системе-участнику предоставляется список категорий, обучающая выборка и коллекция Narod.ru. Но в данном случае для обучения используются сайты, а классифицируются индивидуальные страницы Narod.ru.

Ответом системы для категории является упорядоченный по степени близости документа к категории список документов. При оценки будут учитываться только первые 100 документов.

Предполагается, что классификации должны подвергаться все документы коллекции narod.ru, т.е. не только те, что содержатся в файлах вида narod.*, но и в файлах вида narod_training.*.

Методология оценки

  • постановка задания ассессору (полная инструкция) :
    Относится ли данная страница к это этой категории?
    (для категории предоставляется расширенное описание в виде абзаца текста)
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Результаты оценки

Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год.

Форматы данных