Дорожка по классификации Веб-страниц
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации Веб-страниц

Задача

Дорожка посвящена оценке методов решения задачи тематической классификации Веб-страниц.

Общая процедура проведения дорожки стандартна.

Коллекция

Исходный набор данных включает в себя коллекцию BY.web и коллекцию DMOZ, используемую в качестве обучающего множества.
Обучающее множество состоит из сайтов, но не обязательно все страницы сайта относятся к одной теме.

Формулировка задания для участвующей системы

Аналогично дорожке по классификации Веб-сайтов, каждой системе-участнику предоставляется список категорий, обучающая выборка и коллекция BY.web. Но в данном случае для обучения используются сайты, а классифицируются индивидуальные страницы BY.web.

Ответом системы для категории является упорядоченный по степени близости документа к категории список документов. При оценки будут учитываться только первые 100 документов.

Методология оценки

  • постановка задания ассессору:
    Относится ли данная страница к это этой категории?
    (для категории предоставляется расширенное описание в виде абзаца текста)
  • шкала оценки релевантности:
    • точно/возможно/вероятно/нет/невозможно оценить
    • да/нет/невозможно оценить
  • официальные метрики:
    • точность
    • полнота

Форматы данных