Дорожка по классификации Веб-страницЗадачаДорожка посвящена оценке методов решения задачи тематической классификации Веб-страниц. Общая процедура проведения дорожки стандартна. КоллекцияИсходный набор данных включает в себя коллекцию Narod.ru и коллекцию DMOZ, используемую в качестве обучающего множества.Обучающее множество состоит из сайтов, но не обязательно все страницы сайта относятся к одной теме. Формулировка задания для участвующей системыАналогично дорожке по классификации Веб-сайтов, каждой системе-участнику предоставляется список категорий, обучающая выборка и коллекция Narod.ru. Но в данном случае для обучения используются сайты, а классифицируются индивидуальные страницы Narod.ru.Ответом системы для категории является упорядоченный по степени близости документа к категории список документов. При оценки будут учитываться только первые 100 документов.
Предполагается, что классификации должны подвергаться все документы
коллекции narod.ru, т.е. не только те, что содержатся в файлах
вида narod.*, но и в файлах вида narod_training.*. Методология оценки
Результаты оценки
Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год. Форматы данных |