Дорожка по классификации Веб-сайтовЗадачаДорожка посвящена оценке методов решения задачи тематической классификации Веб-сайтов, аналогичной той, что рассматривалась в предыдущих циклах РОМИП (2003, 2004).Общая процедура проведения дорожки стандартна. КоллекцияИсходный набор данных включает в себя коллекцию Narod.ru и коллекцию DMOZ, используемую в качестве обучающего множества.Формулировка задания для участвующей системыКаждой системе-участнику предоставляется список категорий, обучающая выборка и множество сайтов (не документов!) из коллекции Narod.ru. Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Cайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.
Множество категорий сформировано на основе подмножества русскоязычных рубрик
Предполагается, что классификации должны подвергаться все сайты
коллекции narod.ru, т.е. не только те, что содержатся в файлах
вида narod.*, но и в файлах вида narod_training.*. Методолгия оценки
Результаты оценки
Подробное описание методики оценки и официальных метрик можно найти в трудах семинара за 2005 год. Форматы данных |