Дорожка по классификации Веб-сайтовЗадачаДорожка посвящена оценке методов решения задачи тематической классификации Веб-сайтов, аналогичной той, что рассматривалась в предыдущих циклах РОМИП (2003, 2004,2005, 2006).Общая процедура проведения дорожки стандартна. КоллекцияИсходный набор данных включает в себя коллекцию BY.web и коллекцию DMOZ, используемую в качестве обучающего множества.Формулировка задания для участвующей системыКаждой системе-участнику предоставляется список категорий, обучающая выборка и множество сайтов (не документов!) из коллекции BY.web. Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Cайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.
Множество категорий сформировано на основе подмножества русскоязычных рубрик
Методолгия оценки
Форматы данных |