Дорожка по классификации Веб-сайтовРассматривается задача тематической классификации Веб-сайтов, аналогичная той, что рассматривалась в аналогичной дорожке РОМИП'2003.Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки. Постановка задачиЗадан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 5 категорий) для каждого из классифицируемых сайтов. Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий. Условия игрыИсходным набором данных является коллекция Narod.ru.
Множество классов сформировано на основе подмножества русскоязычных рубрик
Предполагается, что классификации должны подвергаться все сайты
коллекции narod.ru, т.е. не только те, что содержатся в файлах
вида narod.*, но и в файлах вида narod_training.*. Форматы
|