Дорожка по классификации текстовой информацииРассматривается задача тематической классификации Веб-сайтов.Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки. Системы-участники
Постановка задачиЗадан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов. Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий. Условия игрыИсходным набором данных является коллекция Narod.ru.
Множество классов сформировано на основе
Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП. В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*. Процедура оценкиНа входе известны:
Форматы
Затраты
|