Задан список категорий, обучающая выборка и множество сайтов (не документов!).
Надо присвоить каждому из сайтов коллекции категорию из
этого списка с учётом обучающей выборки.
Один и тот же сайт может относиться сразу к нескольким
категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий)
для каждого из классифицируемых сайтов.
Отметим, что сайт может не относится ни к одной из категорий и
в этом случае идеальным ответом является пустой
список назначенных категорий.
Обучающая выборка - сайты уже входящие в каталог narod.ru,
которые попали в коллекцию narod.ru используемую РОМИП.
Информацию о числе обучающих примеров для каждой из категорий можно найти
здесь.
В распространяемом комплекте
обучающая выборка содержится в файлах вида narod_training.*,
а тестовые набор сайтов в файлах вида narod.*.
Процедура оценки
На входе известны:
набор данных
множество всех категорий
результаты участников - отображения "документ->категория" для всех
сайтов набора
Алгоритм оценки:
Выбирается (случайным образом) несколько (заранее неизвестных)
категорий. Количество проверяемых категорий
(2-3-4-5-10) зависит от объёма доступных ресурсов.
Для каждой из этих категорий формируется "общий котёл", в который
попадают все сайты, которым хотя бы одна из систем
присвоила одну из этих категорий.
При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для
категории примерно 5000/50*sqrt(число участников), то есть
200-300.
Эксперты оценивают все документы из кучи на предмет соответствия
конкретной категории.
(возможные ответы: да/нет/невозможно оценить)
Аппроксимируется точность и полнота классификации по оцениваемым
категориям.