Дорожки

Тестовые коллекции

Архив

2003

2004

Дорожка по классификации текстовой информации

Рассматривается задача тематической классификации Веб-сайтов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Системы-участники

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция Narod.ru.

Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории (список категорий с их численными идентификаторами).

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП.

В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*.

Процедура оценки

На входе известны:

набор данных
множество всех категорий
результаты участников - отображения "документ->категория" для всех сайтов набора

Алгоритм оценки:

Выбирается (случайным образом) несколько (заранее неизвестных) категорий. Количество проверяемых категорий (2-3-4-5-10) зависит от объёма доступных ресурсов.
Для каждой из этих категорий формируется "общий котёл", в который попадают все сайты, которым хотя бы одна из систем присвоила одну из этих категорий.
При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для категории примерно 5000/50*sqrt(число участников), то есть 200-300.
Эксперты оценивают все документы из кучи на предмет соответствия конкретной категории.
(возможные ответы: да/нет/невозможно оценить)
Аппроксимируется точность и полнота классификации по оцениваемым категориям.

Форматы

данных
результатов
экспертных оценок

Затраты

Подготовка и распространение данных (носители)
Финансирование сбора экспертных оценок