[РОМИП] Дорожка по классификации текстовой информации

Новости
Правила
Заявка на участие
График
Дорожки:
   Поиск
   Классификация
Участники
Организация
FAQ
Форум

   Дорожка по классификации текстовой информации

Рассматривается задача тематической классификации Веб-сайтов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Системы-участники

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция narod.ru.

Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории ( список категорий с их численными идентификаторами).

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП. Информацию о числе обучающих примеров для каждой из категорий можно найти здесь.

В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*.

Процедура оценки

На входе известны:
  • набор данных
  • множество всех категорий
  • результаты участников - отображения "документ->категория" для всех сайтов набора
Алгоритм оценки:
  1. Выбирается (случайным образом) несколько (заранее неизвестных) категорий. Количество проверяемых категорий (2-3-4-5-10) зависит от объёма доступных ресурсов.
  2. Для каждой из этих категорий формируется "общий котёл", в который попадают все сайты, которым хотя бы одна из систем присвоила одну из этих категорий.
    При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для категории примерно 5000/50*sqrt(число участников), то есть 200-300.
  3. Эксперты оценивают все документы из кучи на предмет соответствия конкретной категории.
    (возможные ответы: да/нет/невозможно оценить)
  4. Аппроксимируется точность и полнота классификации по оцениваемым категориям.

Форматы

Затраты

  • Подготовка и распространение данных (носители)
  • Финансирование сбора экспертных оценок