Дорожка по классификации текстовой информации
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Дорожка по классификации текстовой информации

Рассматривается задача тематической классификации Веб-сайтов.

Общий алгоритм проведения един для всех дорожек. На этой странице уточняются конкретные детали для этой дорожки.

Системы-участники

Постановка задачи

Задан список категорий, обучающая выборка и множество сайтов (не документов!). Надо присвоить каждому из сайтов коллекции категорию из этого списка с учётом обучающей выборки.

Один и тот же сайт может относиться сразу к нескольким категориям. Поэтому ответом является упорядоченный список (до 3-5 категорий) для каждого из классифицируемых сайтов.

Отметим, что сайт может не относится ни к одной из категорий и в этом случае идеальным ответом является пустой список назначенных категорий.

Условия игры

Исходным набором данных является коллекция Narod.ru.

Множество классов сформировано на основе каталога narod.ru, отбирались категории второго уровня в которых встречалось не менее пяти включенных в набор сайтов. Всего было отобрано 164 категории (список категорий с их численными идентификаторами).

Обучающая выборка - сайты уже входящие в каталог narod.ru, которые попали в коллекцию narod.ru используемую РОМИП.

В распространяемом комплекте обучающая выборка содержится в файлах вида narod_training.*, а тестовые набор сайтов в файлах вида narod.*.

Процедура оценки

На входе известны:
  • набор данных
  • множество всех категорий
  • результаты участников - отображения "документ->категория" для всех сайтов набора
Алгоритм оценки:
  1. Выбирается (случайным образом) несколько (заранее неизвестных) категорий. Количество проверяемых категорий (2-3-4-5-10) зависит от объёма доступных ресурсов.
  2. Для каждой из этих категорий формируется "общий котёл", в который попадают все сайты, которым хотя бы одна из систем присвоила одну из этих категорий.
    При 50 категориях и 5000 сайтов ожидаемый размер "общей кучи" для категории примерно 5000/50*sqrt(число участников), то есть 200-300.
  3. Эксперты оценивают все документы из кучи на предмет соответствия конкретной категории.
    (возможные ответы: да/нет/невозможно оценить)
  4. Аппроксимируется точность и полнота классификации по оцениваемым категориям.

Форматы

Затраты

  • Подготовка и распространение данных (носители)
  • Финансирование сбора экспертных оценок