Дорожка поиска по Веб коллекции
Дорожка посвящена оценке методов решения задачи традиционной задаче поиска по
Веб. Для этого используется набор данных имитирующий Веб и Веб запросы.
Общая процедура проведения дорожки
стандартна.
Сводная информация
- Набор данных:
коллекция narod.ru (7+ Гб).
(в набор включаются как файлы narod.*, так и
narod_training.*)
- Задания: выборка из лога Яндекс (10000)
- Метод оценки: метод "общего котла" (pooling) (глубина пула 50)
- Количество оцениваемых заданий: 50
- Длина возвращаемых системой ответов на задания: до 100 ссылок
Системы-участники
Задания
Набор заданий представляет из себя автоматическую выборку из лога Яндекс за
определённый временной интервал. Критерии отбора:
- русскоязычные запросы
- без явных грамматических ошибок
- длина запроса - 2-3 слова (для снижения разнородности)
Никаких ограничений на тип запроса (информационный, навигационный или
транзакционный) или трактовку потребностей пользователя
на этом этапе не накладывается.
Количество оцениваемых заданий относительно невелико - порядка 50.
Такой выбор основывается на следующих соображениях:
- Возможность осмысленного усреднения
Для анализа результатов необходимо рассматривать результаты усреднённые
по группе запросов. Известно, что стабильность результатов требует, чтобы
размер группы не был менее 25 запросов (рекомендуемый размер - 50
запросов)
- Ограниченность ресурсов на сбор экспертных оценок.
Следствием чего являются жёсткие ограничения сверху на число запросов.
Запросы для оценки отбираются вручную экспертами. При этом эксперты
согласуют субъективные характеристики запросов (например, тип запроса --
информационный, навигационный или транзакционный) с целью получить по
возможности однородный набор.
Отбор оцениваемых запросов выполняется после проведения прогонов
участниками, чтобы снизить вероятность подгонки результатов.
Процедура оценки
Для оценки предполагается использование подхода "общего котла" (pooling),
который хорошо себя зарекомендовал в TREC "Общий котёл" -- это объединённое
множество первых Nq документов из выдачи каждой из систем для данного
запроса.
При проведении оценки методом общего котла необходимо, чтобы все оценки
релевантности для одного и того же запроса делались исходя из одного и того
же понимания информационной потребности (а иначе собранные оценки будут
несогласованы). Очевидно, что короткие запросы, используемые
в этой дорожке, зачастую могут трактоваться несколькими разными способами.
Для того, чтобы обойти эту проблему в РОМИП используется следующий подход.
Небольшое множество экспертов, отбирающих запросы для оценки, для каждого
отобранного задания создают расширенную версию задания, которая содержит
более детальное описание искомой информации как это понимает эксперт (тем
самым уточняется одна из возможных информационных потребностей, выраженная
этим запросом).
Именно эта, "расширенная", версия и используется в дальнейшем для сбора
оценок релевантности. Для того, чтобы различать разные роли
в РОМИП используется термин эксперт для лиц,
фиксирующих информационную потребность, и асессор для лиц, реально
производящих
оценку руководствуясь расширенным заданием.
Входная информация для оценки:
- набор тестовых заданий
- выдачи систем (упорядоченный набор документов)
для каждого из (всех) тестовых заданий
- доступные ресурсы (асессоры и эксперты)
Процедура оценки состоит из следующих этапов:
- Фиксируются параметры оценки.
Определяется общее количество оценок N
соответствия пар
"документ-запрос", на сбор которых достаточно ресурсов.
Исходя из N определяется глубина Nq, так чтобы общий размер
всех котлов глубиной был приблизительно равен N.
- Выбор множества оцениваемых заданий.
Выбирается подмножество (по предварительному плану из 50-ти) тестовых
заданий для проведения оценки. Выбор производится экспертами на основе
просмотра списка тестовых заданий без использования информации о
содержании выдач систем. Для каждого отобранного задания эксперт создаёт
его расширенную версию, которая уточняет трактовку запроса.
- Формирование "общих котлов"
Для каждого из запросов q формируются "общий котёл" -
объединённое множество
первых Nq документов из выдачи каждой из систем для данного запроса.
- Сбор оценок от асессоров.
Для оценки асессору предоставляется документ и расширенное описание
задания. Асессор не будет обладать информацией
какими системами и на какой позиции был возвращён данный документ.
Документы предоставляются асессору по одному в случайном порядке
(выбор не связанном с порядком выдач или системами). Все асессоры
для оценки будут использовать один и тот же интерфейс.
При выставлении оценки все асессоры будет руководствоваться общей
постановкой задачи:
"Документ считается релевантным, если, встретив этот документ в процессе
поиска информации по данному вопросу (описание расширенного задания),
вы сочли бы этот документ достойным дальнейшего прочтения".
В дополнение в вариантам ответа "да" и "нет"
на вопрос о релевантности документа асессор может также ответить
"невозможно оценить" в случае если рассматриваемая страница
в силу каких-либо причин не понимабельна (не та кодировка или язык,
страница не отображается и т.п.)
Предполагается, что для оценки одного документа асессору в среднем
будет необходимо порядка 1 минуты.
Документы для оценки назначаются асессорам блоками (по 100 документов).
C одной стороны, это позволяет добиться относительно стабильных оценок
относительно асессоров (если каждый асессор предоставит по 1 оценке,
то усреднение некорректно), с другой - периодическая смена заданий
позволяет не перегружать асессоров однотипной работой и снижает
влияние уже просмотренных документов на оценку (известно, что
порядок просмотра документов асессором влияет на результат).
- Вычисление официальных итоговых оценок систем (анонимно) на
основе набора стандартных метрик (точность, полнота,
т.п.)
Инструмент для вычисления оценок и об оценках пар "документ-запрос" будут
доступны всем участникам.
Форматы
- данных
- заданий
- результатов
Внимание: для этой коллекции taskID - это порядковый номер
строки в файле запросов (adhoc_queries.lst), начиная с 1.
- экспертных оценок
Затраты
- Подготовка и распространение данных (носители)
- Финансирование сбора экспертных оценок
|