Дорожка поиска по Веб коллекцииДорожка посвящена оценке методов решения задачи традиционной задаче поиска по Веб. Для этого используется набор данных имитирующий Веб и Веб запросы.Общая процедура проведения дорожки стандартна. Сводная информация
Системы-участники
ЗаданияНабор заданий представляет из себя автоматическую выборку из лога Яндекс за определённый временной интервал. Критерии отбора:
При проведении оценки методом общего котла необходимо, чтобы все оценки релевантности для одного и того же запроса делались исходя из одного и того же понимания информационной потребности (а иначе собранные оценки будут несогласованы). Очевидно, что короткие запросы, используемые в этой дорожке, зачастую могут трактоваться несколькими разными способами. Для того, чтобы обойти эту проблему в РОМИП используется следующий подход. Небольшое множество экспертов, отбирающих запросы для оценки, для каждого отобранного задания создают расширенную версию задания, которая содержит более детальное описание искомой информации как это понимает эксперт (тем самым уточняется одна из возможных информационных потребностей, выраженная этим запросом). Именно эта, "расширенная", версия и используется в дальнейшем для сбора оценок релевантности. Для того, чтобы различать разные роли в РОМИП используется термин эксперт для лиц, фиксирующих информационную потребность, и асессор для лиц, реально производящих оценку руководствуясь расширенным заданием. Входная информация для оценки: набор тестовых заданий выдачи систем (упорядоченный набор документов) для каждого из (всех) тестовых заданий доступные ресурсы (асессоры и эксперты) Процедура оценки состоит из следующих этапов: Фиксируются параметры оценки.Определяется общее количество оценок N соответствия пар "документ-запрос", на сбор которых достаточно ресурсов. Исходя из N определяется глубина Nq, так чтобы общий размер всех котлов глубиной был приблизительно равен N. Выбор множества оцениваемых заданий.Выбирается подмножество (по предварительному плану из 50-ти) тестовых заданий для проведения оценки. Выбор производится экспертами на основе просмотра списка тестовых заданий без использования информации о содержании выдач систем. Для каждого отобранного задания эксперт создаёт его расширенную версию, которая уточняет трактовку запроса. Формирование "общих котлов"Для каждого из запросов q формируются "общий котёл" - объединённое множество первых Nq документов из выдачи каждой из систем для данного запроса. Сбор оценок от асессоров.Для оценки асессору предоставляется документ и расширенное описание задания. Асессор не будет обладать информацией какими системами и на какой позиции был возвращён данный документ. Документы предоставляются асессору по одному в случайном порядке (выбор не связанном с порядком выдач или системами). Все асессоры для оценки будут использовать один и тот же интерфейс. При выставлении оценки все асессоры будет руководствоваться общей постановкой задачи: "Документ считается релевантным, если, встретив этот документ в процессе поиска информации по данному вопросу (описание расширенного задания), вы сочли бы этот документ достойным дальнейшего прочтения". В дополнение в вариантам ответа "да" и "нет" на вопрос о релевантности документа асессор может также ответить "невозможно оценить" в случае если рассматриваемая страница в силу каких-либо причин не понимабельна (не та кодировка или язык, страница не отображается и т.п.) Предполагается, что для оценки одного документа асессору в среднем будет необходимо порядка 1 минуты. Документы для оценки назначаются асессорам блоками (по 100 документов). C одной стороны, это позволяет добиться относительно стабильных оценок относительно асессоров (если каждый асессор предоставит по 1 оценке, то усреднение некорректно), с другой - периодическая смена заданий позволяет не перегружать асессоров однотипной работой и снижает влияние уже просмотренных документов на оценку (известно, что порядок просмотра документов асессором влияет на результат). Вычисление официальных итоговых оценок систем (анонимно) на основе набора стандартных метрик (точность, полнота, т.п.)Инструмент для вычисления оценок и об оценках пар "документ-запрос" будут доступны всем участникам. Форматы
Затраты
|