| |
Общие принципы
В рамках инициативы по проведению семинара РОМИП/RIRES предлагается
использовать циклический подход. В рамках каждого (годового) цикла из
множества реализуемых проектов по созданию тестовых наборов выбираются один
или несколько наборов, которые наиболее интересны участникам. Эти
отобранные проекты реализуются, а по завершении этапа с учётом накопленного
опыта и текущих приоритетов участников выбираются новые проекты.
Структурно семинар представляет из себя набор дорожек (track) --
секций, посвящённых конкретным проектам (с фиксированной задачей и правилами
оценки).
Важнейшим принципом РОМИП является совместное с участниками определение
задач для оценки и формирование правил проведения оценки. Оргкомитет
лишь координирует проведение секций.
Другим основополагающим принципом РОМИП является использование результатов
оценки
исключительно в исследовательских целях и запрещение их использования в
маркетинговых/коммерческих целях без согласия участника.
Структура годового цикла
-
Подготовительный этап.
На этом этапе определяется список участников, уточняется список
рассматриваемых задач и методология создания тестовых коллекций и оценки.
Оговариваются форматы и способы обмена данными, официальные метрики для
оценки. Фиксируется график проведения.
Для того чтобы участвовать в семинаре участник должен
подать заявку
к рассмотрению оргкомитетом, участник платит вступительный взнос
(компенсирующий начальные затраты на создание и распространение наборов
данных), а также подписывает необходимые соглашения (лицензии).
Все участники получают псевдонимы (которые не будут
ассоциироваться с информацией о конкретных участниках - например, цвета),
которые будут использоваться для анонимной оценки и публикации результатов.
Информацию о соответствии между псевдонимом и участником будет известна
лишь самому участнику и ограниченному подмножеству оргкомитета.
-
Подготовка тестовых наборов.
Оргкомитет формирует тестовые наборы данных, заданий и распространяет
их
участникам. В зависимости от происхождения данных может требоваться
оформление соглашения о нераспространении и ограничении возможностей
использования набора участником.
-
Проведение экспериментальных прогонов своей системы.
Участник самостоятельно и на своём оборудовании выполняет поисковые
задания. При предоставлении результатов (полученных ответов) оргкомитету
участник должен использовать полученный псевдоним (например, псевдонимом
может быть является имя/пароль для ftp-сервера) и соблюдать оговорённые
сроки и формат представления результатов.
-
Оценка полученных ответов.
Оргкомитет организует проведение оценки (в большинстве случаев
по-видимому с использованием независимых экспертов) полученных ответов.
Конкретная методология оценки зависит от рассматриваемой задачи и
определяется на подготовительном этапе. Информация о всех оценках
будет доступна всем участникам, но эта информация будет использовать
псевдонимы для ссылок на участников.
Участники будут иметь возможность оказывать помощь в проверке
результатов. Конкретная процедура участия в процессе проверки
находится в процессе формализации.
-
Анализ полученных результатов, подготовка их к публикации.
Предполагается, что участники самостоятельно анализируют полученные
результаты и подготовят статью, описывающую (общие) принципы их подхода и
наблюдаемые результаты. При этом не обязательно раскрывать своё инкогнито и
все детали реализации (это зависит от доброй воли участника) - достаточно в
общих чертах описать какие известные методы использовались и что отличает их
подход от других. Предоставление более подробной информации о системах,
результатах и проблемах приветствуется.
-
Очная встреча
Предполагается, что подготовленные статьи будут представлены на очном
семинаре, в трудах которого они будут опубликованы.
В целях популяризации семинара и стимулирования исследований в области
информационного поиска в России предполагается
совмещение этого семинара с российской конференцией близкой тематики.
Принципы оценки
Конкретные процедуры оценки безусловно различаются для
различных задач информационного поиска и
формируются для конкретных дорожек, но можно выделить ряд общих
основополагающих соображений:
-
Равноправие систем.
Процедура оценки должна по возможности гарантировать
равноправие систем при оценке результатов. Например, следует избегать
любых решений, которые могут вызвать неравномерное распределение
числа оцениваемых документов по системам.
-
Анонимность источника результата.
При проведении оценки должна соблюдаться анонимность источника
результата - то есть, те, кто оценивают результат
не должны знать какая система(ы) выдала этот результат.
Это необходимо для соблюдения анонимности
итоговых оценок систем, а также для повышения объективности оценки.
-
Выборочная оценка.
В первую очередь это обуславливается
ограниченностью ресурсов доступных для проведения оценки
(доступных экспертов, временными или финансовыми ограничениями, и т.п.).
Выборочная оценка также позволяет повысить масштаб решаемых системами задач
при сохранении затрат на оценку на приемлемом уровне.
-
Использование апробированных подходов.
Предпочтительным является использование апробированных методологий оценки,
поскольку это повышает уверенность в получении надёжных результатов.
-
Независимость процедуры оценки от выдачи системы.
Если оцениваются отдельные элементы выдачи системы, то результат оценки
не должен зависеть от местоположения элемента в исходной выдаче.
Например, если оценивается выдача системы в виде списка документов,
то документы для оценки соответствия запросу не должны
показываться эксперту в порядки их следования в выдаче системы.
-
Возможность привлечения участников для оценки результатов.
Привлечение участников позволяет повысить объем доступных экспертных
оценок без увеличения затрат на экспертов. Однако, поскольку в отличии
экспертов участники являются лицами заинтересованными, то повышается риск
получения недостоверных результатов. Процедура оценки должна предусматривать
методы обнаружения и устранения таких проблем.
Выбор дорожек
То, из каких дорожек будет состоять следующий семинар определяется исходя
из интереса участников и возможностей по организации дорожек.
Более формально процедура выбора состоит из следующих шагов:
-
Формируется множество ''возможных реализуемых'' дорожек.
"Возможная" дорожка -- это любая дорожка, подходящая под тематику семинара.
Множество возможных дорожек открыто и каждый заинтересованный участник может
предлагать свои варианты на общее обсуждение.
К обсуждению принимаются дорожки для которых описана не вся требуемая
информация, но для того, чтобы дорожка получила статус "реализуемой",
необходимо иметь полное описание, а также обоснование доступности
необходимых
ресурсов (данных, экспертного времени, т.п.)
-
По каждой дорожке производится открытое голосование.
Целью голосования является определить заинтересованность каждого из
участников в каждой из возможных дорожек (можно заявляться на участие в
нескольких дорожках).
-
Выбираются наиболее популярные дорожки.
Отбор основан на максимизации выгоды (интереса участников) при условии
ограниченности доступных ресурсов (как временных, так и финансовых на
проведение оценки).
Описание дорожки включает в себя ответы на следующие вопросы:
- Для оценки методов решения какой задачи дорожка предназначена?
- Какой набор данных предполагается использовать? (с указанием
характеристик - объёма, легальности, разнородности, ...)
- Какие будут задания? Сколько? Как они будут формироваться? (из логов,
искусственно созданные, ...)
- В каком виде предполагается получать ответы от систем?
- Как будет организована процедура оценки результатов? Сколько ручного
труда необходимо и каковы предполагаемые затраты на проведение оценки?
- Какие меры могут быть использованы для оценки?
- Что мотивирует ''осмысленность'' получаемых цифр и основанных на них
выводов о превосходстве тех или иных методов? (Методологические аспекты)
Например:
- Стабильность результатов относительно количества заданий
- Стабильность относительно процедуры оценки (порядка оценки или
других факторов связанных с экспертами)
- Защищённость от фальсификации результатов участниками
|