Общие принципы
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Общие принципы

В рамках инициативы по проведению семинара РОМИП/RIRES предлагается использовать циклический подход. В рамках каждого (годового) цикла из множества реализуемых проектов по созданию тестовых наборов выбираются один или несколько наборов, которые наиболее интересны участникам. Эти отобранные проекты реализуются, а по завершении этапа с учётом накопленного опыта и текущих приоритетов участников выбираются новые проекты.

Структурно семинар представляет из себя набор дорожек (track) -- секций, посвящённых конкретным проектам (с фиксированной задачей и правилами оценки).

Важнейшим принципом РОМИП является совместное с участниками определение задач для оценки и формирование правил проведения оценки. Оргкомитет лишь координирует проведение секций.

Другим основополагающим принципом РОМИП является использование результатов оценки исключительно в исследовательских целях и запрещение их использования в маркетинговых/коммерческих целях без согласия участника.

Структура годового цикла

  1. Подготовительный этап.
    На этом этапе определяется список участников, уточняется список рассматриваемых задач и методология создания тестовых коллекций и оценки. Оговариваются форматы и способы обмена данными, официальные метрики для оценки. Фиксируется график проведения.

    Для того чтобы участвовать в семинаре участник должен подать заявку к рассмотрению оргкомитетом, участник платит вступительный взнос (компенсирующий начальные затраты на создание и распространение наборов данных), а также подписывает необходимые соглашения (лицензии).

    Все участники получают псевдонимы (которые не будут ассоциироваться с информацией о конкретных участниках - например, цвета), которые будут использоваться для анонимной оценки и публикации результатов. Информацию о соответствии между псевдонимом и участником будет известна лишь самому участнику и ограниченному подмножеству оргкомитета.

  2. Подготовка тестовых наборов.
    Оргкомитет формирует тестовые наборы данных, заданий и распространяет их участникам. В зависимости от происхождения данных может требоваться оформление соглашения о нераспространении и ограничении возможностей использования набора участником.

  3. Проведение экспериментальных прогонов своей системы.
    Участник самостоятельно и на своём оборудовании выполняет поисковые задания. При предоставлении результатов (полученных ответов) оргкомитету участник должен использовать полученный псевдоним (например, псевдонимом может быть является имя/пароль для ftp-сервера) и соблюдать оговорённые сроки и формат представления результатов.

  4. Оценка полученных ответов.
    Оргкомитет организует проведение оценки (в большинстве случаев по-видимому с использованием независимых экспертов) полученных ответов. Конкретная методология оценки зависит от рассматриваемой задачи и определяется на подготовительном этапе. Информация о всех оценках будет доступна всем участникам, но эта информация будет использовать псевдонимы для ссылок на участников.

    Участники будут иметь возможность оказывать помощь в проверке результатов. Конкретная процедура участия в процессе проверки находится в процессе формализации.

  5. Анализ полученных результатов, подготовка их к публикации.
    Предполагается, что участники самостоятельно анализируют полученные результаты и подготовят статью, описывающую (общие) принципы их подхода и наблюдаемые результаты. При этом не обязательно раскрывать своё инкогнито и все детали реализации (это зависит от доброй воли участника) - достаточно в общих чертах описать какие известные методы использовались и что отличает их подход от других. Предоставление более подробной информации о системах, результатах и проблемах приветствуется.

  6. Очная встреча
    Предполагается, что подготовленные статьи будут представлены на очном семинаре, в трудах которого они будут опубликованы. В целях популяризации семинара и стимулирования исследований в области информационного поиска в России предполагается совмещение этого семинара с российской конференцией близкой тематики.

Принципы оценки

Конкретные процедуры оценки безусловно различаются для различных задач информационного поиска и формируются для конкретных дорожек, но можно выделить ряд общих основополагающих соображений:

  • Равноправие систем.
    Процедура оценки должна по возможности гарантировать равноправие систем при оценке результатов. Например, следует избегать любых решений, которые могут вызвать неравномерное распределение числа оцениваемых документов по системам.

  • Анонимность источника результата.
    При проведении оценки должна соблюдаться анонимность источника результата - то есть, те, кто оценивают результат не должны знать какая система(ы) выдала этот результат. Это необходимо для соблюдения анонимности итоговых оценок систем, а также для повышения объективности оценки.

  • Выборочная оценка.
    В первую очередь это обуславливается ограниченностью ресурсов доступных для проведения оценки (доступных экспертов, временными или финансовыми ограничениями, и т.п.).

    Выборочная оценка также позволяет повысить масштаб решаемых системами задач при сохранении затрат на оценку на приемлемом уровне.

  • Использование апробированных подходов.
    Предпочтительным является использование апробированных методологий оценки, поскольку это повышает уверенность в получении надёжных результатов.

  • Независимость процедуры оценки от выдачи системы.
    Если оцениваются отдельные элементы выдачи системы, то результат оценки не должен зависеть от местоположения элемента в исходной выдаче.

    Например, если оценивается выдача системы в виде списка документов, то документы для оценки соответствия запросу не должны показываться эксперту в порядки их следования в выдаче системы.

  • Возможность привлечения участников для оценки результатов.
    Привлечение участников позволяет повысить объем доступных экспертных оценок без увеличения затрат на экспертов. Однако, поскольку в отличии экспертов участники являются лицами заинтересованными, то повышается риск получения недостоверных результатов. Процедура оценки должна предусматривать методы обнаружения и устранения таких проблем.

Выбор дорожек

То, из каких дорожек будет состоять следующий семинар определяется исходя из интереса участников и возможностей по организации дорожек. Более формально процедура выбора состоит из следующих шагов:
  • Формируется множество ''возможных реализуемых'' дорожек.
    "Возможная" дорожка -- это любая дорожка, подходящая под тематику семинара. Множество возможных дорожек открыто и каждый заинтересованный участник может предлагать свои варианты на общее обсуждение.

    К обсуждению принимаются дорожки для которых описана не вся требуемая информация, но для того, чтобы дорожка получила статус "реализуемой", необходимо иметь полное описание, а также обоснование доступности необходимых ресурсов (данных, экспертного времени, т.п.)

  • По каждой дорожке производится открытое голосование.
    Целью голосования является определить заинтересованность каждого из участников в каждой из возможных дорожек (можно заявляться на участие в нескольких дорожках).

  • Выбираются наиболее популярные дорожки.
    Отбор основан на максимизации выгоды (интереса участников) при условии ограниченности доступных ресурсов (как временных, так и финансовых на проведение оценки).

Описание дорожки включает в себя ответы на следующие вопросы:

  • Для оценки методов решения какой задачи дорожка предназначена?
  • Какой набор данных предполагается использовать? (с указанием характеристик - объёма, легальности, разнородности, ...)
  • Какие будут задания? Сколько? Как они будут формироваться? (из логов, искусственно созданные, ...)
  • В каком виде предполагается получать ответы от систем?
  • Как будет организована процедура оценки результатов? Сколько ручного труда необходимо и каковы предполагаемые затраты на проведение оценки?
  • Какие меры могут быть использованы для оценки?
  • Что мотивирует ''осмысленность'' получаемых цифр и основанных на них выводов о превосходстве тех или иных методов? (Методологические аспекты) Например:
    • Стабильность результатов относительно количества заданий
    • Стабильность относительно процедуры оценки (порядка оценки или других факторов связанных с экспертами)
    • Защищённость от фальсификации результатов участниками
продам двухкомнатную квартиру в щелково