Дорожки

Тестовые коллекции

Таблицы

Архив

2003

FAQ

Часто задаваемые вопросы

Если вы полагаете, что какие-то вопросы/ответы требуют уточнения или что-то важное пропущено - пожалуйста, напишите в оргкомитет или задайте вопрос в форуме.

Общие вопросы
1. Что такое корпус?
  Корпус - это набор данных, тестовых заданий и экспертных оценок.
2. Насколько я понял по Вашему сайту, участие платное. Так ли это?
  Формально, да - участие платное. Более точно - расходы на семинар компенсируются совместно участниками пропорционально степени участия (вскладчину намного дешевле). Кроме того:
  - в 2004 году семинар был поддержан грантом РФФИ, что позволило покрыть примерно половину затрат. Вероятно в этом году мы также получим некоторую поддержку от РФФИ.
  - есть возможность компенсировать часть (или даже все) затраты человекочасами, путем выполнения части работ по оценке результатов (оценивать придется конечно не свои результаты с использованием инструментов РОМИП)
  Для ориентира: итоговые затраты на участие в одной дорожке с одним прогоном в 2004 году варьировались от 1500 до 4000 рублей, включая оргвзнос на участие в очной части семинара (на сумму влияет число участников и сложность оценки). Каждый последующий вариант прогона учитывается с коэффициентом 0.5
3. Куда идут деньги?
  Инициатива проведения РОМИП по определению не направлена на получение прибыли, но организация и проведение мероприятия безусловно требуют расходов.
  В частности, распространение тестовых коллекций и оплата работы асессоров.
  Участники могут оказывать помочь в проведении проверки результатов "живой силой", тем самым уменьшая размер своего оргвзноса.
4. Кто осуществляет контроль за расходованием средств?
  Оргкомитет ...
5. Что означает "тестовые корпуса доступны не участникам"?
  Желающие воспользоваться коллекциями РОМИП для проведения исследований могут получить к ним доступ. Задания и оценки свободно доступны на Веб сайте. Для получения набора данных необходимо:
  - прислать заявку в оргкомитет;
  - подписать соглашение об использовании данных.
  Для некоторых коллекций необходимо также подписать дополнительные соглашения с владельцами коллекции.
  Данные предоставляются бесплатно, необходимо компенсировать затраты на носители и доставку.
Вопросы связанные с участием
1. Что требуется от участника?
  согласившись участвовать в инициативе, участник обязуется предоставить в срок результаты выполненных системой заданий, подготовить отчёт на основе полученных результатов оценки и участвовать в итоговом мероприятии.
2. Cколько это стоит?
  косвенные затраты - время на проведение экспериментов, написание отчёта
  минимум прямых затрат - это оргвзнос для очной части семинара.
  Этот оргвзнос на компенсирует затраты на распространение тестовых коллекций, проведение оценки и публикацию материалов. Часть затрат может быть компенсирована за счёт участия в процессе экспертной оценки.
  Точная сумма оргвзноса зависит от многих факторов - числа участников, объема оценки, числа дорожек, в которых вы решили принять участие.
  Часть затрат компенсируется грантом РФФИ.
  Для ориентира: в прошлые годы максимальные затраты учатников не превышали 500 USD.
3. Допускаются ли участники не из России?
  Да, конечно. Семинар открыт для всех желающих.
4. Обязательно ли говорить по-русски?
  В принципе, нет. Общение участников с оргкомитетом возможно и на английском языке. Однако часть обсуждений, как правило, ведется на русском языке. Сами же задания и данные также русскоязычные.
5. Как это может быть нам полезно?
  Возможность проверить идею при независимой оценке. Возможность сравнивать относительную полезность методов.
6. Зачем участвовать, если и так все будет доступно?
  Решаемые задачи будут довольно объёмными и поэтому экспертные оценки будут доступны лишь частично. Для участвующих систем предполагается сбор примерно равного объёма информации от экспертов, что нельзя гарантировать для не участвовавших систем. Ну и кроме того участие даёт возможность обсудить наблюдаемые результаты с другими специалистами в этой области.
7. Как и зачем участнику помогать в проверке результатов?
  Опыт показал, что есть несколько разных причин. Например,
  1. Снижение явных затрат на участие
  2. Возможность сравнить то, что оценивали сами и остальное.
  3. Интересно попробовать эту "кухню" изнутри (применение "академических" методов к реальной жизни)
8. Какие результаты должны быть предоставлены для проверки?
  Ответ системы для каждого из заданий в формате, определнном в правилах проведения конкретной дорожки. Например, для дорожки по поиску это обычно ранжированный список N лучших документов.
9. Могу ли я представить для оценки несколько вариантов ответов?
  Да конечно.
  Более того, это всячески приветствуется.
  Хотя это зависит от конкретной дорожки, но обычно предоставление нескольких ответов увеличивает затраты на оценку не линейным образом, так как ответы разных модификаций одной и той же системы склонны в значительной степени повторяться.
10. Могу ли я сам выбрать цвет? ;)
  Оргкомитет готов учесть пожелания участника, но с точки зрения организации анонимности использование случайного выбора цвета является предпочтительным вариантом.
11. К сожалению, из информации, выложенной на сайте, не очень понятно, какой номер соответствовал каждому из участников при участии в дорожках. Не могли бы Вы предоставить такую информацию или указать ссылку на нее?
  Одно из основопологающих правил РОМИП - анонимность оценки для предотвращения использования результатов РОМИП в маркетинговых целях.
  
  Каждому из участников присваивается цвет, который используется в качестве идентификатора при проведении оценки. Нередко один участник сдает больше одного прогона. "Номера" часто приводимые в статьях это обычно порядковые номера прогонов в результатах оценки. Они не являются официальными и авторы статей иногда перенумеруют их как им удобнее.
  
  Вообще, участник самостоятельно решает до какой степени открывать информацию о своих алгоритмах и результатах. При этом прямые ссылки в тексте на соперников запрещены, но можно ссылаться на анонимные номера прогонов.
  
  Другими словами, информация о сопоставлении конкретного результата и участника, чьей системе он принадлежит, является ЗАКРЫТОЙ (если только участник не опубликовал ее сам). В любом случае оргкомитет ее не предоставляет.
Вопросы связанные с методологией проведения семинара
1. Что значит открытая методология оценки?
  описание методологии свободно доступны. У учачтников есть возможность участвовать в обсуждении при выборе методологий.
2. Что мешает участникам жульничать и "подчищать" результаты?
  Предполагается, что результаты оценки не могут использоваться в коммерческих целях и это снижает заинтересованность в жульничестве.
  Кроме того, предполагается такое планирование процедуры оценки, которое затрудняет фальсификацию результатов. Например, участники будут выполнять большое количество тестовых заданий, а оценка будет производится только по их подмножеству.
3. Зачем нужны и эксперты и асессоры?
  Идея в том, что эксперт может переформулировать краткую постановку задачи для системы, так чтобы разные ассесоры (собственно те, кто будет оценивать результаты) более-менее одинаково ее себе представляли (то есть снижается разнородность из-за субъективности восприятия).
  Конечно, это не бесплатно и мы упускаем возможность обнаружить правильные ответы для другой интерпретации исходного задания. но это попытка смоделировать конкретного пользователя.
4. А судьи кто? (Как формируется команда оценщиков-асессоров?)
  Частично - это люди, которые привлекаются участниками проводящими часть оценки самостоятельно (и оргкомитет их слабо контролирует).
  Остальные - это независимые от проведения экспериментов (и не участвовавшие в работе экспертов) люди, для которых оценка является оплачиваемой временной работой, что позволяет надеяться на относительную надежность результатов. (это могут быть, а могут и не быть эксперты по теме задания - ответ зависит от конкретной дорожки и процесса оценки)
5. Насколько объективны оценки?
  У них субъективная природа. Практика РОМИП'2003 и других мировых инициатив (например, TREC) показывает, что при использовании нескольких оценщиков их мнение редко совпадает более чем в 50% случаев (для РОМИП'2003 этот процент был даже ниже).
6. Почему запросы для оценки отбираются не случайно, а вручную?
  Для них экспертам надо подготовить расширенные описания, то есть вопрос должен быть эксперту понятен.
7. Кто выбирает официальные метрики и почему рассматриваются только они?
  "Официальность" метрик носит относительный характер - эти метрики используются оргкомитетом для вычисления оценок и подведения общих итогов.
  Список официальных метрик открыт и участники могут предлагать дополнительные метрики для включения. Кроме этого участник вправе использовать другие метрики для оценки своих результатов.
8. Как техника общей кучи помогает вычислить полноту?
  речь идет об относительной полноте, которая аппроксимирует абсолютную