Российский семинар по Оценке Методов Информационного Поиска
Февраль 2004 - Сентябрь 2004
http://romip.ru
В последние годы был достигнут значительный прогресс как в теории
информационного поиска, так и в создании промышленных
информационно-поисковых систем.
Непрерывная эволюция информационного пространства и применение методов
поиска в новых контекстах определяет актуальность дальнейших исследований в
области теории информационного поиска.
Впечатляющие темпы развития во многом обусловлены бурным развитием Интернет
и растущим интересом к предоставлению поисковой функциональности в
в прикладных информационных системах.
Важной движущей силой является оценка, предоставляющая возможность
сравнивать эффективность альтернативных подходов.
В мире в рамках нескольких инициатив проводится независимая оценка
методов поиска (TREC, SUMMAC, CLEF). В результате этой работы накоплен
объёмный материал, состоящий как из тестовых наборов данных и запросов, так
и из эталонных суждений о релевантности для найденных документов.
К сожалению, участие в мировых инициативах позволяет производить оценку
поиска текстов лишь на языках, отличных от русского.
Российский семинар по оценке методов информационного поиска (РОМИП)
направлен на создание русскоязычных тестовых корпусов и использования их
для проведения независимой оценки альтернативных методов решения различных
задач информационного поиска. Первый семинар из этой серии был успешно
проведен в 2003 году. Планируется проведение семинаров на ежегодной основе.
Цели и аудитория
Целью Российского семинара по Оценке Методов Информационного Поиска
является создание плацдарма для проведения независимой оценки методов
информационного поиска, ориентированных на работу с русскоязычной
информацией.
Дополнительными целями проекта являются:
консолидация сообщества российских исследователей и разработчиков,
занимающихся информационным поиском;
сотрудничество с зарубежными инициативами по тестированию систем
информационного поиска;
расширение контактов с зарубежными исследователями и разработчиками,
занимающимися многоязычным информационным поиском;
привлечение широкого внимания к проблемам и перспективам информационного
поиска и интенсификация исследований в этой области в России;
создание предпосылок и стимулов для дальнейшего развития
участвующих систем с целью совершенствования качества поиска.
К участию приглашаются все заинтересованные лица - как создатели поисковых
систем, так и исследователи, занимающиеся проблемами информационного
поиска.
Важные даты (приблизительный график)
Приём заявок на участие: до 22 марта
Распространение заданий: до 4 апреля
Предоставление результатов прогонов: до 31 мая
Результаты оценки: 2 августа
Тексты докладов: 1 сентября
Очная встреча: 29 сентября - 1 октября
Процедура и условия участия
Все участники подписывают лицензионное соглашение об использовании данных
- для исследовательских целей в рамках проекта РОМИП.
Участник, получив набор данных и заданий, в оговорённые сроки предоставляет
результат прогона(ов) системы для их независимой оценки, которая проводится
с соблюдением анонимности источника результата. Поощряется также и
решение модифицированных задач на основе используемых наборов данных.
От участников также ожидается представление статьи с описанием общих
принципов использованного подхода и полученных результатов.
Статьи участников будут представлены на очном семинаре и опубликованы.
В 2004 году предполагается совмещение этого семинара с российской
конференцией по электронным библиотекам (RCDL'2004), которая пройдёт в
Пущино с 29 сентября по 1 октября.
Предполагается, что затраты на распространение тестовых корпусов и оценку
результатов будут совместно частично компенсироваться (в виде прямых
финансовых вкладов или предоставлении ресурсов для проведения оценки)
участниками.
Правила проведения также вырабатываются совместно, на основе открытого
обсуждения в форуме на сайте РОМИП.
Результаты тестирования предназначены для использования исключительно в
исследовательских целях и не могут быть использованы в
маркетинговых/коммерческих целях без согласия участника.
Дорожки
В 2004 году семинар будет состоять из нескольких дорожек, посвящённым
оценке методов решения ряда задач информационного поиска.
Предварительный список подготавливаемых к проведению дорожек состоит из:
классическая задача поиска по запросу (ad-hoc track) по Веб коллекции
с оценкой методом "общей кучи" (pooling)
классическая задача поиска по запросу (ad-hoc track) по коллекции нормативных документов
тематическая классификация Веб-сайтов
фактографический поиск
новостной поиск
анализ Веб-коллекции
Окончательный список будет сформирован по результатам обсуждения в форуме
и предпочтений заявившихся участников.
Участники могут принимать участие как в одной, так и в нескольких дорожках.
Подробные описания дорожек и правила проведения обсуждаются в списке
рассылки РОМИП и будут опубликованы на сайте семинара.
Наборы данных
Основой набора данных является коллекция Веб страниц из домена narod.ru
объёмом порядка 7 Гб.
Дополнительно планируется подготовить коллекцию нормативных документов.
Более детальная информация о принципах отбора данных и заданий, а также о
форматах доступна на сайте семинара.
Оргкомитет (возможно расширение состава)
Михаил Агеев (МГУ, Москва)
Павел Браславский (ИМаш УрО РАН, Екатеринбург)
Максим Губин (Кодекс, Санкт-Петербург)
Борис Добров (УИС РОССИЯ, Москва)
Владими Добрынин (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Кураленок (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (мат-мех СПбГУ, Санкт-Петербург)
Екатерина Павлова (НИИИТ СПбГУ, Санкт-Петербург)
Владимир Плешко (Гарант-Парк Интернет, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов (Рамблер, Москва)
Правила подачи заявки
Заявка на участие в семинаре РОМИП должна содержать следующую информацию:
краткая (в 1-2 абзаца) презентация системы
(название, ссылка в web, краткое описание принципов используемого подхода)
контактная информация
(организация, email контактного лица)
список дорожек, в которых вы заинтересованы принять участие