Начало распространения заданий для дорожек по поиску в Веб-коллекции,
фактографическому поиску, поиску и классификации по коллекции нормативных
документов.
27 мая 2004
Завершен прием заявок на участие.
На конференции LREC'2004
состоялся доклад о РОМИП.
6 июня 2004
Розданы задания для дорожки классификации по Веб коллекции.
Состоялся доклад о РОМИП на конференции Диалог'2004.
8 июня 2004
Сроки предоставления результатов участниками перенесены на:
15 июня: дорожка поиска по Веб коллекции
20 июня: дорожка поиска по коллекции нормативных документов
25 июня: дорожка поиска фактов в Веб коллекции
30 июня: дорожки классификации Веб-сайтов и нормативных документов
12 июля 2004
Закончен сбор результатов по всем пяти дорожкам.
22 августа 2004
Разосланы результаты оценки для 4-х из 5 дорожек РОМИП (за
исключением дорожки по фактографическому поиску). Опубликовано
описание официальных оценок РОМИП.
23 августа 2004
Опубликован формат для подготовки
статей для трудов РОМИП'2004. Срок сдачи статей - 7 сентября 2004.
8 сентября 2004
Наконец-то завершена оценка по дорожке поиска фактов в Веб коллекции.
Результаты оценки разосланы участникам.
15 сентября 2004
Завершен сбор отчетов участников для включения в
труды РОМИП'2004.
1 октября в городе Пущино Московской области состоялась очная встреча РОМИП'2004 (фото:
1,
2,
3).
16 октября 2004
Слайды от докладов участников на очной встречи РОМИП'2004.
Оргкомитет
Михаил Агеев(МГУ, Москва)
Павел Браславский (ИМаш УрО РАН, Екатеринбург)
Максим Губин (Кодекс, Санкт-Петербург)
Борис Добров (УИС РОССИЯ, Москва)
Владимир Добрынин (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Кураленок (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (мат.мех. СПбГУ, Санкт-Петербург)
Екатерина Павлова (НИИИТ. СПбГУ, Санкт-Петербург)
Владимир Плешко (Гарант-Парк Интернет, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов(Рамблер,Москва)
Участники
ML Классификатор 2.0
ML Классификатор - система с обучением на образцах, использует метод
различительных сил и полнотекстовый поиск. При выделении признаков
применяется выделение словосочетаний статистическим методом, или при помощи
поверхностного синтаксического анализа. Полнотекстовый поиск таких
словочетаний в процессе классификации позволяет соблюсти баланс между
полнотой, характерной для систем классификации, использующих однословные
термины, и точностью, которой отличаются системы со словосочетаниями.
mnogoSearch
Полнофункциональная поисковая система для сайта или группы сайтов.
RCO
В дорожках планируется использовать модули входящие в состав продуктов, а также используемые в
проектной деятельности компании "Гарант-Парк-Интернет", связанной с построением
информационно-поисковых и информационно-аналитических систем. К базовым технологиям, развиваемым
исследовательской группой компании, относятся морфологический анализ, синтактико-семантический
анализ, тематическая классификация, фактографический поиск.
Sophia
Исследовательский прототип системы классификации, разработанный совместно
факультетом прикладной математики - процессов управления С. Петербургского
государственного университета и лабораторией инженерии знаний (NIKEL)
университета Ольстера ( University of Ulster, UK).
Золушка
Исследовательский прототип системы классификации Веб ресурсов.
ИС "Кодекс"
Полнотекстовая база данных, предназначенная для создания информационных
систем и хранилищ документов. На базе нее созданы информационно-правовый
системы "Кодекс" и "Стройэксперт", электронные системы документооборота
"Кодекс", ряд заказных систем.
Ментал
Система Ментал использует синтаксический словарь проф.
В.А. Тузова и семантический описатель собственной разработки.
С текстами произвольной тематики использует гибридный
поиск, основанный на средневзвешенном значении соответствия
по словам и семантическому значению.
С текстами известной тематики использует семантико-логическую
модель предметной области (состоящую из описания типов объектов
и правил зависимостей) и логический интерпретатор для поиска соответствия.
Поисково-аналитическая система "Галактика-Zoom" Работа системы основана на составлении и анализе информационного портрета (ИП) выборки
документов. ИП представляет собой список языковых инвариантов (слов и словосочетаний), отличающих
данную выборку от прочих. ИП используется для решения задач быстрого представления результатов
запроса без чтения текстов документов, автоклассификации и автореферирования.
Синдбад
Система классификации текстовой информации "Синдбад" вляется частью
общего пакета верификации данных, разработанного в Бюро Интернет
Технологий, и представляет собой набор утилит для структуризации и
каталогизации текстовой информации, выявления ошибок при отсутствии
количественных ограничений на сложность структуры связей, типы данных
и их объем.
Рубрикация осуществляется по набору ключевых слов, связанных
отношениями булевой логики с применением частотных словарей и
возможностей нечеткого поиска для выявления связей, возникающих между
элементами информации за счет совпадения или близости фрагментов
исследуемого текста, в т.ч. связей, которые невозможно представить в
виде иерархической модели. Помимо контекстной зависимости, для более
точной рубрикации используется смысловая близость уже
отрубрицированных элементов.
Система применима для работы с реляционными, иерархическими, сетевыми
БД, а также со слабоструктурированными данными: Web-ресурсами,
системами документооборота, текстовыми файлами.
УИС РОССИЯ (НИВЦ МГУ + АНО ЦИИ)
В РОМИП 2004 планируется опробовать некоторые технологии,
реализованные в составе
информационно-поисковой системы "Университетской информационной
системы РОССИЯ"
(УИС РОССИЯ, http://www.cir.ru), либо планируемые к реализации.
Информационно-поисковая система УИС РОССИЯ поддерживается совместно
лабораторией
анализа информационных ресурсов Научно-исследовательского
вычислительного центра МГУ
(информационные технологии) и АНО Центр информационных исследований
(лингвистические ресурсы
и технологии).
УИС РОССИЯ представляет собой программно-аппаратное решение
организации коллекции в миллион
документов, ориентированное на потребности аналитических служб
(использование рубрикаторов,
тезауруса, он-лайн анализ результатов запроса, интерактивное
уточнение запроса и т.п.)
Яндекс.Server 3.2
Полнотекстовое индексирование и поиск с учетом русской морфологии