Дорожки

Тестовые коллекции

Таблицы

Архив

2003

2004

Семинар РОМИП'2004

Здесь собрана подробная информация о прошедшем в 2004 году семинаре:

Результаты и отчеты участников РОМИП'2004 доступны в разделе "Публикации".

Хроника событий

23 февраля 2004

Начало распространения официальных приглашений к участию в семинаре РОМИП'2004

14 апреля 2004

Сформулировано соглашение об участии в семинаре РОМИП.

16 апреля 2004

Начало распространения заданий для дорожек по поиску в Веб-коллекции, фактографическому поиску, поиску и классификации по коллекции нормативных документов.

27 мая 2004

Завершен прием заявок на участие.
На конференции LREC'2004 состоялся доклад о РОМИП.

6 июня 2004

Розданы задания для дорожки классификации по Веб коллекции.
Состоялся доклад о РОМИП на конференции Диалог'2004.

8 июня 2004

Сроки предоставления результатов участниками перенесены на:

15 июня: дорожка поиска по Веб коллекции
20 июня: дорожка поиска по коллекции нормативных документов
25 июня: дорожка поиска фактов в Веб коллекции
30 июня: дорожки классификации Веб-сайтов и нормативных документов

12 июля 2004

Закончен сбор результатов по всем пяти дорожкам.

22 августа 2004

Разосланы результаты оценки для 4-х из 5 дорожек РОМИП (за исключением дорожки по фактографическому поиску). Опубликовано описание официальных оценок РОМИП.

23 августа 2004

Опубликован формат для подготовки статей для трудов РОМИП'2004. Срок сдачи статей - 7 сентября 2004.

8 сентября 2004

Наконец-то завершена оценка по дорожке поиска фактов в Веб коллекции. Результаты оценки разосланы участникам.

15 сентября 2004

Завершен сбор отчетов участников для включения в труды РОМИП'2004.

24 сентября 2004

Опубликована программа очной встречи РОМИП'2004.
Размещена информация для участников семинара.

4 октября 2004

1 октября в городе Пущино Московской области состоялась очная встреча РОМИП'2004 (фото: 1, 2, 3).

16 октября 2004

Слайды от докладов участников на очной встречи РОМИП'2004.

Оргкомитет

Михаил Агеев(МГУ, Москва)
Павел Браславский (ИМаш УрО РАН, Екатеринбург)
Максим Губин (Кодекс, Санкт-Петербург)
Борис Добров (УИС РОССИЯ, Москва)
Владимир Добрынин (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Кураленок (ПМПУ СПбГУ, Санкт-Петербург)
Игорь Некрестьянов (мат.мех. СПбГУ, Санкт-Петербург)
Екатерина Павлова (НИИИТ. СПбГУ, Санкт-Петербург)
Владимир Плешко (Гарант-Парк Интернет, Москва)
Илья Сегалович (Яндекс, Москва)
Влад Шабанов(Рамблер,Москва)

Участники

ML Классификатор 2.0
ML Классификатор - система с обучением на образцах, использует метод различительных сил и полнотекстовый поиск. При выделении признаков применяется выделение словосочетаний статистическим методом, или при помощи поверхностного синтаксического анализа. Полнотекстовый поиск таких словочетаний в процессе классификации позволяет соблюсти баланс между полнотой, характерной для систем классификации, использующих однословные термины, и точностью, которой отличаются системы со словосочетаниями.
mnogoSearch
Полнофункциональная поисковая система для сайта или группы сайтов.
RCO
В дорожках планируется использовать модули входящие в состав продуктов, а также используемые в проектной деятельности компании "Гарант-Парк-Интернет", связанной с построением информационно-поисковых и информационно-аналитических систем. К базовым технологиям, развиваемым исследовательской группой компании, относятся морфологический анализ, синтактико-семантический анализ, тематическая классификация, фактографический поиск.
Sophia
Исследовательский прототип системы классификации, разработанный совместно факультетом прикладной математики - процессов управления С. Петербургского государственного университета и лабораторией инженерии знаний (NIKEL) университета Ольстера ( University of Ulster, UK).
Золушка
Исследовательский прототип системы классификации Веб ресурсов.
ИС "Кодекс"
Полнотекстовая база данных, предназначенная для создания информационных систем и хранилищ документов. На базе нее созданы информационно-правовый системы "Кодекс" и "Стройэксперт", электронные системы документооборота "Кодекс", ряд заказных систем.
Ментал
Система Ментал использует синтаксический словарь проф. В.А. Тузова и семантический описатель собственной разработки. С текстами произвольной тематики использует гибридный поиск, основанный на средневзвешенном значении соответствия по словам и семантическому значению. С текстами известной тематики использует семантико-логическую модель предметной области (состоящую из описания типов объектов и правил зависимостей) и логический интерпретатор для поиска соответствия.
Поисково-аналитическая система "Галактика-Zoom"
Работа системы основана на составлении и анализе информационного портрета (ИП) выборки документов. ИП представляет собой список языковых инвариантов (слов и словосочетаний), отличающих данную выборку от прочих. ИП используется для решения задач быстрого представления результатов запроса без чтения текстов документов, автоклассификации и автореферирования.
Синдбад
Система классификации текстовой информации "Синдбад" вляется частью общего пакета верификации данных, разработанного в Бюро Интернет Технологий, и представляет собой набор утилит для структуризации и каталогизации текстовой информации, выявления ошибок при отсутствии количественных ограничений на сложность структуры связей, типы данных и их объем.
Рубрикация осуществляется по набору ключевых слов, связанных отношениями булевой логики с применением частотных словарей и возможностей нечеткого поиска для выявления связей, возникающих между элементами информации за счет совпадения или близости фрагментов исследуемого текста, в т.ч. связей, которые невозможно представить в виде иерархической модели. Помимо контекстной зависимости, для более точной рубрикации используется смысловая близость уже отрубрицированных элементов.

Система применима для работы с реляционными, иерархическими, сетевыми БД, а также со слабоструктурированными данными: Web-ресурсами, системами документооборота, текстовыми файлами.
УИС РОССИЯ (НИВЦ МГУ + АНО ЦИИ)
В РОМИП 2004 планируется опробовать некоторые технологии, реализованные в составе информационно-поисковой системы "Университетской информационной системы РОССИЯ" (УИС РОССИЯ, http://www.cir.ru), либо планируемые к реализации.
Информационно-поисковая система УИС РОССИЯ поддерживается совместно лабораторией анализа информационных ресурсов Научно-исследовательского вычислительного центра МГУ (информационные технологии) и АНО Центр информационных исследований (лингвистические ресурсы и технологии).
УИС РОССИЯ представляет собой программно-аппаратное решение организации коллекции в миллион документов, ориентированное на потребности аналитических служб (использование рубрикаторов, тезауруса, он-лайн анализ результатов запроса, интерактивное уточнение запроса и т.п.)
Яндекс.Server 3.2
Полнотекстовое индексирование и поиск с учетом русской морфологии