В Суздале состоялась очная часть РОМИП'2006, на которой были
представлены 12 из 14 запланированных докладов.
На заседаниях РОМИП пристутствовало более 50 человек.
После закрытия официальной части семинара и RCDL,
состоялся неформальный круглый стол для представителей систем участников и
оргкомитета
РОМИП, где обсуждалось, куда и как развивать семинар.
За два часа был поднят ряд интересных и важных тем. Они озвучены в
заметках о
круглом столе в форуме.
ACK
Исследовательский проект. В основе метода лежит
контекстно-ассоциативная модель естественно-языковых текстов, основанная на
построении решеток терминов, учитывающих их взаимное расположение в
различных
фрагментах анализируемых документов. В рамках РОМИП'2006 планируется
провести
ряд вычислительных экспериментов с целью анализа эффективности применения
метода в алгоритмах поиска по документу-образцу и контекстно-зависимого
аннотирования.
ClusterRetrieve2006
На РОМИП-2006 планируется провести апробацию
поисковой системы, основанной на кластеризации коллекции документов.
Поиск будет производится путем классификации запроса в построенном наборе
кластеров.
Exactus
Exactus - средство семантического интеллектуального поиска и анализа
информации в гетерогенных информационных ресурсах и сервисах:
Internet/Intranet сети, локальные/распределенные базы данных
различного рода. Система представляет пользователям поисковый сервис
с возможностью ввода естественно-языковых запросов, расширения
запроса синонимами, выбором поискового профиля и т.д. что существенным
образом увеличивает точность и полноту поиска.
eXtragon
Система реферирования использует традиционные подходы для выделения
важных предложений из текста на основе следующих параметров:
частота встречаемости слова в тексте;
графическое оформление слов;
положение предложения в документе;
"сигнальные" слова и фразы.
Kallimachos
Система "Kallimachos" предназначена для решения задач рубрикации
документов, отсеивания материалов дублирующих (возможно с искажениями)
первоисточник, нахождения оригинального документа по цитате,
составления рефератов документов и поиска по запросу в коллекции.
На РОМИП'2006 планируется провести сравнительный анализ нескольких
подходов к классификации и контекстно-зависимому аннотированию
документов.
RCO
На РОМИП-2006 планируется провести апробацию ряда алгоритмов,
разрабатываемых исследовательской группой бизнес-подразделения RCO
компании "Гарант-Парк-Интернет".
SearchInform
Система Searchinform предназначена для максимально быстрого индексирорования
текстовой информации с последующим предоставлением широких поисковых
возможностей. Средняя скорость индексирования данных 15 Гб час
(пиковая до 30 Гб (на чисто текстовых данных)).
Одной из функций системы, основанной на патентованной технологии,
является поиск документов похожих по содержанию на образец.
Specs
Исследовательский проект, посвященный созданию системы периодического
тематического поиска. В рамках РОМИП будет проведена оценка нескольких
алгоритмов классификации и способов предварительной обработки текста.
Stocona
Stocona Search реализует функции классической и вопросно-ответной
поисковой системы. Поиск базируется на полном синтактико-семантическом
анализе текстов на естественном русском и английском языках. Версии
системы реализованы для поиска в локальных и глобальных массивах
неструктурированной текстовой информации.
ThematicSearch2006
На РОМИП-2006 планируется провести апробацию
тематической поисковой системы, учитывающей скрытые взаимосвязи между
термами. Выявление взаимосвязей между термами основано на анализе
совместного использования термов в документах. Система использует
словарь тематических терминов для формирования смыслового пространства,
в котором будут анализироваться все термы коллекции.
Галактика-Зум
Система обработки больших объемов неструктурированных данных Галактика-Зум -
инструмент для создания хранилища текстовой информации, который обладает
возможностями для проведения эффективного поиска и аналитических
исследований. Галактика-Зум обеспечивает поиск в информационных массивах с
применением языка запросов, контекстный или тематический поиск информации с
учетом морфологии.С помощью комплекса Галактика-Зум можно построить
информационный образ объекта исследования ("Информационный портрет") на
основе языковых конструкций - слов и словосочетаний.
Золушка
Исследовательский проект, в рамках которого изучаются несколько
задач информационного поиска.
Кодекс
Полнотекстовая база данных, предназначенная для создания информационных
систем и хранилищ документов. На базе нее созданы информационно-правовые
системы "Кодекс", справочные системы
нормативно-технических документов "ЦНТД",
электронные системы документооборота "Кодекс", системы автоматизации арбитражных
судов и ряд других систем обработки текстовой информации.
Система Атлас-Альфа
Классическая схема автоматической классификации текстов с помощью
ML. Перевод HTML в текст, стемминг, сокращение размерности,
удаление стоп-слов, вычисление веса слов, обучение с помощью
SVM-Multiclass (Thorsten Joachims).
УИС РОССИЯ
Университетская информационная система РОССИЯ (УИС РОССИЯ)
- проект, нацеленный на интеграцию информационных ресурсов для
гуманитарных исследований. Поддерживается Научно-исследовательским
вычислительным центром МГУ им.М.В.Ломоносова (НИВЦ МГУ) и АНО Центр
информационных исследований. Решения на основе технологий УИС РОССИЯ
- тематический анализ текстов, классификация по большим рубрикаторам,
интерактивный поиск документов - используются в некоторых органах
государственной власти и управления, коммерческих организациях.