Формат представления документов
К формату предъявляются следующие требования:
- Представление документа должно быть полным,
без необходимости использования информации из других файлов.
- Формат должен быть переиспользуемым для других коллекций
(не только для Веб).
- Формат должен быть простым.
- Возможность использовать стандартные компоненты
для обработки данных.
- Должна быть возможность сохранять важные детали разметки и
связи между документами.
Общее решение - заворачивать содержимое документа в XML, добавляя
к нему важную метаинформацию (например, название коллекции и
идентификатор корпуса).
Дальнейшая спецификация зависит от ответов на следующие вопросы:
- Представлять каждый документ отдельным файлом или
много документов хранить в одном XML файле?
- Можем ли мы гарантировать корректность содержимого
описываемого документа?
Т.е. не нарушит ли его содержимое
формат? например, не содержит ли оно конструкций,
которые сломают стандартный XML парсер)
- Стоит ли централизовано извлекать какую-нибудь информацию
(заголовки, списки ссылок, т.п.)?
(альтернатива - может быть стандартный инструмент)
Для облегчения процесса обработки набора данных конкретной системой
с набором будет распространяться простой и легко адаптируемый
парсер (наверное, реализованный на java),
который может быть использован для преобразования данных в более удобный для
конкретной системы формат.
Предложенные альтернативы форматов:
- Простой формат с множеством документов
в одном XML файле
Пример документа
- Расширенный формат
(предполагает преобразование к XHTML и
централизованное выделение ссылок).
Пример документа
Доставка цветов по Москве нет проблем. Доставка цветов по Москве найти новости на форуме.