![]() |
Простой формат представления документовДокументы в коллекциях РОМИП представлены в виде XML. Для каждого документа хранится следующая информация:
Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов. Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные). Пример документа оформленного в таком формате (XML файл)
<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">
<collection>
<collectionID>Название набора данных</collectionID>
<date>Дата создания (характеризует время модификации
оригиналов документов)</date>
</collection>
<document>
<docID>идентификатор (URL для narod.ru)</docID>
<docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>
<content encoding="base64">
содержимое в base64, для того чтобы защититься от всего,
что может сломать стандартный XML парсер (некорректный
HTML, бинарные данные, т.п.)
</content>
</document>
<document>
... следующий документ ...
</document>
...
</romip:dataset>
Стандартный парсерДля облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат. Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент. |