Простой формат представления документовДокументы в коллекциях РОМИП представлены в виде XML. Для каждого документа хранится следующая информация:
Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов. Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные). Пример документа оформленного в таком формате (XML файл) <?xml version="1.0"?> <romip:dataset xmlns:romip="http://www.romip.ru/data/common"> <collection> <collectionID>Название набора данных</collectionID> <date>Дата создания (характеризует время модификации оригиналов документов)</date> </collection> <document> <docID>идентификатор (URL для narod.ru)</docID> <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL> <content encoding="base64"> содержимое в base64, для того чтобы защититься от всего, что может сломать стандартный XML парсер (некорректный HTML, бинарные данные, т.п.) </content> </document> <document> ... следующий документ ... </document> ... </romip:dataset> Стандартный парсерДля облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат. Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент. |