РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Простой формат представления документов

Документы в коллекциях РОМИП представлены в виде XML.

Для каждого документа хранится следующая информация:
  • идентификатор (url для Web коллекции)
  • содержимое (без каких либо модификаций)
  • идентификатор коллекции (метка и дата создания)

Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов.

Содержимое исходного документа хранится в кодировке BASE64 для того, чтобы сохранить его как можно ближе к оригиналу (его разметка может быть далека от XHTML, теоретически там вообще могут быть бинарные данные).

Пример документа оформленного в таком формате (XML файл)

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <docURL>необязательный тег, содержащий полный оригинальный url для этой страницы</docURL>  
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>

Стандартный парсер

Для облегчения процесса обработки набора данных конкретной системой-участником с набором мы предоставляем стандартный парсер (очень простой), реализованный на java. Он может быть расширен для преобразования данных в любой удобный для вашей системы формат.

Отметим, что использование этого парсера не является обязательным и вы можите использовать любой другой инструмент.

операция имплантация зубов