[РОМИП] Простой формат представления документов

Новости
Правила
Заявка на участие
График
Дорожки:
   Поиск
   Классификация
Участники
Организация
FAQ
Форум

   Простой формат представления документов

Предполагается, что для каждого документа мы хотим сохранить следующую информацию:
  • идентификатор (url для Web коллекции)
  • содержимое (без каких либо модификаций)
  • идентификатор коллекции (метка и дата создания)
Кроме этого много отдельных документов будем описывать в одном и том же xml файле, чтобы уменьшить количество файлов на корпус (и сэкономить место на описании коллекции).

Для того чтобы защититься от некорректного HTML, бинарных данных и других несовместимостей с xml содержимое документа будет кодироваться в что-нибудь нейтральное (например, base64). (NB: Негативным следствием является увеличение физического размера корпуса).

Исходя из вышесказанного формат выглядит так (вот пример реального xml файла):

<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">

<collection>
   <collectionID>Название набора данных</collectionID>
   <date>Дата создания (характеризует время модификации 
		оригиналов документов)</date>
</collection>

<document>
  <docID>идентификатор (URL для narod.ru)</docID>
  <content encoding="base64">
    содержимое в base64, для того чтобы защититься от всего,
	что может сломать стандартный XML парсер (некорректный 
	HTML, бинарные данные, т.п.)
  </content>
</document>

<document>
  ... следующий документ ...
</document>

...

</romip:dataset>