Простой формат представления документов
Предполагается, что для каждого документа мы хотим сохранить следующую
информацию:
- идентификатор (url для Web коллекции)
- содержимое (без каких либо модификаций)
- идентификатор коллекции (метка и дата создания)
Кроме этого много отдельных документов будем описывать в одном и том же xml
файле, чтобы уменьшить количество файлов на корпус
(и сэкономить место на описании коллекции).
Для того чтобы защититься от некорректного HTML, бинарных данных и
других несовместимостей с xml содержимое документа будет кодироваться
в что-нибудь нейтральное (например, base64). (NB: Негативным следствием
является увеличение физического размера корпуса).
Исходя из вышесказанного формат выглядит так
(вот пример реального xml файла):
<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common">
<collection>
<collectionID>Название набора данных</collectionID>
<date>Дата создания (характеризует время модификации
оригиналов документов)</date>
</collection>
<document>
<docID>идентификатор (URL для narod.ru)</docID>
<content encoding="base64">
содержимое в base64, для того чтобы защититься от всего,
что может сломать стандартный XML парсер (некорректный
HTML, бинарные данные, т.п.)
</content>
</document>
<document>
... следующий документ ...
</document>
...
</romip:dataset>
|