![]() |
Формат документов в новостной коллекции РОМИП'2005Документы в коллекциях РОМИП представлены в виде XML. Для каждого новостного документа хранится следующая информация:
Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов. Содержимое и заголовок исходного документа хранится в кодировке BASE64. Пример документа оформленного в таком формате (XML файл)
<?xml version="1.0"?>
<romip:dataset xmlns:romip="http://www.romip.ru/data/common" collectionId="ROMIP-2005-News">
<header>
<version>1.0</version>
<license type="yandex" uri="http://romip.ru/license/yandex.html"/>
<collection-description>
This is ROMIP news collection....
</collection-description>
</header>
<document>
<docID>27793</docID>
<docURL> URL документа в Веб в base 64</docURL>
<subject encoding="base64"> тема новости в base64 </subject>
<agency>полит.ру</agency>
<timestamp>
<date>20040402</date>
<daytime>50493</daytime>
</timestamp>
<content encoding="base64">
содержимое в base64
</content>
</document>
<document>
... следующий документ ...
</document>
...
</romip:dataset>
|