Формат документов в новостной коллекции РОМИП'2005Документы в коллекциях РОМИП представлены в виде XML. Для каждого новостного документа хранится следующая информация:
Для уменьшения числа файлов в тестовой коллекции один xml файл содержит много отдельных документов. Содержимое и заголовок исходного документа хранится в кодировке BASE64. Пример документа оформленного в таком формате (XML файл) <?xml version="1.0"?> <romip:dataset xmlns:romip="http://www.romip.ru/data/common" collectionId="ROMIP-2005-News"> <header> <version>1.0</version> <license type="yandex" uri="http://romip.ru/license/yandex.html"/> <collection-description> This is ROMIP news collection.... </collection-description> </header> <document> <docID>27793</docID> <docURL> URL документа в Веб в base 64</docURL> <subject encoding="base64"> тема новости в base64 </subject> <agency>полит.ру</agency> <timestamp> <date>20040402</date> <daytime>50493</daytime> </timestamp> <content encoding="base64"> содержимое в base64 </content> </document> <document> ... следующий документ ... </document> ... </romip:dataset> |