РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат представления результатов для дорожки классификации

Результат классификации представляется в виде одного XML файла или нескольких файлов, каждый из которых содержит содержит списки назначенных категорий для некоторого множества классифицируемых сайтов.

XML файл должен иметь следующую структуру:

<romip:taskresult xmlns="http://www.romip.ru/data/classification" trackId="ROMIP-2004-Web-classification">
<!-- для коллекции нормативных документов trackId=ROMIP-2004-Legal-classification -->
  <romip:run>
    <romip:systemID>Yellow</romip:systemID>
    <romip:runID>MyRunId</romip:runID>
  </romip:run>
 <result>
  <item name="pallada.narod.ru">
    <category>170</category>
  </item>
  <item name="studentik.narod.ru">
    <category>184</category>
    <category>129</category>
    <category>191</category>
    <category>163</category>
    <category>105</category>
  </item>
 </result>
</romip:taskresult>
Блок run характеризует систему с помощью которой были предоставлены результаты. systemID - идентификатор системы, которые был предоставлен организаторами при регистрации. runID - идентификатор модификации системы, которая использовалась для этого прогона (характеризует параметры эксперимента), - его форма определяется участником самостоятельно.

Блок result собственно описывает к каким темам относятся классифицируемые элементы. Идентификатор эелемента указывается как значение аттрибута name тега item.

Для дорожки классификации Веб-сайтов эелементами являются сайты (как в этом примере, идентификатор - название сайта), а в случае тематической классификации документов - документы (идентификатор документа - это число в поле docId, которое использовалось при описании этого документа в коллекции).

Для каждого классифицируемого элемента идентификаторы назначенных ему категорий перечисляются в виде списка тегов category. а название сайта указывается, как значение аттрибута name тега item.

Внимание: Для ограничения объема выдаваемых результатов установлен максимальный предел в пять категорий для одного элемента