Формат представления результатов
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат представления результатов для дорожки классификации

Результат классификации представляется в виде одного XML файла или нескольких файлов, каждый из которых содержит содержит списки назначенных категорий для некоторого множества классифицируемых сайтов.

XML файл должен иметь следующую структуру:

<?xml version="1.0"?>
<romip:taskresult xmlns:romip="http://www.romip.ru/data/classification" trackId="ROMIP-2007-Web-classification">
<!-- для классификации документов по нормативной коллекции trackId="ROMIP-2007-Legal-classification" -->
<!-- для классификации Веб-страниц trackId="ROMIP-2007-Webpage-classification" -->

<romip:run> <romip:systemID>Yellow</romip:systemID> <romip:runID>MyRunId</romip:runID> </romip:run>
<result> <document name="www.frisbee.ru"> <topic>240</topic> </document> <document name="www.ularams.ru"> <topic>184</topic> <topic>202</topic> <topic>131</topic> <topic>163</topic> </document> </result> </romip:taskresult>
Блок run характеризует систему с помощью которой были предоставлены результаты.
  • systemID - идентификатор системы, которые был предоставлен организаторами при регистрации.
  • runID - идентификатор модификации системы, которая использовалась для этого прогона (характеризует параметры эксперимента). Его форма определяется участником самостоятельно.

Блок result описывает к каким темам относятся классифицируемые элементы.

Для дорожки классификации Веб-сайтов элементами (тег document) являются сайты (как в этом примере, идентификатор - название сайта), а в случае классификации документов - документы (идентификатор документа - то, что находилось в теге document при описании этого документа в коллекции). Идентификаторы указываются как значение аттрибута name тега document.

Идентификаторы назначенных категорий перечисляются в виде списка тегов topic. Идентификатор для категории указан в файле с описанием обучающего множества.

Внимание: Для ограничения объема выдаваемых результатов установлен максимальный предел в пять категорий для одного элемента.