Формат представления результатов для дорожки классификации
Результат классификации представляется в виде одного XML файла
или нескольких файлов, каждый из которых содержит содержит списки
назначенных категорий для некоторого множества классифицируемых сайтов.
XML файл должен иметь следующую структуру:
<?xml version="1.0"?>
<romip:taskresult xmlns="http://www.romip.ru/data/classification" trackId="ROMIP-2005-Web-classification">
<!-- для классификации документов по нормативной коллекции trackId="ROMIP-2005-Legal-classification" -->
<!-- для классификации Веб-страниц trackId="ROMIP-2005-Webpage-classification" -->
<romip:run>
<romip:systemID>Yellow</romip:systemID>
<romip:runID>MyRunId</romip:runID>
</romip:run>
<result>
<document name="www.frisbee.ru">
<topic>240</topic>
</document>
<document name="www.ularams.ru">
<topic>184</topic>
<topic>202</topic>
<topic>131</topic>
<topic>163</topic>
</document>
</result>
</romip:taskresult>
Блок run характеризует систему с помощью которой были предоставлены
результаты.
-
systemID - идентификатор системы, которые был предоставлен
организаторами при регистрации.
-
runID - идентификатор модификации системы, которая использовалась для этого
прогона (характеризует параметры эксперимента). Его форма определяется
участником самостоятельно.
Блок result описывает к каким темам относятся классифицируемые
элементы.
Для дорожки классификации Веб-сайтов элементами (тег document) являются сайты
(как в этом примере, идентификатор - название сайта), а в случае классификации документов -
документы (идентификатор документа - то, что находилось в теге
document при описании этого документа в коллекции).
Идентификаторы указываются как значение аттрибута name тега document.
Идентификаторы назначенных категорий перечисляются в виде списка тегов
topic. Идентификатор для категории указан в файле с описанием
обучающего множества.
Внимание: Для ограничения объема выдаваемых
результатов установлен максимальный предел в пять категорий для одного
элемента.
|