Формат представления результатов для дорожки по поиску фактовРезультаты каждого из этапов (см. правила дорожки поиска фактов) должны быть представлены в виде одного XML-файла.Структура файлов различна для разных этапов. I. Первый этапФормат для предоставления результатов выделения именнованных сущностей следующий: <?xml version="1.0" encoding="windows-1251"?> <romip:taskresult xmlns="http://www.romip.ru/data/qa" collectionId="ROMIP-2005-News" trackId="QA-named-entity2006"> <romip:run> <romip:systemID>yellow</romip:systemID> <romip:runID>1</romip:runID> </romip:run> <resultlist> <entitylist srcRef="1-27793"> <entity class="person" offset="432" length="18" id="1">Эдуарда Шеварднадзе</entity> <entity class="other" offset="198" length="13" id="2">революция роз</entity> </entitylist> <entitylist srcRef="2-45913"> <entity class="organization" offset="1" length="19" id="1">большая восьмерка</entity> <entity class="place-name" offset="56" length="9" id="2">Шотландия</entity> <entity class="organization" offset="320" length="3">G8</entity> <entity class="organization" offset="548" id="1">большой восьмерке</entity> </entitylist> </resultlist> </romip:taskresult>Блок run характеризует систему, с помощью которой были предоставлены результаты.
Тег resultlist содержит списки именованных сущностей, выделенных из
отдельных документов коллекции. Каждый список представляется отдельным
тегом entitylist, аттрибут srcRef которого содержит
идентификатор исходного документа (docID из исходной коллекции).
Каждое вхождение именованной сущности в документ описывается с помощью отдельного тега entity. Текст внутри тега - произвольная форма сущности (нормализованная или нет - на усмотрение участника). Атрибуты offset и length являются обязательными и содержат соответственно смещение первой буквы выделенной сущности в исходном документе (смещение в байтах в распакованной из base64 версии текста) и длину фрагмента текста, в котором эта сущность встретилась. Например, для сущности Ковдорский ГОК, встретившейся в фрагменте "Ковдорский, Костомукшинский и Оленегорский ГОКи", правильно указывать length="47" (длину фрагмента текста), а не длину нормализованного представления (length="14"). (Смещение и длина определяют фрагмент текста, который увидит асессор оценивающий правильность ответа). Атрибут id также обязателен и является идентификатором именнованной сущности в рамках исходного документа. В рамках одного списка сущностей значения идентификатора могут совпадать, что означает, что такие сущности просто являются разными формами одной и той же нормализованной сущности. Для указания типа выявленной сущности используется атрибут class с возможными значениями:
II. Второй этапФормат для предоставления результатов выделения фактов следующий: <?xml version="1.0" encoding="windows-1251"?> <romip:taskresult xmlns="http://www.romip.ru/data/qa" collectionId="ROMIP-2005-News" trackId="QA-fact-extraction2006"> <romip:run> <romip:systemID>yellow</romip:systemID> <romip:runID>1</romip:runID> </romip:run> <resultlist> <factset srcRef="1-5790"> <fact baseEntity="Михаил Ходорковский" object="ЮКОС" offset="150" length="429" entityOffset="20" class="owner"> текст до 500 символов в формате BASE64 </fact> </factset> <!-- в следующем примере текст факта привиден не в формате BASE64 только для иллюстрации--> <factset srcRef="2-10205"> <fact baseEntity="Бажанов Сергей" object=""Международный Банк Санкт-Петербурга"" offset="27" length="166" entityOffset="74" class="owns"> Президент и главный акционер ОАО "Международный Банк Санкт-Петербурга" Сергей Бажанов в ближайшие 5 лет не намерен продавать часть или весь свой пакет акций банка. </fact> <fact baseEntity=""Международный Банк Санкт-Петербурга"" object="Бажанов Сергей" offset="27" length="166" entityOffset="35" class="employs"> Президент и главный акционер ОАО "Международный Банк Санкт-Петербурга" Сергей Бажанов в ближайшие 5 лет не намерен продавать часть или весь свой пакет акций банка. </fact> </factset> ... </resultlist> </romip:taskresult> Блок run характеризует систему, с помощью которой были предоставлены результаты.
factset cодержит набор всех фактов, встречающихся в исходном
документе, идентификатор которого указывается в качестве значения аттрибута
srcRef (docID из исходной коллекции).
Для каждого факта (fact) указывается следующий набор атрибутов:
Текст самого факта в формате |