Формат представления результатов для дорожки по поиску фактов
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Формат представления результатов для дорожки по поиску фактов

Результаты каждого из этапов (см. правила дорожки поиска фактов) должны быть представлены в виде одного XML-файла.
Структура файлов различна для разных этапов.

I. Первый этап

Формат для предоставления результатов выделения именнованных сущностей следующий:

<?xml version="1.0" encoding="windows-1251"?>
<romip:taskresult xmlns="http://www.romip.ru/data/qa" collectionId="ROMIP-2005-News" trackId="QA-named-entity">
 <romip:run>
    <romip:systemID>yellow</romip:systemID>
    <romip:runID>1</romip:runID>
 </romip:run>

 <resultlist>
  
  <entitylist srcRef="27793">
     <entity class="person" offset="432" length="18" id="1">Эдуарда Шеварднадзе</entity>
     <entity class="other" offset="198" length="13" id="2">революция роз</entity>
  </entitylist>
  <entitylist srcRef="45913">
     <entity class="organization" offset="1" length="19" id="1">большая восьмерка</entity>
     <entity class="place-name" offset="56" length="9" id="2">Шотландия</entity>
     <entity class="organization" offset="320" length="3">G8</entity>
     <entity class="organization" offset="548" id="1">большой восьмерке</entity>
  </entitylist>

 </resultlist>

</romip:taskresult>
Блок run характеризует систему, с помощью которой были предоставлены результаты.
  • systemID - идентификатор системы, который был предоставлен организаторами при регистрации.
  • runID - идентификатор модификации системы, которая использовалась для этого прогона (характеризует параметры эксперимента).
    Его форма определяется участником самостоятельно.

Тег resultlist содержит списки именованных сущностей, выделенных из отдельных документов коллекции. Каждый список представляется отдельным тегом entitylist, аттрибут srcRef которого содержит идентификатор исходного документа (docID из исходной коллекции).
Внимание! Если вы используйте версию 1.0 новостной коллекции, в котором идентификаторы документов не содержат дефиса, то для предоставления результатов используйте идентификаторы вида номер_архива-docID (например, 1-1020 для документа с docID 1020 из архива news-1.xml).

Каждое вхождение именованной сущности в документ описывается с помощью отдельного тега entity. Текст внутри тега - произвольная форма сущности (нормализованная или нет - на усмотрение участника).

Атрибуты offset и length являются обязательными и содержат соответственно смещение первой буквы выделенной сущности в исходном документе (смещение в байтах в распакованной из base64 версии текста) и длину фрагмента текста, в котором эта сущность встретилась. Например, для сущности Ковдорский ГОК, встретившейся в фрагменте "Ковдорский, Костомукшинский и Оленегорский ГОКи", правильно указывать length="47" (длину фрагмента текста), а не длину нормализованного представления (length="14"). (Смещение и длина определяют фрагмент текста, который увидит асессор оценивающий правильность ответа).

Атрибут id также обязателен и является идентификатором именнованной сущности в рамках исходного документа. В рамках одного списка сущностей значения идентификатора могут совпадать, что означает, что такие сущности просто являются разными формами одной и той же нормализованной сущности.

Для указания типа выявленной сущности используется атрибут class с возможными значениями:

  • "person" (сущность является именем персоны);
  • "organization"(сущность является названием организации);
  • "place-name"(сущность является географическим объектом);
  • "other" (прочее или неизвестный класс).
Этот аттрибут не является обязательным и в случае его отсутствия будет использоваться значение по умолчанию - "other".

II. Второй этап

Формат для предоставления результатов выделения фактов следующий:

<?xml version="1.0" encoding="windows-1251"?>
<romip:taskresult xmlns="http://www.romip.ru/data/qa" collectionId="ROMIP-2005-News" trackId="QA-fact-extraction">
 <romip:run>
    <romip:systemID>yellow</romip:systemID>
    <romip:runID>1</romip:runID>
 </romip:run>

 <resultlist>
  <factset srcRef="5790">
     <fact baseEntity="Михаил Ходорковский" object="ЮКОС" offset="150" length="429" entityOffset="20" class="owner"> 
        текст до 500 символов в формате BASE64
     </fact>
  </factset>
  
  <!-- в следующем примере текст факта привиден не в формате BASE64 только для иллюстрации-->  
  <factset srcRef="10205">
     <fact baseEntity="Бажанов Сергей" object=""Международный Банк Санкт-Петербурга"" offset="27" length="166" entityOffset="74" class="owns">
Президент и главный акционер ОАО "Международный Банк Санкт-Петербурга" Сергей Бажанов в ближайшие 5 лет не намерен продавать часть или весь свой пакет акций банка.
     </fact>
     <fact baseEntity=""Международный Банк Санкт-Петербурга"" object="Бажанов Сергей" offset="27" length="166" entityOffset="35" class="employs">
Президент и главный акционер ОАО "Международный Банк Санкт-Петербурга" Сергей Бажанов в ближайшие 5 лет не намерен продавать часть или весь свой пакет акций банка.
     </fact>
  </factset>

  ...
 </resultlist>

</romip:taskresult>

Блок run характеризует систему, с помощью которой были предоставлены результаты.

  • systemID - идентификатор системы, который был предоставлен организаторами при регистрации.
  • runID - идентификатор модификации системы, которая использовалась для этого прогона (характеризует параметры эксперимента).
    Его форма определяется участником самостоятельно.

factset cодержит набор всех фактов, встречающихся в исходном документе, идентификатор которого указывается в качестве значения аттрибута srcRef (docID из исходной коллекции).
Внимание! Если вы используйте версию 1.0 новостной коллекции, в котором идентификаторы документов не содержат дефиса, то для предоставления результатов используйте идентификаторы вида номер_архива-docID (например, 1-1020 для документа с docID 1020 из архива news-1.xml).

Для каждого факта (fact) указывается следующий набор атрибутов:

  • baseEntity и object содержит канонические формы сущностей, с которыми связан факт.
  • class - тип факта. Может принимать два значения:
    • owns (baseEntity владеет object)
    • employs (object работает в baseEntity)
  • offset и length задают фрагмент текста, содержащий описание факта. Длина фрагмента не более 500 байт.
  • entityOffset - ссылка на сущность в тексте (смещение относительно начала фрагмента).

Текст самого факта в формате BASE64 должен находиться внутри тега fact.
Заметим, что в приведенном выше примере структуры XML формат BASE64 для текста факта не использовался только лишь для иллюстративных целей.