[РОМИП] Коллекция Narod.Ru

Новости
Правила
Заявка на участие
График
Дорожки:
   Поиск
   Классификация
Участники
Организация
FAQ
Форум

   Коллекция Narod.Ru

Основной набор данных для дорожек в 2003 году.

Выбор Веб коллекции обусловлен как актуальностью задач поиска для Веб, так и простотой организации легального доступа к этому набору данных для участников семинара.

Коллекция представляет собой псевдослучайную выборку сайтов из narod.ru с исключением всех сайтов, созданных исключительно с использованием стандартных шаблонов narod.ru. В набор включались только HTML документы.

Статистика по набору данных:

  • Объем HTML данных: 7+ Gb
  • Число документов: 600 000+
  • Число сайтов: 20 000+
  • Кодировка: cp1251 (исключения можно трактовать как мусор)
В распространяемом наборе документы представлены в следующем формате (ассоциация исходного URL и документа сохраняется).

Сохранение исходной разметки обеспечивает максимальное приближение к реальным условиям в Веб.

Для облегчения процесса обработки набора данных конкретной системой с набором будет распространяться простой и легко адаптируемый парсер (наверное, реализованный на java), который может быть использован для преобразования данных в более удобный для конкретной системы формат.

Акция на Apple iPhone, iPad! В интернет-магазине Apple-House - купить айфон 4 в москве дешево