Коллекция Narod.Ru
Основной набор данных для дорожек в 2003 году.
Выбор Веб коллекции
обусловлен как актуальностью задач поиска для Веб, так и простотой
организации легального доступа к этому набору данных для участников
семинара.
Коллекция представляет собой псевдослучайную выборку сайтов
из narod.ru с исключением всех сайтов, созданных исключительно с
использованием стандартных шаблонов narod.ru. В набор включались только
HTML документы.
Статистика по набору данных:
- Объем HTML данных: 7+ Gb
- Число документов: 600 000+
- Число сайтов: 20 000+
- Кодировка: cp1251 (исключения можно трактовать как мусор)
В распространяемом наборе документы представлены в следующем формате
(ассоциация исходного URL и документа сохраняется).
Сохранение исходной разметки обеспечивает максимальное приближение
к реальным условиям в Веб.
Для облегчения процесса обработки набора данных конкретной системой с
набором будет
распространяться простой и легко адаптируемый парсер (наверное,
реализованный на java), который
может быть использован для преобразования данных в более удобный для
конкретной системы формат.
|