Веб коллекция BY.web
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Веб коллекция BY.web

Описание

Коллекция построена компанией Яндекс как выборка из страниц домена .by, присутствовавших в индексе поисковой системы Яндекс по состоянию на май 2007 года. Коллекция строилась по следующему принципу: с каждого известного сайта из домена .by брались все страницы на глубину 3 ссылки от стартовой.

Статистика по набору данных
  • Объем данных: 8 GB
  • Кодировка: cp1251
Особенности коллекции

  • Процент ссылок, ведущих внутрь коллекции, порядка 25%.

Права на использование

Права на использование в целях РОМИП предоставлены компанией " Яндекс", являющейся владельцем коллекции. Для получения доступа к коллекции необходимо подписать соглашение об использовании данных.

Формат

Коллекция распространяется в виде xml файлов, определенного формата .

Список дорожек, в которых использовалась коллекция
  • поиск по коллекции Веб документов
  • поиск по смешанной коллекции
  • классификация Веб-сайтов
  • классификация Веб-страниц