Веб коллекция Narod.Ru
РОМИП

 Новости 
 О проекте 
 Манифест 
 Приглашение к участию 
 Общие принципы 
 Участие в семинаре 
 График 
 Участники 
 Дорожки 
 Тестовые коллекции 
 Таблицы 
 Архив 
 Публикации 
 FAQ 
 Форум 

Switch to EnglishSwitch to English
 

Веб коллекция Narod.Ru

Описание

Коллекция представляет собой псевдослучайную выборку из примерно 3% сайтов домена narod.ru с исключением всех сайтов, созданных исключительно с использованием стандартных шаблонов narod.ru. В набор включались только HTML документы. Размер ее по отношению ко всему российскому сегменту Интернет невелик, порядка 0.12-0.30%.

Статистика по набору данных
  • Объем HTML данных: 7+ Gb
  • Число страниц: 728 000+
  • Число сайтов: 22 000
  • Кодировка: cp1251 (исключения можно трактовать как мусор)
Права на использование

Права на использование в целях РОМИП предоставлены компанией Яндекс, являющейся владельцем коллекции. Для получения доступа к коллекции необходимо подписать соглашение об использовании.

Формат и парсер

Коллекция распространяется в виде xml файлов, определенного формата, которые разделены на 2 группы - narod.* и narod_training.*. Файлы из второй группы содержат документы, относящиеся к обучающему множеству, использующемуся для дорожки классификации Веб документов.

Список дорожек, в которых использовалась коллекция
  • поиск по коллекции Веб документов
  • поиск по смешанной коллекции
  • поиск по документу-образцу
  • классификация Веб-сайтов
  • классификация Веб-страниц
  • фактографический поиск
  • вопросно-ответный поиск
  • контекстно-зависимое аннотирование текстовых документов
  • Дорожка вопросно-ответного поиска
По привлекательной цене фильтры для очистки воздуха на любых условиях. . whiteessay