Веб коллекция Narod.RuОписаниеКоллекция представляет собой псевдослучайную выборку из примерно 3% сайтов домена narod.ru с исключением всех сайтов, созданных исключительно с использованием стандартных шаблонов narod.ru. В набор включались только HTML документы. Размер ее по отношению ко всему российскому сегменту Интернет невелик, порядка 0.12-0.30%. Статистика по набору данных
Права на использованиеПрава на использование в целях РОМИП предоставлены компанией Яндекс, являющейся владельцем коллекции. Для получения доступа к коллекции необходимо подписать соглашение об использовании. Формат и парсерКоллекция распространяется в виде xml файлов, определенного формата, которые разделены на 2 группы - narod.* и narod_training.*. Файлы из второй группы содержат документы, относящиеся к обучающему множеству, использующемуся для дорожки классификации Веб документов. Список дорожек, в которых использовалась коллекция
|