Информационный поиск в сети
Вся совокупность сайтов в Интернете является огромным набором неструктурированной информации. Соответственно, чтобы что-то найти в этой огромной массе информации, не связанной едиными нормами и стандартами, необходима помощь специальных сервисов. Такими сервисами являются каталоги и поисковые системы. Но даже найдя большое количество сайтов по определенной теме, пользователь должен иметь возможность как-то решить, с какого из них начать.
Поисковые системы решают этот вопрос, располагая найденные сайты в порядке убывания релевантности, — соответствия содержания сайта запросу пользователя. Результат такого поиска не всегда удовлетворителен, поскольку поисковой системе безразлично, насколько качественно сделан сайт, и насколько полную информацию по выбранной теме он содержит. Но преимуществом поисковой машины является то, что она совершает поиск в огромном массиве информации и обрабатывает такое количество сайтов, которое никогда не сможет собрать ни один каталог, формируемый людьми.
Поисковые системы состоят из трех основных частей: поискового робота, базы индексов и программы поиска по базе индексов.
Поисковый робот — это специальная программа, которая посещает сайты и индексирует их содержимое в соответствии с определенными правилами, заложенными в нее разработчиками (выделяет ключевые слова, добавляет к ним весовые коэффициенты в соответствии с их расположением на странице и т. д., вариантов может быть масса). Проиндексировав страницу, робот движется дальше по гиперссылкам, которые он на этой странице обнаружил. Результаты своей работы поисковый робот помещает в базу данных (базу индексов). Периодически поисковый робот возвращается на уже проиндексированные страницы и индексирует их вновь, обновляя базу индексов.
Для совершения поиска пользователь вносит набор ключевых слов в специальное поле интерфейса поисковой системы и запускает поиск. В этот момент начинает работать третья составляющая — программа поиска. Поиск она совершает уже не по сайтам, а по базе индексов. Результатом поиска является список сайтов и кратких аннотаций к ним (иногда совершенно невразумительных, поскольку составлены они из надерганных роботом с сайта обрывков фраз). Сайты в списке расположены в порядке убывания релевантности.
Одну из лучших поисковых машин предлагает своим пользователям поисковая система Япёех. Ее главная страница показана на рис. 2.4.
Рис. 2.4. Пример результата поиска по ключевым словам поисковой системы Яndех
Наряду с поисковыми машинами существуют каталоги и рейтинги. В отличие от индексов поисковых систем, они создаются людьми — сотрудниками компаний, которые их поддерживают. Каталог Интернет-ресурсов — это иерархически организованная структура, содержащая названия и аннотации сайтов, распределенных по тематике в соответствии с разделами (категориями) каталога. Внутри каждой категории существует несколько уровней подкатегорий, уточняющих тематику ресурсов, которые в ней расположены (например: Отдых и развлечения >Компьютерные игры>Стратегические игры). Внутри самой нижней подкатегории сайты располагаются в определенном порядке в соответствии с их рейтингом.
Наиболее распространенной в России формой рейтинга является рейтинг по посещаемости. Участники рейтинга устанавливают на страницах своих сайтов счетчики (фрагменты кода), которые регистрируют визиты на сайт и сообщают о них программе, формирующей рейтинг. Таким образом, наиболее популярные (наиболее посещаемые) сайты располагаются в рейтинге выше менее посещаемых. Это удобная форма ведения рейтинга, но каталог, построенный на этом принципе, практически всегда страдает неполнотой. Дело в том, что установка счетчика на страницах сайта — дело сугубо добровольное. И если владелец сайта по каким-то причинам не сочтет нужным это сделать, то его сайт не попадет в каталог. Поскольку каталогов и рейтингов очень много, поставить на страницах сайта счетчики их всех не представляется возможным. Поэтому владельцам сайтов приходится выбирать. Каждый выбирает по-своему. В результате во всех каталогах, работающих на этом принципе рейтингования сайтов, отсутствуют многие качественные ресурсы. Хорошим примером рейтинга, пользующегося популярностью у российских пользователей Интернета, является рейтинг Rambler's Top100. Его главная страница изображена на рис. 2.5.
Учитывая вышесказанное, многие каталоги отказываются от ведения рейтинга по посещаемости. Одной из альтернатив, довольно распространенной является расположение сайтов в каждой категории и подкатегории в соответствии с экспертными оценками качества сайта. В роли экспертов выступают сотрудники компании, поддерживающей каталог. Этот метод страдает высокой трудоемкостью, и построить с его использованием серьезный каталог весьма сложно.
Рис. 2.5. Главная страница рейтинга Rambler's Тор100.
Обращает на себя внимание методика, примененная каталогом Yandex. Сайты в категориях и подкатегориях его каталога расположены в порядке убывания индекса цитируемости. Индекс цитируемое™ рассчитывается как количество ссылок с других сайтов на данный сайт. Бесспорными преимуществами этого метода являются совмещение автоматического построения рейтинга (что исключает несправедливое расположение ресурса по отношению к другим в результате необъективности эксперта) и отсутствие необходимости устанавливать на сайте-участнике каталога какой-либо счетчик. Вопрос адекватности индекса цитируемости как критерия качества и популярности сайта остается открытым, но на данный момент практика уже показала перспективность его использования.