2. Поисковые оптимизаторы регулярно пытаются разобраться в алгоритмах
поисковых машин, чтобы было легче объяснить, что на самом деле представляет
процесс от индексации до нахождения нужного результата. Хорошая поисковая
машина, работающая со всей своей оптимальной производительностью, должна
обеспечивать эффективное местонахождение веб-страниц, полный охват сети,
новейшую информацию, непредвзятый равноправный доступ ко всей
информации, удобный интерфейс для пользователей, кроме того, выдачу наиболее
подходящих результатов на момент выполнения запроса.
Обеспечение содержательного доступа к большим объемам информации — это
трудная задача. Наиболее успешные методы и подходы к информационному
поиску, распределение документов по категориям очень сильно полагаются на
статистические технологии.
5. ПОИСКОВЫЕ МАШИНЫ НАХОДЯТ ВЕБ-
СТРАНИЦЫ ТРЕМЯ СПОСОБАМИ
I. при помощи использования стартового сбора URL-страниц (по-другому веб-
страниц) и извлечения из них ссылок, чтобы следовать по ним
(например, выбирая их из каталогов);
II. из списка URL, полученного при прошлом исследовании сети (используя
первые результаты проведенных поисков);
III. URL, добавленных искусственно веб-мастерами непосредственно в
поисковую машину (при помощи «Добавить URL»).
6. Существует много различных типов краулеров в сети. Есть те, которые
применяются для личного использования непосредственно с рабочего стола
вашего компьютера, и такие, которые собирают адреса электронной почты, или
разного рода коммерческие краулеры, которые выполняют исследования,
измеряют сеть и выявляют работу шпионских программ.
Описанные краулеры, спайдеры и роботы — это автоматизированные программы,
которыми обычно управляют поисковые машины, ползающие по ссылкам сети и
собирающие первичные текстовые данные и другую информацию для
индексации.
Сегодняшние краулеры, которые появились в течение последних нескольких лет в
результате роста сети, были полностью изменены со времен ранних роботов.
Однако, хотя они все еще используют ту же самую базовую технологию, теперь
они запрограммированы на более индивидуальные собственные разноуровневые
системы.
Хотя ползание по сети — очень быстрый процесс, фактически, краулер делает те
же самые действия, что и рядовой серфер-пользователь.