ݺߣ

ݺߣShare a Scribd company logo
Презентацию  выполнил ученик  10 класса  Беляев Дима.
Узнать основы работы поисковых систем Узнать некоторые факты из истории поисковиков Научиться приемам эффективного поиска Сравнить некоторые поисковые системы
Как это все работает? Откуда взялись поисковики? Какие поисковые системы самые известные? Как эффективно ими пользоваться ?
В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.  Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.  Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.  Первой полноценной поисковой системой стал WebCrawler, вышедший в свет в 1994 году.
В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.  В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!  В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.  В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
Основные характеристики поисковой системы
Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.  Основные характеристики поисковых систем:  Полнота  Точность  Актуальность  Скорость поиска  Наглядность  Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.  В состав поисковой системы входят компоненты:  Модуль индексирования  База данных  Поисковый сервер Итак, что мы узнали
Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937.
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления).  Каждая скачанная страница сохраняется в следующем формате:  URL страницы  дата, когда страница была скачана  http-заголовок ответа сервера  тело страницы (html-код)
Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д. Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе
База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
  Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска. Поисковый сервер работает следующим образом:  Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).  Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.  В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).  Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.  Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.  Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсо в
Для того, чтобы найти нужную информацию на необозримых просторах сети необходимо придерживаться следующих правил: Для того, чтобы найти что - либо, необходимо точно знать, что Вы ищете,  “…найди то, не знаю что” уже не годится.  Нужно логично и кратко сформулировать поисковое слово или несколько слов.  При формулировке поискового слова пользуйтесь только логикой, эмоции машины не понимают. Даже, если Вы скажете волшебное слово “пожалуйста” и при этом неверно зададите поисковое слово, то нужную информацию не найдете.  Если Вы ищете информацию в Российском секторе Интернета, то удобней пользоваться русскоязычными поисковыми системами: Рамблер; Яндекс; InternetHelp. Если Вам необходимы англоязычные ресурсы сети, тогда к вашим услугам: Alta Vista; Lycos; InfoSeek Практическую информацию о приемах эффективного поиска можно найти  здесь .

More Related Content

What's hot (18)

Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Julia Glavcheva
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет
Savua
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Olena Bashun
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Library Franko
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернете
solodmar
поиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачётпоиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачёт
vfhbzgjnfgrbyf123456
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
finnopolis
лекция информационные ресурсы
лекция информационные ресурсылекция информационные ресурсы
лекция информационные ресурсы
Tatjana Reichert
[2011] seo коротко о главном
[2011] seo коротко о главном[2011] seo коротко о главном
[2011] seo коротко о главном
IRCIT
работа в интернет
работа в интернетработа в интернет
работа в интернет
NatalyaSH
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
Alexander Petrov
методы поиска инф. в интернет
методы поиска инф. в интернетметоды поиска инф. в интернет
методы поиска инф. в интернет
Olena Bashun
презентация интернет
презентация интернетпрезентация интернет
презентация интернет
Superkachek Superkachek
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковики
AlexeyKutovenko
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психолога
Kyrylo Zakharov
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
SEO Conference 2014
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Дмитрий Севальнев
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернете
obstinate
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Дистанционный курс «Куратор содержания - 4» (3 неделя обучения)
Julia Glavcheva
информационный поиск в интернет
информационный поиск в интернет информационный поиск в интернет
информационный поиск в интернет
Savua
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Olena Bashun
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Library Franko
поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернете
solodmar
поиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачётпоиск информации с использованием компьютера на зачёт
поиск информации с использованием компьютера на зачёт
vfhbzgjnfgrbyf123456
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
finnopolis
лекция информационные ресурсы
лекция информационные ресурсылекция информационные ресурсы
лекция информационные ресурсы
Tatjana Reichert
[2011] seo коротко о главном
[2011] seo коротко о главном[2011] seo коротко о главном
[2011] seo коротко о главном
IRCIT
работа в интернет
работа в интернетработа в интернет
работа в интернет
NatalyaSH
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
Alexander Petrov
методы поиска инф. в интернет
методы поиска инф. в интернетметоды поиска инф. в интернет
методы поиска инф. в интернет
Olena Bashun
Вертикальные поисковики
Вертикальные поисковикиВертикальные поисковики
Вертикальные поисковики
AlexeyKutovenko
Современное программное обеспечение в работе психолога
Современное программное обеспечение в работе психологаСовременное программное обеспечение в работе психолога
Современное программное обеспечение в работе психолога
Kyrylo Zakharov
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
Дмитрий Севальнев новое Seo. изменения в ранжировании яндекса.
SEO Conference 2014
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Дмитрий Севальнев
Разновидности поисковых систем в Интернете
Разновидности поисковых систем в ИнтернетеРазновидности поисковых систем в Интернете
Разновидности поисковых систем в Интернете
obstinate

Similar to поисковые системы презентация ученика (20)

Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimi
rinto2
информатика
информатикаинформатика
информатика
PR15049455
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
Дарья
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Library Franko
История поисковых машин
История поисковых машинИстория поисковых машин
История поисковых машин
Darya Karelina
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системы
Netpeak
вводный доклад, анатомия поисковых машин
вводный доклад, анатомия поисковых машинвводный доклад, анатомия поисковых машин
вводный доклад, анатомия поисковых машин
Alex Lychack
Поиск информации
Поиск информацииПоиск информации
Поиск информации
НБ МДУ
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)
Стас Поломарь
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.
You DZ
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантика
Ivan Pronko
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
dusha13
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
-Интеллект
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1
seo-intellect
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пф
Sergey Yurkov
Prezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimiPrezent puti interneta_neispovedimi
Prezent puti interneta_neispovedimi
rinto2
информатика
информатикаинформатика
информатика
PR15049455
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
Дарья
модуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернетемодуль 2 тема 4 оценка кач ва информ. в интернете
модуль 2 тема 4 оценка кач ва информ. в интернете
Library Franko
История поисковых машин
История поисковых машинИстория поисковых машин
История поисковых машин
Darya Karelina
Как работают поисковые системы
Как работают поисковые системыКак работают поисковые системы
Как работают поисковые системы
Netpeak
вводный доклад, анатомия поисковых машин
вводный доклад, анатомия поисковых машинвводный доклад, анатомия поисковых машин
вводный доклад, анатомия поисковых машин
Alex Lychack
Поиск информации
Поиск информацииПоиск информации
Поиск информации
НБ МДУ
Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)Работа с контентными проектами (Optimization-16)
Работа с контентными проектами (Optimization-16)
Стас Поломарь
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.
You DZ
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантика
Ivan Pronko
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
dusha13
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
-Интеллект
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1
seo-intellect
Seo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пфSeo upgrade - аналитика накрутки пф
Seo upgrade - аналитика накрутки пф
Sergey Yurkov

поисковые системы презентация ученика

  • 1. Презентацию выполнил ученик 10 класса Беляев Дима.
  • 2. Узнать основы работы поисковых систем Узнать некоторые факты из истории поисковиков Научиться приемам эффективного поиска Сравнить некоторые поисковые системы
  • 3. Как это все работает? Откуда взялись поисковики? Какие поисковые системы самые известные? Как эффективно ими пользоваться ?
  • 4. В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время. Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами. Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов. Первой полноценной поисковой системой стал WebCrawler, вышедший в свет в 1994 году.
  • 5. В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет. В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире! В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете. В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
  • 6.
  • 8. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. Основные характеристики поисковых систем: Полнота Точность Актуальность Скорость поиска Наглядность Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году. В состав поисковой системы входят компоненты: Модуль индексирования База данных Поисковый сервер Итак, что мы узнали
  • 9. Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
  • 10. Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
  • 11. Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
  • 12. Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
  • 13. Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937.
  • 14. Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате: URL страницы дата, когда страница была скачана http-заголовок ответа сервера тело страницы (html-код)
  • 15. Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д. Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.
  • 16. Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе
  • 17. База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.
  • 18. Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска. Поисковый сервер работает следующим образом: Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска). Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы. В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»). Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются. Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов. Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсо в
  • 19.
  • 20.
  • 21.
  • 22. Для того, чтобы найти нужную информацию на необозримых просторах сети необходимо придерживаться следующих правил: Для того, чтобы найти что - либо, необходимо точно знать, что Вы ищете, “…найди то, не знаю что” уже не годится. Нужно логично и кратко сформулировать поисковое слово или несколько слов. При формулировке поискового слова пользуйтесь только логикой, эмоции машины не понимают. Даже, если Вы скажете волшебное слово “пожалуйста” и при этом неверно зададите поисковое слово, то нужную информацию не найдете. Если Вы ищете информацию в Российском секторе Интернета, то удобней пользоваться русскоязычными поисковыми системами: Рамблер; Яндекс; InternetHelp. Если Вам необходимы англоязычные ресурсы сети, тогда к вашим услугам: Alta Vista; Lycos; InfoSeek Практическую информацию о приемах эффективного поиска можно найти здесь .