ݺߣ

ݺߣShare a Scribd company logo
Информационные
ресурсы
Лекция
10.04.2014Информационныересурсы
1
К размышлению
• Объем данных, хранящихся в Интернете, вплотную
приблизился к отметке в 500 экзабайтов (500 млрд Гб). Такие
данные приводит аналитическая компания IDC, проводившая
исследование по заказу EMC Corporation. По прогнозам
аналитиков, через полтора года количество данных вырастет
еще в 2 раза. Это приведет к росту киберпреступности. В
настоящее время, по оценкам экспертов, на серверах,
подключенных ко Всемирной сети, накопилось 487 экзабайтов
данных. Это эквивалентно 19 млрд полностью заполненных
оптических дисков Blu-ray или 237 млрд устройств для чтения
Amazon Kindle.
• Аналитики подчеркивают, что объем хранящейся в Интернете
информации удваивается приблизительно каждые полтора
года. По оценкам IDC, к 2012 году суммарный объем контента
Всемирной сети увеличится до 2 500 экзабайтов. При этом в
2006 году в сети хранилось всего 161 млрд Гб данных.
• Подробнее: http://www.securitylab.ru/news/379852.php
Информационныересурсы
2
Аналитики подчеркивают, что объем хранящейся в
Интернете информации удваивается приблизительно
каждые полтора года. По оценкам IDC, к 2014 году
суммарный объем контента Всемирной сети увеличится до
2 500 экзабайтов. При этом в 2006 году в сети хранилось
всего 161 млрд Гб данных.
Подробнее: http://www.securitylab.ru/news/379852.php
На март 2014 года:
• По последним данным от другой мониторинговой
компании Netcraft, датированным года, общее
число веб-сайтов возросло до отметки
644 275 754. То есть в интернете стало ещѐ почти
на 90 млн сайтов больше. А ведь прошло всего
три месяца. Только за март появилось 31,4 млн
новых веб-сайтов!
Русскоязычный интернет
Ежегодно количество сайтов в русскоязычном
Интернете увеличивается на 25-30%
Поисковые системы:
• универсальные;
• специализированные.
Способы поиска информации:
• поиск по каталогам;
• поиск по запросам.
Интернет
5
Способы поиска информации в web
Поиск информации – одна из самых востребованных на
практике задач, которую приходится решать любому
пользователю Интернета.
Существуют три основных способа поиска информации в
Интернет:
1. Указание адреса страницы.
2. Передвижение по гиперссылкам.
3. Обращение к поисковой системе (поисковому серверу).
Поисковая система
Поисковая система — веб-сайт, предоставляющий возможность
поиска информации в Интернете.
Большинство поисковых систем ищут информацию на сайтах
Всемирной паутины, но существуют также системы, способные
искать файлы на ftp-серверах, товары в интернет-магазинах, а
также информацию в группах новостей Usenet.
По принципу действия поисковые системы делятся на два типа:
поисковые каталоги и поисковые индексы.
Поисковый указатель. Пользователь формирует запрос с
помощью ключевых слов, выражающих объект его поиска,
а поисковая система выдает ему список ссылок
на Web-страницы, содержащие данные ключевые слова.
Поисковый каталог. Похож на предметный каталог
библиотеки. На начальной странице выбираем тему,
которая нас интересует, затем в рамках этой темы
выбираем категорию, потом подкатегорию и т.д. пока не
получим конкретный список Web-ресурсов
рекомендованных
для просмотра.
Специальные поисковые службы WWW помогают
найти гиперссылку на необходимый нам документ.
Поисковые каталоги (ПК)
• ПК Yahoo!
• ПК Open Directory
• Российский ПК List.ru
• ПК Виртуальная библиотека
• Каталог российских Web-серверов
Weblist
http://www.yahoo.com
Yahoo! – одна из старейших и наиболее популярных поисковых
служб. На нее работает более 200 редакторов, неустанно
улучшающих и пополняющих множество тематических разделов.
Если поиск по собственному каталогу не дает результата,
привлекаются ресурсы поискового указателя Inktomi. Более 1,5
млн. ссылок.
http://www.dmoz.org
Общественный проект по каталогизации Web-ресурсов.
На добровольной основе объединяет редакторов многих
стран мира. Имеет более 4 млн. ссылок,
но уступает по качеству Yahoo!
Open Directory
www.list.ru
Крупнейший в России поисковый каталог.
Работает в системе портала www.mail.ru
Виртуальная библиотека
В каталогах «виртуальной библиотеки» содержатся адреса
онлайновых журналов, газет и других периодических
онлайновых изданий. Этот сервер может заинтересовать
всех, кто пристально следит за последними событиями в
науке, культуре, бизнесе, экономике и политике.
www.weblist.ru
Weblist, система разработанная компанией "МАРК-ИТТ" из Ижевска, это
обширная база данных о сайтах российского Интернета. Сведения вносят
сами создатели сайтов с помощью интерактивной формы, а затем могут
самостоятельно редактировать данные о своих ресурсах, введя свой
пароль. При получении данных о серверах предусмотрены возможности:
поиска по ключевым словам в адресах и описаниях документов, а также
сортировки по тематике, месторасположению и названию сервера.
Поисковые каталоги:
• ВСЕГО.RU (http://www.vsego.ru)
• Open Directory(www.dmoz.org)
• Google(www.google.ru )
• Yandex(www.yandex.ru )
• Rambler(www.rambler.ru )
• Excite (www.excite.com );
• Брама (www.brama.com );
• Everyday (www.everyday.com.ua );
• UP.RU (www.up.ru );
• Elvisti (www.el.visti.net );
• @Rus (www.atrus.ru );
• List.ru (www.list.ru );
• Weblist (www.weblist.ru
• Созвездие (www.stars.ru );
• Улитка (www.ulitka.ru );
• Иван Сусанин (www.susanin.ru );
• MavicaNet (www.mavikanet.ru ).
Поисковые указатели (ПУ)
• Принцип работы ПУ
• Приемы поиска в ПУ
• ПУ Alta Vista, Lycos,
• Fast Search
• Российский ПУ Yandex
Принцип работы ПУ
1. Сбор информации поисковыми роботами.
ПУ с помощью специальных агентских программ
формирует информационные ресурсы.
2. Индексация ресурсов.
ПУ преобразует собранные данные в удобные для быстрого
просмотра формы (поисковые индексы).
3. Исполнения запроса клиента.
ПУ на основе ключевых слов производит поиск совпадений с
содержимым поисковых индексов и формирует результирующий
список.
Что необходимо для эффективного
поиска информации?
• Представление о структуре интернета.
• Представление о способах и методах поиска информации
в интернете.
• Умение сформулировать запрос и выбрать ответ из
результатов поиска.
Схема информационных
потоков
Сайты компаний
Личные сайты
Форумы, блоги
Информ. агентства
Сетевые СМИ
Поисковые
системы
Специализированные
базы данныхИнформационные
компании
Парадокс интернета:
• Полезной информации становится все больше, а
найти что-то необходимое – все сложнее.
Поисковые механизмы
1. Поисковые машины. Эти средства поиска в ответ на запрос
выдают список страниц, удовлетворяющих заданным
критериям.
Примеры поисковых машин:
Яndex (http://www.yandex.ru)
Rambler (http://www.rambler.ru)
Google (http://www.google.com
http://www.google.com.ru
http://www.google.ru)
Поисковые механизмы
2. Каталоги, в которых сайты упорядочены по категориям
специально разработанного дерева-рубрикатора.
Примеры каталогов:
Yahoo (http://www.yahoo.com)
Русские каталоги
http://www.au.ru
http://www.stars.ru
Поисковые механизмы
3. Тематические подборки ссылок.
Иногда они содержат рубрикатор и могут рассматриваться как
частный случай каталога, ограниченного некоторой темой.
Например, сайт alledu.ru содержит мощную систему для
поиска информации в области образования.
4. Порталы
http://www.edu.ru – федеральный образовательный портал
http://www.km.ru
http://www.5ballov.ru
Поисковые механизмы
Поисковые механизмы
5. Поисковые механизмы, действующие в пределах
Web-сайта
Многие крупные сайты содержат внутренний поисковый
механизм для документов, находящихся в пределах
сайта. Кроме того, сайт часто содержит более или
менее подробный перечень документов или разделов
сайта в виде специальной
страницы — "карты сайта".
Список поисковых сайтов
10.04.2014Интернет
26
Название поисковой системы Адрес
Апорт (русскоязычная) http://www.aport.ru/
Яndex (русскоязычная) http://www.yandex.ru/
Rambler (русскоязычная) http://www.rambler.ru/
Google (русскоязычная) http://www.google.ru
Yahoo! (англоязычная) http://www.yahoo.com/
AltaVista (англоязычная) http://www.altavista.com/
InfoSeek (англоязычная) http://www.infoseek.com/
Lucos (англоязычная) http://www.lucos.com
Excite (англоязычная) http://www.excite.com
Поиск файлов http://www.files.ru/
Поиск людей http://www.whowhere.com/
ВСЕГО ОКОЛО 600 САЙТОВ
Поисковые системы и каталоги
Российские поисковые системы
Nigma
Scholar.ru - поиск научных публикаций
Апорт
Поиск@MAIL.RU
Рамблер
Яндекс
Зарубежные поисковые системы
Ask.com Search Engine
Google
MSN Search
Scirus - система поиска научной информации
Yahoo
FindLaw (www.findlaw.com)
Whowhere
(www.whowhere.lycos.com)
MusicSearch
(www.musicsearch.com)
HumorSearch
(www.humorsearch.com)
FindBook (www.findbook.ru)
лекция информационные ресурсы
Отличие поисковой системы FileSearch.ru от обычных поисковых
систем, таких как Yandex, Rambler, Aport и т.п. в том, что эти
системы осуществляют поиск на WWW серверах и html страницах
по их содержимому, в то время как FileSearch ищет файлы на FTP-
серверах по именам самих файлов и каталогов. Если вы ищете
какую-либо программу, или еще что-то, то на WWW-серверах вы
скорее найдете их описание, а с FTP-серверов вы сможете
перекачать их к себе.
Автоматическая форма
расширенного поиска Alta Vista
Есть возможность выбрать язык для запроса, а также дату, тип
документа. Можно использовать операторы и синтаксис запросов.
Lycos
http://www.lycos.com
Поисковая система Lycos (волкопаук) специализируется в сфере
Интернет-торговли. На сайте есть обширные руководства для
покупателей в США (от книг и компакт-дисков до автомобилей и
квартир). База данных регулярно пополняется. Партнеры и
рекламодатели Lycos работают в самых разнообразных областях
бизнеса и предлагают широкий спектр товаров и услуг, а также
разнообразные ссылки на сайты по электронной коммерции.
Кроме универсальной поисковой системы этот портал обладает
мощнейшим специализированным каталогом “WhoWhere”,
содержащим персональную информацию о зарегистрированных
пользователях Интернета. Налицо гибридность системы: каталог +
указатель.
Русский Lycos использует поисковик, разработанный своим
давним партнером – норвежской компанией FAST Searsh &
Transfer. В настоящее время он используется в 14 европейских
странах, а всего с ним работает больше 4-х десятков порталов.
FAST Searsh & Transfer имеет и собственный сайт – http://www.alltheweb.com
Данная служба
поддерживает 36 различных
языков, включая такие как
арабский, китайский,
японский, тайский и др.
Fast Search имеет около
1 млрд. страниц, 10 млн.
документов формата PDF
и MS Word.
Alltheweb адаптировала
поиск к особенностям
русского языка. Была
разработана технология
«лемматизации»-
разложения сложных слов
на простые формы.
Такого не делала ни одна
поисковая машина.
FAST
SEARCH
http://www.alltheweb.com
http://www.yandex.ru
Российская система Яндекс — мощная поисковая служба,
основанная на указателе, обладающая как большой и
представительной базой данных по отечественным Web-
ресурсам, так и уникальной системой индексации. По набору
своих поисковых возможностей она не уступает самым
сложным поисковым машинам Запада.
Предоставляет уникальные инструменты, сосредоточенные в
разделе расширенного поиска.
В этой форме можно выбрать язык, дату публикации документа,
формат файла, расстояние между словами и т.д. Кроме этого
поисковая система Яндекса учитывает морфология русского языка,
т.е. особенности словообразования (напр., шёлидтиушёли т.д.)
Расширенный поиск Яндекса
Метапоисковые системы
Системы, принимающие от пользователя запрос,
размещают его сразу на нескольких поисковых системах. Затем
поступившая информация собирается, обобщается,
структурируется и передается клиенту.
• Google!
• MetaCrawler
В наши дни крупные многие поисковые системы начали
заниматься подобным поиском самостоятельно, привлекая
ресурсы коллег на взаимовыгодной основе.
Google! – одна из самых прогрессирующих метапоисковых систем в Cети.
Использует индекс цитирования, т.е. количество упоминаний адреса Web-
документа в других источниках влияет на рейтинг ресурса.
8 058 044 651
количество проиндексированных ресурсов на сегодня
http://www.google.com
Дополнительные услуги Google!
 кэширование индексированных страниц
 использование оплаченных ссылок (sponsored links)
и управляемых результатов поиска (editorial results)
Имеет российский аналог www.google.ru
Самым сильным звеном Google оказалась его
рейтинговая система RageRank.
Для реализации последнего работает программа AdWords, благодаря
которой рекламодатели покупают некоторые слова, используемые чаще
всего пользователем при поиске.
http://www.metacrawler.com
MetaCrawler
Другие услуги MetaCrawler: возможность расширенного поиска,
интересное приложение MiniCrawler для поиска информации в
Сети в обход сайта компании, программа MetaSpy, позволяющая
вести наблюдение за ключевыми словами в системе MetaCrawler.
По данным различных информационных агентств, MetaCrawler в
последнее время входит в десятку лучших метапоисковых систем
в Сети.
Метапоисковая система MetaCrawler вначале производит
поиск необходимой информации по базам данных других систем,
а затем, используя собственный алгоритм, анализирует и
сортирует полученные ссылки, ищет похожие, определяет рейтинг
и выдает результат клиенту.
MetaCrawler
Рейтинговые системы (РС)
Webside Story
Rambler
На сервере рейтинговой службы создаются тематические
списки ссылок на наиболее популярные Web-ресурсы.
Представительность этих списков велика, поскольку именно
эти ссылки предпочитают большинство клиентов Сети. Счетчик
службы отслеживает каждое посещение ресурса.
С помощью РС осуществляется поиск по рекомендациям.
http://www.hitbox.com
HitBox -- некий аналог Топ-100 Рамблера, за исключением того, что
сайты-участники публично не соревнуются между собой. Во всяком
случае, эта информация не афишируется. Поместив код счетчика на
своей странице, Web-мастер получает в руки мощный статистический
инструмент, позволяющий отслеживать посещаемость, скорость
загрузки страницы, частоту создания закладок посетителями и т.д. Эта
информация используется и для определения рейтингов качества и
популярности. Кроме того, HitBox позволяет узнать, поддерживают ли
Web-браузеры посетителей функцию cookies, какое разрешение экрана
у них установлено, инсталлированы ли у них Java-модули и т.д.
Одна из самых популярных российских ПС. Позволяет быстро выявить
круг Web-узлов, поставляющих информацию на заданную тему и
оценить их популярность по количеству посещений
за последние сутки. Наряду с поиcком по указателю, есть возможность
использовать поиск по каталогу.
http://www.rambler.ru
Поиск информации
с использованием протокола FTP
Принципиальным отличием поиска файлов от поиска
информации в WWW является то, что мы ищем ресурс по
названию файла.
Lycos FTP Search (www.lycos.ftpsearch.com).
Осуществляет поиск файлов на FTP-серверах и содержит одну из
самых крупных подобных баз данных в мире
(около 100 млн. файлов).
FileSearch.ru (www.filesearch.ru).
Крупнейшая FTP ПС в России.
Filez.com - поисковая система по более, чем 75 миллионам
файлов на FTP-серверах!
http://www.filez.com
Имеет дружественный интерфейс для работы
клиентов, нет ограничений на размер файлов, на
используемое программное обеспечение.
45
http://answers.ask.com/ – это современный адрес известного
поисковика www.teoma.com. Основное отличие, например, от Google
состоит в том, что результаты поиска разбиты на две части. В
правом верхнем углу под заголовком Refine показаны результаты
автоматической классификации найденных документов.
Интернет
46
www.exalead.fr – эта система, расположена во Франции, работает в
тестовом режиме. По оценкам специалистов это будущий конкурент
Google. Особенность этой системы заключается в том, что результаты
расположены в трех колонках. колонке.
Пример коммерческого использования
FTP-службы среди ее клиентов
Услуга уральских провайдеров:
Любой из пользователей сети
может зарегистрировать в
каталоге
несколько директорий со своего ПК
и открыть к ним доступ через FTP-сервер.
Если другие абоненты будут скачивать из этих директорий
файлы, то владельцу компьютера интернет-компания
начислит 5 копеек за каждый мегабайт информации, а со
счетов «качальщиков» спишет за тот же мегабайт 20 копеек.
Это называется ПИРИНГОМ между владельцами ПК.
В данной сети есть несколько связанных сегментов (до 200 абонентов
городского микрорайона, соседние дома). Внутри данного сегмента
трафик бесплатный, а между сегментами - платный.
Простой прием поиска Web-страниц
• Поиск коммерческих Web-сайтов: www.intel.com
• Поиск коммерческих Web-сайтов по регионам: www.intel.ru
10.04.2014Интернет
48
Простой прием поиска Web-страниц
10.04.2014Интернет
49
Как работают поисковые машины?
• во-первых, “нау-хау” компании
• создание и пополнение огромной базы данных URL страниц по
индексируемым документам
• автоматический сбор информации с серверов эвристическими
программами-роботами
• организация предметно-ориентированных иерархических каталогов
50
Правила выполнения запросов в
поисковых системах
• Простой запрос
• Логические операторы (И, НЕ, ИЛИ)
• Прочие операторы (*, !, поиска по дате, адресам и
т.п.)
• Поиск в найденном
• Сортировка по релевантности
10.04.2014Интернет
51
Интернет
52
Основные команды языка запросов сервера Google
Google — искажённое написание английского слова «googol»,
придуманного Милтоном Сироттой, племянником американского
математика Эдварда Кайзера, для обозначения числа, состоящего из
единицы и ста нулей. Сейчас же имя Google носит лидер поисковых машин
интернета, разработанный Google Inc.
Google использует интеллектуальную технику анализа текстов, которая
позволяет искать важные и вместе с тем релевантные страницы по вашему
запросу. Для этого Google анализирует не только саму страницу, которая
соответствует запросу, но и страницы, которые на нее ссылаются, чтобы
определить ценность этой страницы для целей вашего запроса. Кроме того,
Google предпочитает страницы, на которых ключевые слова, введенные
вами, расположены недалеко друг от друга.
Интерфейс Google содержит довольно сложный язык запросов,
позволяющий ограничить область поиска отдельными доменами, языками,
типами файлов и т. д. Использование некоторых операторов этого языка
позволяет сделать процесс поиска необходимой информации более гибким
и точным.
Интернет
53
По умолчанию при написании слов запроса через пробел Google
ищет документы, содержащие все слова запроса. Это и соответствует
оператору AND. Т.е. пробел равносилен оператору AND.
Например:
Кошки собаки попугаи зебры
Кошки AND собачки AND попугаи AND зебры
(оба запроса одинаковы)
Логическое «И» (AND):
Интернет
54
Поисковая машина хранит версию текста, которая проиндексирована
поисковым пауком, в специальном хранилище в формате, называемом
кэшем. Кэшированную версию страницы можно извлечь, если оригинальная
страница недоступна (например, не работает сервер, на котором она
хранится). На странице из кэша ключевые слова запроса подсвечены, причем
каждое слово для удобства пользователя подсвечено своим цветом. Можно
создать запрос, который сразу будет выдавать кэшированную версию
страницы с определенным адресом: cache:адрес_страницы, где вместо
"адрес_страницы" - адрес сохраненной в кэше страницы. Если требуется
найти в кэшированной странице какую либо информацию, надо после
адреса страницы через пробел написать запрос этой информации.
Например:
cache:www.bsd.com
cache:www.knights.ru турниры
!!! Надо помнить, что пробела между ":" и адресом страницы быть не
должно!
Оператор cache:
Оператор filetype:
• оператор filetype позволяет искать информацию в
определенном типе файлов (html, pdf, doc, rtf...).
• Например:
• Спецификация html filetype:pdf
• Сочинения filetype:rtf
10.04.2014Интернет
55
Оператор link:
Этот оператор позволяет увидеть все страницы, которые
ссылаются на страницу, по которой сделан запрос. Так, запрос
link:www.google.com выдаст страницы, в которых есть ссылки на
google.com.
• Например:
• link:www.ozone.com
• Друзья link:www.happylife.ru
Интернет
56
Оператор allintitle:
Если запрос начать с оператора allintitle, что переводится как "все в
заголовке", то Google выдаст тексты, в которых все слова запроса
содержатся в заголовках (внутри тега TITLE в HTML).
• Например:
• allintitle:Бесплатный софт
• allintitle:Скачать музыкальные альбомы
•
• Оператор allinurl:
• Если запрос начинается с оператора allinurl, то поиск ограничен теми
документами, в которых все слова запроса содержатся только в адресе
страницы, то есть в url.
• Например:
• allinurl:rus games
• allinurl:books fantasy
•
Интернет
57
Оператор allinurl:
• Если запрос начинается с оператора allinurl, то поиск ограничен
теми документами, в которых все слова запроса содержатся
только в адресе страницы, то есть в url.
• Например:
• allinurl:rus games
• allinurl:books fantasy
•
Интернет
58
Оператор intitle:
Показывает страницы, в кoтopыx только то слово, которое стоит
непосредственно после оператора intitle, содержится в заголовке, а
все остальные слова запроса могут быть в любом месте текста. Если
поставить оператор intitle перед каждым словом запроса, это будет
эквивалентно использованию оператора allintitle.
• Например:
• Программы intitle:Скачать
• intitle:Бесплатно intitle:скачать софт
10.04.2014Интернет
60
СПОСОБЫ
УЛУЧШЕНИЯ
РЕЗУЛЬТАТОВ
ПОИСКА
• Формулируйте Ваш запрос по возможности
точнее
• Правильно пишите ключевые слова
• Используйте синонимы
• Используйте опцию расширенного поиска
• Проводите поиск во всех видах сервиса
• Постарайтесь локализовать поиск
61

More Related Content

лекция информационные ресурсы

  • 2. К размышлению • Объем данных, хранящихся в Интернете, вплотную приблизился к отметке в 500 экзабайтов (500 млрд Гб). Такие данные приводит аналитическая компания IDC, проводившая исследование по заказу EMC Corporation. По прогнозам аналитиков, через полтора года количество данных вырастет еще в 2 раза. Это приведет к росту киберпреступности. В настоящее время, по оценкам экспертов, на серверах, подключенных ко Всемирной сети, накопилось 487 экзабайтов данных. Это эквивалентно 19 млрд полностью заполненных оптических дисков Blu-ray или 237 млрд устройств для чтения Amazon Kindle. • Аналитики подчеркивают, что объем хранящейся в Интернете информации удваивается приблизительно каждые полтора года. По оценкам IDC, к 2012 году суммарный объем контента Всемирной сети увеличится до 2 500 экзабайтов. При этом в 2006 году в сети хранилось всего 161 млрд Гб данных. • Подробнее: http://www.securitylab.ru/news/379852.php Информационныересурсы 2
  • 3. Аналитики подчеркивают, что объем хранящейся в Интернете информации удваивается приблизительно каждые полтора года. По оценкам IDC, к 2014 году суммарный объем контента Всемирной сети увеличится до 2 500 экзабайтов. При этом в 2006 году в сети хранилось всего 161 млрд Гб данных. Подробнее: http://www.securitylab.ru/news/379852.php
  • 4. На март 2014 года: • По последним данным от другой мониторинговой компании Netcraft, датированным года, общее число веб-сайтов возросло до отметки 644 275 754. То есть в интернете стало ещѐ почти на 90 млн сайтов больше. А ведь прошло всего три месяца. Только за март появилось 31,4 млн новых веб-сайтов! Русскоязычный интернет Ежегодно количество сайтов в русскоязычном Интернете увеличивается на 25-30%
  • 5. Поисковые системы: • универсальные; • специализированные. Способы поиска информации: • поиск по каталогам; • поиск по запросам. Интернет 5
  • 6. Способы поиска информации в web Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа поиска информации в Интернет: 1. Указание адреса страницы. 2. Передвижение по гиперссылкам. 3. Обращение к поисковой системе (поисковому серверу).
  • 7. Поисковая система Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. По принципу действия поисковые системы делятся на два типа: поисковые каталоги и поисковые индексы.
  • 8. Поисковый указатель. Пользователь формирует запрос с помощью ключевых слов, выражающих объект его поиска, а поисковая система выдает ему список ссылок на Web-страницы, содержащие данные ключевые слова. Поисковый каталог. Похож на предметный каталог библиотеки. На начальной странице выбираем тему, которая нас интересует, затем в рамках этой темы выбираем категорию, потом подкатегорию и т.д. пока не получим конкретный список Web-ресурсов рекомендованных для просмотра. Специальные поисковые службы WWW помогают найти гиперссылку на необходимый нам документ.
  • 9. Поисковые каталоги (ПК) • ПК Yahoo! • ПК Open Directory • Российский ПК List.ru • ПК Виртуальная библиотека • Каталог российских Web-серверов Weblist
  • 10. http://www.yahoo.com Yahoo! – одна из старейших и наиболее популярных поисковых служб. На нее работает более 200 редакторов, неустанно улучшающих и пополняющих множество тематических разделов. Если поиск по собственному каталогу не дает результата, привлекаются ресурсы поискового указателя Inktomi. Более 1,5 млн. ссылок.
  • 11. http://www.dmoz.org Общественный проект по каталогизации Web-ресурсов. На добровольной основе объединяет редакторов многих стран мира. Имеет более 4 млн. ссылок, но уступает по качеству Yahoo! Open Directory
  • 12. www.list.ru Крупнейший в России поисковый каталог. Работает в системе портала www.mail.ru
  • 13. Виртуальная библиотека В каталогах «виртуальной библиотеки» содержатся адреса онлайновых журналов, газет и других периодических онлайновых изданий. Этот сервер может заинтересовать всех, кто пристально следит за последними событиями в науке, культуре, бизнесе, экономике и политике.
  • 14. www.weblist.ru Weblist, система разработанная компанией "МАРК-ИТТ" из Ижевска, это обширная база данных о сайтах российского Интернета. Сведения вносят сами создатели сайтов с помощью интерактивной формы, а затем могут самостоятельно редактировать данные о своих ресурсах, введя свой пароль. При получении данных о серверах предусмотрены возможности: поиска по ключевым словам в адресах и описаниях документов, а также сортировки по тематике, месторасположению и названию сервера.
  • 15. Поисковые каталоги: • ВСЕГО.RU (http://www.vsego.ru) • Open Directory(www.dmoz.org) • Google(www.google.ru ) • Yandex(www.yandex.ru ) • Rambler(www.rambler.ru ) • Excite (www.excite.com ); • Брама (www.brama.com ); • Everyday (www.everyday.com.ua ); • UP.RU (www.up.ru ); • Elvisti (www.el.visti.net ); • @Rus (www.atrus.ru ); • List.ru (www.list.ru ); • Weblist (www.weblist.ru • Созвездие (www.stars.ru ); • Улитка (www.ulitka.ru ); • Иван Сусанин (www.susanin.ru ); • MavicaNet (www.mavikanet.ru ).
  • 16. Поисковые указатели (ПУ) • Принцип работы ПУ • Приемы поиска в ПУ • ПУ Alta Vista, Lycos, • Fast Search • Российский ПУ Yandex
  • 17. Принцип работы ПУ 1. Сбор информации поисковыми роботами. ПУ с помощью специальных агентских программ формирует информационные ресурсы. 2. Индексация ресурсов. ПУ преобразует собранные данные в удобные для быстрого просмотра формы (поисковые индексы). 3. Исполнения запроса клиента. ПУ на основе ключевых слов производит поиск совпадений с содержимым поисковых индексов и формирует результирующий список.
  • 18. Что необходимо для эффективного поиска информации? • Представление о структуре интернета. • Представление о способах и методах поиска информации в интернете. • Умение сформулировать запрос и выбрать ответ из результатов поиска.
  • 19. Схема информационных потоков Сайты компаний Личные сайты Форумы, блоги Информ. агентства Сетевые СМИ Поисковые системы Специализированные базы данныхИнформационные компании
  • 20. Парадокс интернета: • Полезной информации становится все больше, а найти что-то необходимое – все сложнее.
  • 21. Поисковые механизмы 1. Поисковые машины. Эти средства поиска в ответ на запрос выдают список страниц, удовлетворяющих заданным критериям. Примеры поисковых машин: Яndex (http://www.yandex.ru) Rambler (http://www.rambler.ru) Google (http://www.google.com http://www.google.com.ru http://www.google.ru)
  • 22. Поисковые механизмы 2. Каталоги, в которых сайты упорядочены по категориям специально разработанного дерева-рубрикатора. Примеры каталогов: Yahoo (http://www.yahoo.com) Русские каталоги http://www.au.ru http://www.stars.ru
  • 23. Поисковые механизмы 3. Тематические подборки ссылок. Иногда они содержат рубрикатор и могут рассматриваться как частный случай каталога, ограниченного некоторой темой. Например, сайт alledu.ru содержит мощную систему для поиска информации в области образования.
  • 24. 4. Порталы http://www.edu.ru – федеральный образовательный портал http://www.km.ru http://www.5ballov.ru Поисковые механизмы
  • 25. Поисковые механизмы 5. Поисковые механизмы, действующие в пределах Web-сайта Многие крупные сайты содержат внутренний поисковый механизм для документов, находящихся в пределах сайта. Кроме того, сайт часто содержит более или менее подробный перечень документов или разделов сайта в виде специальной страницы — "карты сайта".
  • 26. Список поисковых сайтов 10.04.2014Интернет 26 Название поисковой системы Адрес Апорт (русскоязычная) http://www.aport.ru/ Яndex (русскоязычная) http://www.yandex.ru/ Rambler (русскоязычная) http://www.rambler.ru/ Google (русскоязычная) http://www.google.ru Yahoo! (англоязычная) http://www.yahoo.com/ AltaVista (англоязычная) http://www.altavista.com/ InfoSeek (англоязычная) http://www.infoseek.com/ Lucos (англоязычная) http://www.lucos.com Excite (англоязычная) http://www.excite.com Поиск файлов http://www.files.ru/ Поиск людей http://www.whowhere.com/ ВСЕГО ОКОЛО 600 САЙТОВ
  • 27. Поисковые системы и каталоги Российские поисковые системы Nigma Scholar.ru - поиск научных публикаций Апорт Поиск@MAIL.RU Рамблер Яндекс Зарубежные поисковые системы Ask.com Search Engine Google MSN Search Scirus - система поиска научной информации Yahoo FindLaw (www.findlaw.com) Whowhere (www.whowhere.lycos.com) MusicSearch (www.musicsearch.com) HumorSearch (www.humorsearch.com) FindBook (www.findbook.ru)
  • 29. Отличие поисковой системы FileSearch.ru от обычных поисковых систем, таких как Yandex, Rambler, Aport и т.п. в том, что эти системы осуществляют поиск на WWW серверах и html страницах по их содержимому, в то время как FileSearch ищет файлы на FTP- серверах по именам самих файлов и каталогов. Если вы ищете какую-либо программу, или еще что-то, то на WWW-серверах вы скорее найдете их описание, а с FTP-серверов вы сможете перекачать их к себе.
  • 30. Автоматическая форма расширенного поиска Alta Vista Есть возможность выбрать язык для запроса, а также дату, тип документа. Можно использовать операторы и синтаксис запросов.
  • 32. Поисковая система Lycos (волкопаук) специализируется в сфере Интернет-торговли. На сайте есть обширные руководства для покупателей в США (от книг и компакт-дисков до автомобилей и квартир). База данных регулярно пополняется. Партнеры и рекламодатели Lycos работают в самых разнообразных областях бизнеса и предлагают широкий спектр товаров и услуг, а также разнообразные ссылки на сайты по электронной коммерции. Кроме универсальной поисковой системы этот портал обладает мощнейшим специализированным каталогом “WhoWhere”, содержащим персональную информацию о зарегистрированных пользователях Интернета. Налицо гибридность системы: каталог + указатель. Русский Lycos использует поисковик, разработанный своим давним партнером – норвежской компанией FAST Searsh & Transfer. В настоящее время он используется в 14 европейских странах, а всего с ним работает больше 4-х десятков порталов. FAST Searsh & Transfer имеет и собственный сайт – http://www.alltheweb.com
  • 33. Данная служба поддерживает 36 различных языков, включая такие как арабский, китайский, японский, тайский и др. Fast Search имеет около 1 млрд. страниц, 10 млн. документов формата PDF и MS Word. Alltheweb адаптировала поиск к особенностям русского языка. Была разработана технология «лемматизации»- разложения сложных слов на простые формы. Такого не делала ни одна поисковая машина. FAST SEARCH http://www.alltheweb.com
  • 34. http://www.yandex.ru Российская система Яндекс — мощная поисковая служба, основанная на указателе, обладающая как большой и представительной базой данных по отечественным Web- ресурсам, так и уникальной системой индексации. По набору своих поисковых возможностей она не уступает самым сложным поисковым машинам Запада. Предоставляет уникальные инструменты, сосредоточенные в разделе расширенного поиска.
  • 35. В этой форме можно выбрать язык, дату публикации документа, формат файла, расстояние между словами и т.д. Кроме этого поисковая система Яндекса учитывает морфология русского языка, т.е. особенности словообразования (напр., шёлидтиушёли т.д.) Расширенный поиск Яндекса
  • 36. Метапоисковые системы Системы, принимающие от пользователя запрос, размещают его сразу на нескольких поисковых системах. Затем поступившая информация собирается, обобщается, структурируется и передается клиенту. • Google! • MetaCrawler В наши дни крупные многие поисковые системы начали заниматься подобным поиском самостоятельно, привлекая ресурсы коллег на взаимовыгодной основе.
  • 37. Google! – одна из самых прогрессирующих метапоисковых систем в Cети. Использует индекс цитирования, т.е. количество упоминаний адреса Web- документа в других источниках влияет на рейтинг ресурса. 8 058 044 651 количество проиндексированных ресурсов на сегодня http://www.google.com Дополнительные услуги Google!  кэширование индексированных страниц  использование оплаченных ссылок (sponsored links) и управляемых результатов поиска (editorial results) Имеет российский аналог www.google.ru Самым сильным звеном Google оказалась его рейтинговая система RageRank. Для реализации последнего работает программа AdWords, благодаря которой рекламодатели покупают некоторые слова, используемые чаще всего пользователем при поиске.
  • 39. Другие услуги MetaCrawler: возможность расширенного поиска, интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании, программа MetaSpy, позволяющая вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети. Метапоисковая система MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. MetaCrawler
  • 40. Рейтинговые системы (РС) Webside Story Rambler На сервере рейтинговой службы создаются тематические списки ссылок на наиболее популярные Web-ресурсы. Представительность этих списков велика, поскольку именно эти ссылки предпочитают большинство клиентов Сети. Счетчик службы отслеживает каждое посещение ресурса. С помощью РС осуществляется поиск по рекомендациям.
  • 41. http://www.hitbox.com HitBox -- некий аналог Топ-100 Рамблера, за исключением того, что сайты-участники публично не соревнуются между собой. Во всяком случае, эта информация не афишируется. Поместив код счетчика на своей странице, Web-мастер получает в руки мощный статистический инструмент, позволяющий отслеживать посещаемость, скорость загрузки страницы, частоту создания закладок посетителями и т.д. Эта информация используется и для определения рейтингов качества и популярности. Кроме того, HitBox позволяет узнать, поддерживают ли Web-браузеры посетителей функцию cookies, какое разрешение экрана у них установлено, инсталлированы ли у них Java-модули и т.д.
  • 42. Одна из самых популярных российских ПС. Позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему и оценить их популярность по количеству посещений за последние сутки. Наряду с поиcком по указателю, есть возможность использовать поиск по каталогу. http://www.rambler.ru
  • 43. Поиск информации с использованием протокола FTP Принципиальным отличием поиска файлов от поиска информации в WWW является то, что мы ищем ресурс по названию файла. Lycos FTP Search (www.lycos.ftpsearch.com). Осуществляет поиск файлов на FTP-серверах и содержит одну из самых крупных подобных баз данных в мире (около 100 млн. файлов). FileSearch.ru (www.filesearch.ru). Крупнейшая FTP ПС в России.
  • 44. Filez.com - поисковая система по более, чем 75 миллионам файлов на FTP-серверах! http://www.filez.com Имеет дружественный интерфейс для работы клиентов, нет ограничений на размер файлов, на используемое программное обеспечение.
  • 45. 45 http://answers.ask.com/ – это современный адрес известного поисковика www.teoma.com. Основное отличие, например, от Google состоит в том, что результаты поиска разбиты на две части. В правом верхнем углу под заголовком Refine показаны результаты автоматической классификации найденных документов.
  • 46. Интернет 46 www.exalead.fr – эта система, расположена во Франции, работает в тестовом режиме. По оценкам специалистов это будущий конкурент Google. Особенность этой системы заключается в том, что результаты расположены в трех колонках. колонке.
  • 47. Пример коммерческого использования FTP-службы среди ее клиентов Услуга уральских провайдеров: Любой из пользователей сети может зарегистрировать в каталоге несколько директорий со своего ПК и открыть к ним доступ через FTP-сервер. Если другие абоненты будут скачивать из этих директорий файлы, то владельцу компьютера интернет-компания начислит 5 копеек за каждый мегабайт информации, а со счетов «качальщиков» спишет за тот же мегабайт 20 копеек. Это называется ПИРИНГОМ между владельцами ПК. В данной сети есть несколько связанных сегментов (до 200 абонентов городского микрорайона, соседние дома). Внутри данного сегмента трафик бесплатный, а между сегментами - платный.
  • 48. Простой прием поиска Web-страниц • Поиск коммерческих Web-сайтов: www.intel.com • Поиск коммерческих Web-сайтов по регионам: www.intel.ru 10.04.2014Интернет 48
  • 49. Простой прием поиска Web-страниц 10.04.2014Интернет 49
  • 50. Как работают поисковые машины? • во-первых, “нау-хау” компании • создание и пополнение огромной базы данных URL страниц по индексируемым документам • автоматический сбор информации с серверов эвристическими программами-роботами • организация предметно-ориентированных иерархических каталогов 50
  • 51. Правила выполнения запросов в поисковых системах • Простой запрос • Логические операторы (И, НЕ, ИЛИ) • Прочие операторы (*, !, поиска по дате, адресам и т.п.) • Поиск в найденном • Сортировка по релевантности 10.04.2014Интернет 51
  • 52. Интернет 52 Основные команды языка запросов сервера Google Google — искажённое написание английского слова «googol», придуманного Милтоном Сироттой, племянником американского математика Эдварда Кайзера, для обозначения числа, состоящего из единицы и ста нулей. Сейчас же имя Google носит лидер поисковых машин интернета, разработанный Google Inc. Google использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по вашему запросу. Для этого Google анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего запроса. Кроме того, Google предпочитает страницы, на которых ключевые слова, введенные вами, расположены недалеко друг от друга. Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Использование некоторых операторов этого языка позволяет сделать процесс поиска необходимой информации более гибким и точным.
  • 53. Интернет 53 По умолчанию при написании слов запроса через пробел Google ищет документы, содержащие все слова запроса. Это и соответствует оператору AND. Т.е. пробел равносилен оператору AND. Например: Кошки собаки попугаи зебры Кошки AND собачки AND попугаи AND зебры (оба запроса одинаковы) Логическое «И» (AND):
  • 54. Интернет 54 Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом. Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом: cache:адрес_страницы, где вместо "адрес_страницы" - адрес сохраненной в кэше страницы. Если требуется найти в кэшированной странице какую либо информацию, надо после адреса страницы через пробел написать запрос этой информации. Например: cache:www.bsd.com cache:www.knights.ru турниры !!! Надо помнить, что пробела между ":" и адресом страницы быть не должно! Оператор cache:
  • 55. Оператор filetype: • оператор filetype позволяет искать информацию в определенном типе файлов (html, pdf, doc, rtf...). • Например: • Спецификация html filetype:pdf • Сочинения filetype:rtf 10.04.2014Интернет 55
  • 56. Оператор link: Этот оператор позволяет увидеть все страницы, которые ссылаются на страницу, по которой сделан запрос. Так, запрос link:www.google.com выдаст страницы, в которых есть ссылки на google.com. • Например: • link:www.ozone.com • Друзья link:www.happylife.ru Интернет 56
  • 57. Оператор allintitle: Если запрос начать с оператора allintitle, что переводится как "все в заголовке", то Google выдаст тексты, в которых все слова запроса содержатся в заголовках (внутри тега TITLE в HTML). • Например: • allintitle:Бесплатный софт • allintitle:Скачать музыкальные альбомы • • Оператор allinurl: • Если запрос начинается с оператора allinurl, то поиск ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы, то есть в url. • Например: • allinurl:rus games • allinurl:books fantasy • Интернет 57
  • 58. Оператор allinurl: • Если запрос начинается с оператора allinurl, то поиск ограничен теми документами, в которых все слова запроса содержатся только в адресе страницы, то есть в url. • Например: • allinurl:rus games • allinurl:books fantasy • Интернет 58
  • 59. Оператор intitle: Показывает страницы, в кoтopыx только то слово, которое стоит непосредственно после оператора intitle, содержится в заголовке, а все остальные слова запроса могут быть в любом месте текста. Если поставить оператор intitle перед каждым словом запроса, это будет эквивалентно использованию оператора allintitle. • Например: • Программы intitle:Скачать • intitle:Бесплатно intitle:скачать софт
  • 61. СПОСОБЫ УЛУЧШЕНИЯ РЕЗУЛЬТАТОВ ПОИСКА • Формулируйте Ваш запрос по возможности точнее • Правильно пишите ключевые слова • Используйте синонимы • Используйте опцию расширенного поиска • Проводите поиск во всех видах сервиса • Постарайтесь локализовать поиск 61