Читайте также:
|
|
Для поиска информации в Internet разрабатывались различные системы, но наиболее удачные программные продукты появились в последние несколько лет. Эти системы позволяют искать информацию в Web-страницах, в группах новостей и хранилищах файлов.
Стратегия современных поисковых серверов базируется на трех основных подходах:
· создании каталогов;
· создании индексов;
· гибридном методе.
Поисковые инструменты первого типа чаще всего называют предметными, или тематическими каталогами. Компания, владеющая таким каталогом, непрерывно ведет огромную работу, исследуя, описывая, каталогизируя и раскладывая по полочкам содержимое WWW-серверов и других сетевых ресурсов, разбросанных по всему миру. Результатом является постоянно обновляющийся иерархический каталог, на верхнем уровне которого собраны самые общие категории, такие как “бизнес”, ”наука”, ”искусство” и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные WWW-страницы и сервера вместе с кратким описанием их содержимого.
Предметные каталоги предоставляют и возможность поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих WWW-серверов, а в их кратких описаниях, хранящихся в каталоге.
К наиболее известным предметным каталогам Internet относятся Yahoo, WWW Virtual Library, Galaxy и некоторые другие
Поддержка Web-индексов предполагает создание и непрерывное пополнение огромной базы данных по индексируемым документам.
Существуют программы, в которые загрузили несколько тысяч общеизвестных URL-адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Программы такого типа называются роботами. Они ограничиваются сбором статистической информации и построением словоуказателей (индексов) по текстам документов. Собираемая роботом база данных — индекс — хранит в себе сведения о том в каких WWW-документах содержаться те или иные слова.
Именно такой автоматически собираемый индекс и лежит в основе поисковых систем второго рода, которые часто так и называют — автоматические индексы. Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Некоторые из них (например, Lycos) представляют собой более или менее удачный синтез предметного каталога и автоматического индекса.
Поисковые системы глобального масштаба свое основное внимание концентрируют на англоязычных ресурсах Сети. Задачу поиска информации на серверах в пределах отдельных стран выполняют системы локального характера, специально адаптированные к особенностям конкретных языков. Существуют подобные поисковые средства и в России. Всех их объединяет возможность обработки материалов во всех кириллических кодировках.
К лидирующим в настоящее время относятся системы Rambler, Апорт и Яndex.
Дата добавления: 2015-01-30; просмотров: 53 | Поможем написать вашу работу | Нарушение авторских прав |