Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

М-4. Лекция 4 Современное состояние и оценка уровня

Читайте также:
  1. a. Общая итоговая оценка воздействия
  2. D) от уровня национального дохода.
  3. I. Оценка недвижимости
  4. I. Оценка обеспеченности предприятия основными средствами
  5. I. Понятие МПЗ, классификация и оценка материалов.
  6. I. Традиционное и индустриальное (современное)
  7. II. Контроль исходного уровня знаний студентов
  8. II. Оценка эффективности использования основных средств
  9. II. Показатели уровня цен
  10. II. Современное положение молодежи и состояние государственной молодежной политики в Курганской области

Спайдер (spider) – это программа, используемая для получения некоторых или всех ресурсов с большого числа Web-сайтов. В основном они используются для сбора информации в интересах поисковых систем.

Если сотни тысяч пользователей ищут, к примеру, текстовые строки в десятках миллионов документов, размещенных на миллионах компьютеров, проблема поиска становится весьма сложной. Именно эту проблему пытаются решить поисковые системы.

Один из способов существенно ускорить поиск – это иметь упорядоченный набор указателей вхождений искомых строк на их позиции в документах. Такой набор указателей называется инвертированным индексом. Например, предметный указатель в книге является примером инвертированного индекса. В нем, естественно, используются не все слова, которые есть в книге, иначе он потерял бы смысл. Слова, которые исключены из процесса индексирования, называются сорными словами (stop words), например, предлоги, как правило, исключаются из процесса индексирования.

Процесс индексирования строится на основе опроса доступных спайдеру сайтов. Загрузив начальную страницу сайта и проиндексировав ее содержимое, спайдер начинает просматривать все встроенные в нее гиперссылки, переходя по ним к новым ресурсам сети. При этом спайдер должен иметь встроенные алгоритмы недопущения замкнутых циклов. Время индексирования сайта фиксируется, и опрос повторяется через некий период. Так как период обновления у разных сайтов разный, то спайдер должен обладать интеллектом достаточным, чтобы переиндексация шла с периодичностью, соответствующей скорости изменения ресурса. Это позволяет сократить объем работы и избежать излишних обращений к сайту.

Для управления работой спайдеров на ряде сайтов создается специальный файл robots.txt, который содержит указания спайдеру какие ресурсы сайта не следует индексировать. Хотя эти указания не являются обязательными, спайдеры в основном им следуют, так как это помогает экономить время просмотра ресурса. Кроме того, как правило, не просматриваются каталоги, имя которых начинается с символа _, например, каталог _pictures.

Поисковые системы, основываясь на результатах опросов спайдеров, формируют обширные инвертированные списки и способны быстро выдавать информацию пользователю, не производя специальных запросов. Двумя основными показателями поисковых систем являются полнота и точность. Полнота оценивает широту охвата искомого множества. Если объем результирующего множества большой, пользователь может быть уверен, что он получил полный

М-4. Лекция 4 Современное состояние и оценка уровня




Дата добавления: 2014-12-23; просмотров: 22 | Поможем написать вашу работу | Нарушение авторских прав




lektsii.net - Лекции.Нет - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав