Студопедия
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Состав и схема работы индекса.

Читайте также:
  1. Cпектральный анализ - способ определения химического состава вещества по его спектру.
  2. D_Так какие же вещества входят в состав вакцин?
  3. I. Общие рекомендации по организации самостоятельной работы студентов
  4. I. ОБЩИЕ УКАЗАНИЯ К ВЫПОЛНЕНИЮ КУРСОВОЙ РАБОТЫ
  5. I. Работы с тяжелыми и вредными условиями труда
  6. II Источники и состав загрязнителей атмосферы.
  7. II Методы очистки сточных вод от маслопродуктов.Принцип работы напорного гидроциклона.
  8. II. Метод синтаксического анализа по непосредственно составляющим.
  9. II. Организация и порядок работы комиссии по трудовым спорам
  10. II. Работы с особо тяжелыми и особо вредными условиями труда

Сетевые пауки трудятся непрерывно и автономно: они обшаривают по гипертекстовым ссылкам все закоулки Паутины и заносят информацию в базу данных, периодически проводя ревизию уже проиндексированного материала.

Популярные сайты с быстро обновляемым содержимым (новостные порталы, интернет-магазины, аукционы и т.п.) переиндексируются несколько раз в час, обычные — несколько раз в месяц или реже.

Стартовыми точками для пауков являются крупные популярные сайты. Паук начинает свой путь с такого сайта, обрабатывает его и двигается дальше по внешним ссылкам сайта.

Система поиска по базе индекса обслуживает запросы пользователей.

Многие поисковые системы предоставляют возможность авторам самостоятельно добавлять свои ресурсы в очередь на индексирование. Это существенно ускоряет обработку сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

В индексе поисковой системы с каждым словом или фразой связан список ссылок на документы, в которых это слово или фраза встречается. Кроме того, каждая ссылка снабжается весом — числовой оценкой ее значимости.

При вычислении веса ссылки, связанной со словом из индекса учитываются следующие факторы:

1. Индекс цитирования документа (ИЦ). Более весомым считается документ, на который есть много ссылок с других сайтов, причем цитирование с крупных популярных сайтов оценивается выше.

2. Свежесть страницы. Вес ссылки выше для более “свежих” страниц, то есть страниц с более новой датой обновления.

3. Написание ссылки. Ссылка имеет повышенный вес, если слово входит в состав самой ссылки (например, слово microsoft входит в состав ссылки на сайт компании: www.microsoft.com).

4. Ссылка имеет повышенный вес, если слово входит в состав названия окна, в которое выводится страница документа. В HTML-коде название окна задается тегом TITLE.

5. Вес ссылки повышается, если слово входит в состав списка ключевых слов страницы (тег META с атрибутом keywords), или в состав описания страницы (тег META с атрибутом description), или если слово входит в состав альтернативного текста картинки (атрибут alt тега IMG).

 

Кроме того, при подсчете веса ссылки учитываются разные параметры появления слова (к которому относится ссылка) в тексте документа:

· Форматирование. Больший вес имеют документы, в которых слово встречается в заголовках и разного рода выделениях (жирность, курсив, повышенный размер шрифта).

· Место слова в документе. Больший вес имеют документы, в которых слово встречается в начале документа, а также в навигационном меню сайта или страницы.

· Частота появления слова в документе. Документ, в котором слово встречается чаще, имеет больший вес.

Индекс ранжирует список результатов в порядке релевантности — степени соответствия полученных результатов ожидаемым.

Первыми в списке оказываются те страницы, которые имеют большую релевантность. В силу этого достаточно просмотреть первые 10–20 страниц из сотен тысяч найденных, чтобы обнаружить подходящую.

 




Дата добавления: 2015-02-16; просмотров: 113 | Поможем написать вашу работу | Нарушение авторских прав




lektsii.net - Лекции.Нет - 2014-2025 год. (0.008 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав