Читайте также:
|
|
Сетевые пауки трудятся непрерывно и автономно: они обшаривают по гипертекстовым ссылкам все закоулки Паутины и заносят информацию в базу данных, периодически проводя ревизию уже проиндексированного материала.
Популярные сайты с быстро обновляемым содержимым (новостные порталы, интернет-магазины, аукционы и т.п.) переиндексируются несколько раз в час, обычные — несколько раз в месяц или реже.
Стартовыми точками для пауков являются крупные популярные сайты. Паук начинает свой путь с такого сайта, обрабатывает его и двигается дальше по внешним ссылкам сайта.
Система поиска по базе индекса обслуживает запросы пользователей.
Многие поисковые системы предоставляют возможность авторам самостоятельно добавлять свои ресурсы в очередь на индексирование. Это существенно ускоряет обработку сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
В индексе поисковой системы с каждым словом или фразой связан список ссылок на документы, в которых это слово или фраза встречается. Кроме того, каждая ссылка снабжается весом — числовой оценкой ее значимости.
При вычислении веса ссылки, связанной со словом из индекса учитываются следующие факторы:
1. Индекс цитирования документа (ИЦ). Более весомым считается документ, на который есть много ссылок с других сайтов, причем цитирование с крупных популярных сайтов оценивается выше.
2. Свежесть страницы. Вес ссылки выше для более “свежих” страниц, то есть страниц с более новой датой обновления.
3. Написание ссылки. Ссылка имеет повышенный вес, если слово входит в состав самой ссылки (например, слово microsoft входит в состав ссылки на сайт компании: www.microsoft.com).
4. Ссылка имеет повышенный вес, если слово входит в состав названия окна, в которое выводится страница документа. В HTML-коде название окна задается тегом TITLE.
5. Вес ссылки повышается, если слово входит в состав списка ключевых слов страницы (тег META с атрибутом keywords), или в состав описания страницы (тег META с атрибутом description), или если слово входит в состав альтернативного текста картинки (атрибут alt тега IMG).
Кроме того, при подсчете веса ссылки учитываются разные параметры появления слова (к которому относится ссылка) в тексте документа:
· Форматирование. Больший вес имеют документы, в которых слово встречается в заголовках и разного рода выделениях (жирность, курсив, повышенный размер шрифта).
· Место слова в документе. Больший вес имеют документы, в которых слово встречается в начале документа, а также в навигационном меню сайта или страницы.
· Частота появления слова в документе. Документ, в котором слово встречается чаще, имеет больший вес.
Индекс ранжирует список результатов в порядке релевантности — степени соответствия полученных результатов ожидаемым.
Первыми в списке оказываются те страницы, которые имеют большую релевантность. В силу этого достаточно просмотреть первые 10–20 страниц из сотен тысяч найденных, чтобы обнаружить подходящую.
Дата добавления: 2015-02-16; просмотров: 113 | Поможем написать вашу работу | Нарушение авторских прав |