Главная » Статьи » уроки |
Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.
В 1995 году появились поисковые системы Lycos и AltaVista. Последняя
долгие годы была лидером в области поиска информации в Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках
исследовательского проекта в Стэнфордском университете. В настоящий
момент Google самая популярная поисковая система в мире.
23 сентября 1997 года была официально анонсирована поисковая система
Yandex, самая популярная в русскоязычной части Интернет.
В настоящее время существует 3 основных международных поисковых
системы – Google, Yahoo и MSN Search, имеющих собственные базы и
алгоритмы поиска. Большинство остальных поисковых систем (коих можно
насчитать очень много) использует в том или ином виде результаты 3
перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru
используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.
1.2 Общие принципы работы поисковых систем
Поисковая система состоит из следующих основных компонентов:
Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.
Crawler (краулер, «путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице.
Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками.
Database (база данных) – хранилище скачанных и обработанных страниц.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных.
Web server (веб-сервер) – веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы.
Детальная реализация поисковых механизмов может отличаться друг от
друга (например, связка Spider+Crawler+Indexer может быть выполнена в
виде единой программы, которая скачивает известные веб-страницы,
анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым
системам присущи описанные общие черты.
Spider.
Паук - это программа, которая скачивает веб-страницы тем же способом,
что и браузер пользователя. Отличие состоит в том, что браузер
отображает информацию, содержащуюся на странице (текстовую, графическую
и т.д.), паук же не имеет никаких визуальных компонент и работает
напрямую с html-текстом страницы (вы можете сделать «просмотр
html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).
Crawler.
Выделяет все ссылки, присутствующие на странице. Его задача -
определить, куда дальше должен идти паук, основываясь на ссылках или
исходя из заранее заданного списка адресов. Краулер, следуя по
найденным ссылкам, осуществляет поиск новых документов, еще неизвестных
поисковой системе.
Indexer. Индексатор разбирает
страницу на составные части и анализирует их. Выделяются и
анализируются различные элементы страницы, такие как текст, заголовки,
структурные и стилевые особенности, специальные служебные html-теги и
т.д.
Database. База данных - это хранилище всех
данных, которые поисковая система скачивает и анализирует. Иногда базу
данных называют индексом поисковой системы.
Search Engine Results Engine.
Система выдачи результатов занимается ранжированием страниц. Она
решает, какие страницы удовлетворяют запросу пользователя, и в каком
порядке они должны быть отсортированы. Это происходит согласно
алгоритмам ранжирования поисковой системы. Эта информация является
наиболее ценной и интересной для нас – именно с этим компонентом
поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции
сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все
факторы, влияющие на ранжирование результатов.
Web server.
Как правило, на сервере присутствует html-страница с полем ввода, в
котором пользователь может задать интересующий его поисковый термин.
Веб-сервер также отвечает за выдачу результатов пользователю в виде
html-страницы.
2.1 Текстовое оформление веб-страниц
2.1.1 Объем текста на странице
Поисковики ценят сайты, богатые информационным содержанием. В общем
случае следует стремиться к увеличению текстового наполнения сайта.
Оптимальными следует считать страницы, содержащие 500-3000 слов или 2-20 кб. текста (от 2 до 20 тыс. символов).
Страница, состоящая всего лишь из нескольких предложений, имеет меньше шансов попасть в топ поисковых систем.
Кроме того, большее количество текста на странице увеличивает видимость
страницы в поисковых системах за счет редких или случайных поисковых
фраз, что в некоторых случаях может давать неплохой приток посетителей.
2.1.2 Число ключевых слов на странице
Ключевые слова (фразы) должны встречаться в тексте как минимум 3-4
раза. Верхняя граница зависит от общего объема страницы – чем больше
общий объем, тем больше повторений можно сделать.
Отдельно следует рассмотреть ситуацию с поисковыми фразами, то есть
словосочетаниями из нескольких ключевых слов. Наилучшие результаты
наблюдаются, если фраза встречается в тексте несколько раз именно как
фраза (т.е. все слова вместе в нужном порядке), а кроме того, слова из
фразы попадаются в тексте несколько раз поодиночке. Также должно
существовать некоторое различие (разбалансировка) между числом
вхождений каждого из слов, составляющих фразу.
Рассмотрим ситуацию на примере. Допустим, мы оптимизируем страницу
под фразу «dvd проигрыватель». Хороший вариант – фраза «dvd
проигрыватель» встречается в тексте 10 раз, кроме того, слово «dvd»
встречается отдельно еще 7 раз, слово «проигрыватель» еще 5 раз. Все
цифры в примере условны, но хорошо показывают общую идею.
2.1.3 Плотность ключевых слов
Плотность ключевого слова на странице показывает относительную
частоту содержания слова в тексте. Плотность измеряется в процентах.
Например, если заданное слово встретилось 5 раз на странице из 100
слов, то плотность этого слова равна 5%. Слишком низкая плотность
приведет к тому, что поисковая система не придаст должного значения
этому слову. Слишком высокая плотность способна включить спам-фильтр
поисковой системы (то есть страница будет искусственно понижена в
результатах поиска из-за чрезмерно частого употребления ключевой
фразы).
Оптимальной считается плотность ключевого текста 5-7%. В случае
фраз, состоящих из нескольких слов, следует посчитать суммарную
плотность всех ключевых слов, составляющих фразу и убедиться, что она
укладывается в указанные пределы.
Практика показывает, что плотность ключевого текста более 7-8%, хотя
и не ведет к каким-либо отрицательным последствиям, но и смысла особого
в большинстве случаев также не имеет.
2.1.4 Расположение ключевых слов на странице
Очень короткое правило – чем ближе ключевое слово или фраза к началу
документа, тем больший вес они получают в глазах поисковой системы.
2.1.5 Стилистическое оформление текста
Поисковые системы придают особое значение тексту, тем или иным
способом выделенному на странице. Можно дать следующие рекомендации:
- используйте ключевые слова в заголовках (текст, выделенный тегами
«H», в особенности «h1» и «h2»). В настоящее время использование css
позволяет переопределить вид текста, выделенного этими тегами, поэтому
использование тегов «H» имеет меньшее значение, чем раньше, однако,
пренебрегать ими ни в коем случае не стоит;
- выделяйте ключевые слова жирным шрифтом (не во всем тексте,
конечно же, но сделать такое выделение 2-3 раза на странице не
помешает). Для этого рекомендуется использовать тег «strong», вместо
более традиционного тега «B» (bold).
2.1.6 Тег «TITLE»
Один из наиболее важных тегов, которому поисковые системы придают
огромное значение. Обязательно нужно использовать ключевые слова в теге
TITLE.
Кроме того, ссылка на ваш сайт в выдаче поисковой системы будет
содержать текст из тега TITLE, так что это, в некотором роде, визитная
карточка страницы.
Именно по этой ссылке осуществляется переход посетителя поисковой
системы на ваш сайт, поэтому тег TITLE должен не только содержать
ключевые слова, но быть информативным и привлекательным.
Как правило, в выдачу поисковой системы попадает 50-80 символов из
тега TITLE, поэтому размер заголовка желательно ограничить этой длинной.
2.1.7 Ключевые слова в тексте ссылок
Также очень простое правило – используйте ключевые слова в тексте
исходящих ссылок с ваших страниц (как на другие внутренние страницы
вашего сайта, так и на другие ресурсы сети), это может добавить вам
небольшое преимущество при ранжировании.
2.1.8 Теги «ALT» изображений
Любое изображение на странице имеет специальный атрибут
«альтернативный текст», который задается в теге «ALT». Этот текст будет
отображен на экране в том случае, если скачать изображение не удалось
или же показ изображений заблокирован в браузере.
Поисковые системы запоминают значение тега ALT при разборе
(индексации) страницы, однако не используют его при ранжировании
результатов поиска.
На данный момент достоверно известно, что поисковая система Google
учитывает текст в теге ALT тех изображений, которые являются ссылками
на другие страницы, остальные же теги ALT игнорируются. По другим
поисковым систем точных данных нет, но можно предполагать что-то
подобное.
В целом стоит дать такой совет – использовать ключевые слова в тегах
ALT можно и нужно, хотя принципиального значения это не имеет.
2.1.9 Мета-тег Desciption
Мета-тег Description специально предназначен для задания описания
страницы. Этот тег никак не влияет на ранжирование, но, тем не менее,
очень важен. Многие поисковые системы (и, в частности, крупнейшая
Google) отображают информацию из этого тега в результатах поиска, если
этот тег присутствует на странице и его содержимое соответствует
содержимому страницы и поисковому запросу.
Можно с уверенностью сказать, что высокое место в результатах поиска
не всегда обеспечивает большое число посетителей. Если описание ваших
конкурентов в результатах выдачи будет более привлекательным, чем
вашего сайта, то посетители поисковой системы выберут именно их, а не
ваш ресурс.
Поэтому грамотное составление мета-тега Description имеет большое
значение. Описание должно быть кратким, но информативным и
привлекательным, содержать ключевые слова, характерные для данной
страницы.
2.1.10 Мета-тег Keywords
Этот мета-тег изначально предназначался для указания ключевых слов
данной страницы. Однако в настоящее время он почти не используется
поисковыми системами.
Тем не менее, стоит заполнить этот тег «на всякий случай». При
заполнении следует придерживаться следующего правила: добавлять только
те ключевые слова, которые реально присутствуют на странице.
2.2 Структура сайта
2.2.1 Число страниц сайта
Общее правило – чем больше, тем лучше. Увеличение числа страниц сайта улучшает его видимость в поисковых системах.
Кроме того, постепенное добавление новых информационных материалов
на сайт воспринимается поисковыми системами как развитие сайта, что
может дать дополнительные преимущества при ранжировании.
Таким образом, старайтесь размещать на сайте больше информации – новости, пресс-релизы, статьи, полезные советы и так далее.
2.2.2. Навигационное меню
Как правило, любой сайт имеет навигационное меню. Используйте
ключевые слова в ссылках меню, это позволит придать дополнительный вес
тем страницам, на которые ведет ссылка.
2.2.3 Ключевое слово в названии страницы
Существует мнение, что использование ключевых слов в названии
html-файла страницы может положительно сказаться на ее месте в
результатах поиска. Естественно, это касается только англоязычных
запросов.
2.2.4 Избегайте подкаталогов
Если ваш сайт имеет умеренное число страниц (несколько десятков), то
лучше, чтобы они находились в корневой директории сайта. Поисковые
системы считают такие страницы более важными.
2.2.5 Одна страница – одна ключевая фраза
Старайтесь оптимизировать каждую страницу под свою собственную
ключевую фразу. Иногда можно выбрать 2-3 родственных фразы, но не
следует оптимизировать одну страницу под 5-10 фраз сразу, скорее всего
результата не будет никакого.
2.2.6 Главная страница сайта
Оптимизируйте главную страницу сайта (имя домена, index.html) под
наиболее важные для вас словосочетания. Эта страница имеет наибольшие
шансы попасть в топ поисковых систем.
По моим наблюдениям, на главную страницу сайта может приходиться до 30-40% общего поискового трафика.
2.3 Распространенные ошибки
2.3.1 Графический заголовок
Очень часто в дизайне сайта используется графический заголовок
(шапка), то есть картинка во всю ширину страницы, содержащая, как
правило, логотип компании, название и некоторую другую информацию.
Не стоит этого делать! Верхняя часть страницы очень ценное место,
где можно разместить наиболее важные ключевые слова. В случае
графического изображения это место пропадает впустую.
В некоторых случаях встречаются совсем нелепые ситуации: заголовок
содержит текстовую информацию, но в целях большей визуальной
привлекательности выполнен в виде картинки (соответственно изображенный
текст не может быть учтен поисковиками).
Лучше всего использовать комбинированный вариант – графический
логотип вверху страницы присутствует, но занимает не всю ее ширину. На
оставшейся части размещается текстовый заголовок с ключевыми словами.
2.3.2 Графическое навигационное меню
Ситуация схожа с предыдущим пунктом – внутренние ссылки на вашем
сайте должны также содержать ключевые слова, это даст дополнительное
преимущество при ранжировании. Если навигационное меню в целях большей
привлекательности выполнено в виде графики, то поисковики не смогут
учесть текст ссылок.
Если же отказаться от графического меню нет возможности, не
забудьте, по крайней мере, снабдить все картинки правильными тегами
ALT.
2.3.3 Навигация через скрипты
В некоторых случаях навигация по сайту осуществляется через
использование скриптов. Следует понимать, что поисковики не могут
читать и исполнять скрипты. Таким образом, ссылка, заданная через
скрипт будет недоступна для поисковой системы и поисковый робот не
пройдет по ней.
В таких случаях следует обязательно дублировать ссылки обычным
способом, чтобы навигация по сайту была доступна для всех – и для ваших
посетителей и для роботов поисковых систем.
2.3.4 Идентификатор сессии
На некоторых сайтах принято использовать идентификатор сессии – то
есть каждый посетитель при заходе на сайт получает уникальный параметр
&session_id=, который добавляется к адресу каждой посещаемой
страницы сайта.
Использование идентификатора сессии позволяет более удобно собирать
статистику о поведении посетителей сайта и может использоваться для
некоторых других целей.
Однако, с точки зрения поискового робота страница с новым адресом –
это новая страница. При каждом заходе на сайт поисковый робот будет
получать новый идентификатор сессии и, посещая те же самые страницы,
что и раньше, будет воспринимать их как новые страницы сайта.
Строго говоря, поисковые системы имеют алгоритмы «склейки» зеркал и
страниц с одинаковым содержанием, поэтому сайты, использующие
идентификаторы сессий, все же будут проиндексированы. Однако,
индексация таких сайтов затруднена и в некоторых случаях может пройти
некорректно. Поэтому использование на сайте идентификаторов сессий не
рекомендуется.
2.3.5 Редиректы
Редиректы затрудняют анализ сайта поисковыми роботами. Не используйте редиректы, если для этого нет четких причин.
2.3.6 Скрытый текст
Последние два пункта относится скорее не ошибкам, а к преднамеренному обману поисков, но о них все же следует упомянуть
Использование скрытого текста (цвет текста совпадает с цветом фона,
например, белое на белом) позволяет «накачать» страницу нужными
ключевыми словами без нарушения логики и дизайна страницы. Такой текст
невидим для посетителей, однако прекрасно читается поисковыми роботами.
Использование таких «серых» методов оптимизации может привести к
бану сайта – то есть принудительному исключению сайта из индекса (базы
данных) поисковой системы.
2.3.7 Однопиксельные ссылки
Использование графических изображений-ссылок размером 1*1 пиксель
(то есть фактически невидимых посетителю) также воспринимается
поисковыми системами как попытка обмана и может привести к бану сайта.
В новом окне Просмотров:[484]Добавлено:22.11.2024 Подробнее
Всего комментариев: 0 | |