Для понимания основных принципов продвижения сайта необходимо понимать, как работает поисковая машина, каким она видит ваш сайт и какие сигналы учитывает. В этой статье мы не будем касаться технических тонкостей, а постараемся как можно проще и доступнее преподнести основные принципы.

Итак, как поисковую машину видит пользователь? Для любого не искушенного человека поисковик – это собственно поисковая строка и некоторое количество результатов под ней, которые (в идеале) соответствуют заданному пользователем поисковому запросу. Откуда же поисковик берёт информацию, которую он отдаёт пользователю в ответ на заданный поисковый запрос и по какому принципу выстраивает в определенном порядке?

И ндексирование интернета

Ежедневно поисковая система отвечает на несколько десятков миллионов запросов пользователей. При этом необходимо чтобы информация появлялась на экране в течение долей секунды. Неужели за это время робот поисковой системы успевает пробежаться по всему интернету, найти ответы на вопрос пользователя и выстроить их в оптимальном порядке? Конечно, это невозможно. Любой поисковик ищет по индексу – заранее подготовленному слепку интернета (а точнее его части, видимой роботу-индексатору).

Робот-индексатор – это специальная программа, которая обходит все сайты, известные поисковой системе и сохраняет информацию, найденную на страницах в базу данных (поисковый индекс), по которому и происходит поиск, когда пользователь набирает запрос. Поисковый индекс представляет собой поистине огромную и сложную по структуре базу данных, которая содержит миллиарды байт данных и отражает информацию, которую удалось получить роботу индексатору на момент последнего обхода сайта.

Процесс составления поискового индекса представлен сокращенно, технические моменты намеренно опущены, так как цель этой статьи – дать читателю принципиальное понимание работы поисковой системы.

Ранжирование сайтов

Итак, мы разобрались с тем, как и откуда поисковик получает информацию и почему он может искать так быстро. Но по какому же принципу выстраивается порядок сайтов в выдаче? После того как информация из интернета попадает на сервера поисковой системы, производится её обработка специальными программами, которые разбирают каждую страницу на составные части – отдельно выделяется текст документа, его разметка, данные о языке, кодировке. Далее полученная информация анализируется специально разработанными алгоритмами, которые отделяют “зерна от плевел” - спамные и бессмысленные страницы от тех, которые несут в себе потенциально востребованную информацию.

Страницы, которые прошли проверку, рассматриваются более тщательно. Необходимо понимать, что алгоритм поисковой машины работает в основном с текстом, который представлен на странице. Каждое слово получает определенный вес, в зависимости от местоположения на странице и множества других факторов. Благодаря такой подготовке поисковик может быстро находить в индексе ответ на запрос пользователя – в первую очередь оценивается соответствие текста запроса и текста страницы.

Единицей, с которой работает поисковая машина, является именно страница (документ), а не сайт – это важно понимать при создании сайта и его оптимизации. Соответствие текста страницы словам запроса даёт странице право попасть в результаты поисковой выдачи. Но степень такого соответствия далеко не единственный фактор, влияющий на положение страницы в результатах выдачи.

Факторы, влияющие на ранжирование сайтов

Никому не известна полная информацию о факторах, которые в данный момент являются важными для поискового алгоритма. Более того, данные факторы постоянно изменяются и дополняются, также как и степень их влияния на ранжирование.

Несмотря на то, что полная картинка не ясна до конца, очевидны некоторые основополагающие моменты. Для простоты понимания, приведем аналогии из нашей с вами повседневной жизни.

  1. Соответствие текста запроса тексту страницы. Об этом факторе уже шла речь выше и, пожалуй, этот фактор всегда будет являться основополагающим при ранжировании сайтов.
  2. Авторитетность страницы. В жизни мы привыкли больше доверять только информации из проверенных, авторитетных источников. Такой подход имеет под собой логическое основание и используется в том числе и при ранжировании результатов поиска. Что такое авторитетный источник глазами поисковика? Во-первых, это ресурс, на который часто ссылаются. Согласитесь, что вы скорее поверите человеку, которому доверяют другие люди. В интернете, о том что ресурсу доверяют, говорит количество ссылок, которое ведет на данный ресурс. Авторитетность ресурсов, с которых идут ссылки, также имеет значение. Вы ведь скорее поверите человеку, на которого ссылаются ваши друзья, которых вы давно знаете, чем тому, кого вам посоветовал вчерашний знакомый, не так ли? Возраст ресурса также играет немаловажную роль при расчёте авторитетности, так же как и возраст ссылок, которые на него ведут.
  3. Полнота ответа на запрос и представление информации. Несмотря на то, что поисковик ищет по текстам, расположенным на страницах, алгоритм учитывает и другую информацию – ссылки на другие страницы и файлы, соответствующие теме запроса. Также учитывается и качество текста – наличие ошибок, правильность вёрстки и т.п. Это можно сравнить с одеждой человека – скорее вы будете доверять опрятно одетому человеку с грамотной речью и поставленным голосом, чем тому, кто знает ответ на интересующий вас вопрос, но не может ничего объяснить и выглядит неопрятно.
  4. Поведенческие факторы и социальные сигналы. Получая данные от специальных систем статистики (например, Яндекс.Метрика), поисковый алгоритм может сделать вывод о том, какой сайт понравился большинству пользователей больше, а какой меньше. Поведенческие факторы – наименее исследованы и стали широко применяться для ранжирования сайтов совсем недавно.
    В ближайшее время, скорее всего, большую важность для ранжирования сайтов приобретут так называемые социальные сигналы. Такими сигналами можно называть ссылки из социальных сетей, переходы на страницы сайта с популярных социалок, количество “лайков” оставленных пользователями на странице и т.п. Достоверно известно, что уже сейчас Google учитывает влияние количества кликов по кнопке Google +1 и ставит сайты, получившие больше плюсов - выше. Данную группу факторов можно сравнить с отзывами, которыми люди делятся друг с другом.

Заключение

Поисковая машина – сложная и ресурсоёмкая система, которая постоянно дорабатывается и видоизменяется. Обновления основной выдачи (подробнее о выдаче быстроробота) происходят в среднем один раз в 4-5 дней у Яндекса и примерно 1 раз в два дня у Google. Тогда пользователям становится доступен следующий, более свежий слепок интернета. Отставание сохраненной копии большинства документов от реального времени составляет в среднем от 1 до 10 суток. Поисковики должны работать максимально быстро, чтобы отдавать пользователям наиболее актуальные результаты поиска, тем самым стремясь удовлетворить их основные потребности. Подробнее о метриках оценки качества поиска – в статье метрики качества поиска.

Материалы по теме:

http://company.yandex.ru/technologies/search/
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=70897 (на английском)