01033, г. Киев
ул.Владимировская 40/2

+38 067 612 2045
info@mir09.com

Пн. - Пт. 9.00 - 19.00
СБ.-ВС. выходной

seo pictures

Современные поисковые машины обрабатывают десятки тысяч обращений в секунду. Давайте рассмотрим, как устроены механизмы поиска.

  • Поисковые системы на физическом уровне

Современная поисковая машина — это сложнейшая структура, состоящая из сотен тысяч, а в случае с Google — миллионов физических серверов. Вся информация, которая на них хранится, на¬дежно защищена и распределена по дата-центрам по всему миру.

Так, в 1997 году обработкой запросов для пользователей Яндекса и выдачей результатов поиска занимался всего один сервер, который был слабее любого современного домашнего компьютера. Сервер располагался в кабинете одного из основателей компании. Уже к 2000 году у Яндекса было около 50 серверов. Каждый месяц число серверов увеличивалось, со временем это привело к появлению собственных дата-центров. Современный дата-центр — это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Для примера: по данным LiveInternet, в месяц из поиска Яндекса совершается свыше 90 млн переходов на различные сайты .

  • Поисковые системы на логическом уровне

Логику работы поисковых систем рассмотрим на примере Яндекса, хотя в Google он аналогичен (разница лишь в технологиях и алгоритмах). Когда пользователь хочет что-то найти, он вводит запрос. Его сначала обрабатывает балансировщик нагрузки — специальное устройство, которое автоматически перенаправляет запрос пользователя в наименее загруженный на данный момент кластер. Это позволяет максимально эффективно использовать имеющиеся вычислительные мощности.

Затем поисковый запрос попадает в метапоиск. Эта система получает все необходимые данные и узнает, к какому типу данных запрос относится. На этом же этапе запрос проверяется на орфографию. Также система определяет, из какого региона поступил запрос и стоит ли по нему показывать региональные сайты.

seo pictures

Далее метапоиск проверяет, не было ли похожего запроса к системе в последнее время. Это связано с тем, что некоторые запросы становятся очень популярными в определенные моменты (значимое событие, катастрофа или даже рекламная кампания нового продукта), а другие популярны постоянно (например, связанные с социальными сетями). Чтобы снизить нагрузку, поисковая система некоторое время хранит ответы на запросы пользователей в кэше и в случае повторных обращений показывает уже готовые результаты, вместо того чтобы формировать ответы заново

Если при проверке не получилось найти уже готовый ответ в кэше, поисковая система начинает формирование нового ответа, и запрос пользователя передается дальше, на серверы базового поиска. Именно в базовом поиске находится индекс поисковой системы, разбитый на отдельные части и распре-деленный по серверам, поскольку поиск по частям всегда выполняется быстрее.

Стоит обратить внимание на то, что каждый сервер имеет несколько копий. Это позволяет не только защитить информацию от потери, но и распределить нагрузку. Если информация с конкретного сервера окажется слишком востребованной и один из серверов будет перегружен, проблема решится подключением копий этого сервера.

По результатам поиска каждый сервер базового поиска возвращает метапоиску результаты, связанные с запросом пользователя. Далее к работе подключается алгоритм ранжирования, который и определяет, на каком месте в поисковой выдаче будет находиться каждая конкретная ссылка.

  • Процессы поисковых систем

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понять причины выпадения сайта из выдачи или повышения его позиций. Рассмотрим каждый процесс в отдельности.

  • Процесс индексации

Индексация — это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс — выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты исходя из запросов пользователей.

Рассмотрим процесс индексации. В поисковой системе есть два типа роботов: быстрый и основной. Задача основного робота — индексация всего контента, быстрого — занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит ее обновление.

  • Скорость индексации и обновления страниц

В идеале, как только создана новая страница, она сразу же должна быть проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на базовый поиск. База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексирование новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для ускорения индексации часто обновляемых страниц и существует специальный быстрый робот, который посещает новостные сайты несколько раз в день.

Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, различные метатеги, теги, атрибуты noindex и nofollow.

Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования для всех поисковых роботов как сразу, так и по отдельности. Например, прописанное в нем значение noindex метатега robots отвечает за индексацию текста или самой страницы, а nofollow — за индексацию ссылок. В одной из следующих глав мы подробно рассмотрим настройку этих элементов сайта.

Помимо обычных текстов, размещенных на сайтах, все со-временные поисковые системы умеют индексировать и до-кументы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках.

На сегодняшний день помимо HTML-страниц могут индекси-роваться следующие типы документов:

• PDF, flash (Adobe Systems);

• DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office);

• ODS, ODP, ODT, ODG (Open Office);

• RTF, TXT.

  • Типы роботов поисковых систем

Выделяют 4 основных типа поисковых роботов:

• индексирующий робот;

• робот по изображениям;

• робот по зеркалам сайта;

• робот, проверяющий работоспособность сайта или страницы.

Некоторые посторонние роботы могут маскироваться под роботов известных поисковых систем путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

Робот по изображениям заносит в индекс графическую ин-формацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например Яндекс.Картинки1 или Картинки Google .

Робот, определяющий зеркала, проверяет зеркала сайтов, прописанные в файле robots.txt. Если они идентичны, то в результатах выдачи поисковика будет только один сайт — главное зеркало.

Специальный робот проверяет доступность сайта. Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (значков) сайтов, робот, проверяющий работоспособность сайтов, индексатор «быстрого» контента на площадках типа и др.

Важно понимать, что процесс индексации является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через неделю в Google.

Посмотрите наши услуги SEO-продвижение Киев и обратитесь к нам для консультации! Удачи!

manager MIR09

Manager Виталий Маврин

Используйте команды языка запросов, чтобы сэкономить время, с помощью операторов Яндекса и Google.

Полезные статьи

Совет профи

manager MIR09
Виталий Маврин

Пример использования операторов языка запросов: скопируйте какую-либо фразу с вашего сайта, введите ее в поисковую строку Яндекса или Google в кавычках и проверьте, дублирует ли кто-то вашу информацию.

Tags

Нужна помощь? Поддержка 08:00-18:00 /

+38 067 612 2045