Как работают поисковые роботы.

Тема в разделе "Статьи", создана пользователем Next, 16.09.15.

  1. Next

    Next Администратор

    Сообщения:
    5.705
    Репутация:
    73
    Рейтинг:
    +573 / -0
    Что такое поисковый робот? Вокруг этого вопроса ходит немало легенд. Кто-то думает, что поисковый робот представляет собой некий полуживой организм, кто-то считает, что это искусственный интеллект, другие воображают себе некую программу.

    Но в реальности все куда запутанней. Поисковый робот - это комплекс определенных мероприятий и определенных программных решений, которые приводят к тому, что пользователи могут видеть сайт в поисковой выдаче.

    Итак, поисковая система состоит из нескольких элементов.

    Робот паук, похожий на обычный браузер, который выкачивает страницы из интернета, т.е. серверов, где они лежат. Его также называют робот-краулер. Это робот, который ходит по находящимся на сайте ссылкам, индексирует их, идет дальше, снова индексирует. И так постоянно.

    Есть также другой тип робота – проверяющий (дятел), который просто проверяет доступность сайта: работает сайт или не работает, загружаются все страницы или не загружаются. Он состоит из двух различных алгоритмов, которые работают с разными системами, т.е. имеют разные задачи.

    Задача робота-паука: искать странички и собирать их, а робот-дятел проверяет работу сайта. Робот-паук обладает своеобразными алгоритмами поведения, большинство из которых для рядовых мастеров и прочих пользователей интернета неизвестно. Так как же понять, почему иногда робот не заходит месяцами на ваш сайт, а иногда - приходит каждый день? Ответ простой: чем интересней ваш ресурс, тем большее внимание поисковые системы ему оказывают. Чем больше говорят о вас в интернете, ссылаются на ваш сайт, посещают его, тем быстрее и чаще робот-паук будет заглядывать к вам на сайт.

    Бывает и так, что на новый сайт робота не дождешься месяцами. Тогда нужно искусственно прописать его (запустить процесс, так сказать, вручную). Дать указание роботу, т.е. отметить в Яндексе и Google, что ваш сайт существует. Делается это путем добавления сайта в инструменты вебмастеров обозначенных выше поисковых систем. Также рекомендуется время от времени вручную закидывать новые страницы сайта до тех пор, пока поисковые боты не пропишутся у вас на ресурсе на постоянной основе.

    Порядок обхода, частота визитов — все это зависит от поисковых алгоритмов. Насколько часто к вам заходить, с каких страниц начинать, с каких страниц заканчивать, какие страницы игнорировать — это все определяют поисковые алгоритмы и файл robots.txt.

    Индексатор – тот самый элемент поисковой системы, который анализирует данные, которые насобирал робот-паук. Робот-паук гребет все без разбора, а индексатор анализирует и определяет: что работает, что нужно, что не нужно, что является спамом, что является не уникальным контентом. Интересующую и не интересующую его информацию. Надо понимать, что все процессы индексации и все процессы анализа тщательно скрываются любой поисковой системой, будь то Яндекс или Google. Информация не разглашается. Если мы будем знать ее алгоритмы, то любой человек сможет нечестным путем пробираться в поисковую выдачу со сделанным на скорую руку некачественным сайтом. Все SEO-специалисты и все вебмастера имеют только общее представление и некоторые догадки, достаточно близкие к реальности.

    Индексатор всю обработанную информацию сваливает в базу данных. Индексатор – это тот самый фильтр, через который просеиваются некачественные сайты с неуникальным контентом, обилием продажных ссылок и прочими недостатками. Все это попадает в базу данных, где и хранится.

    Говоря простыми словами, все поисковые системы со стороны пользователя выглядят как специальная база данных, к которой можно обратиться. Это как система выдачи информации, которая уже показывает необходимые, нужные результаты. А для чего это сделано, давайте поговорим.

    Итак, есть определенная система базы данных, есть определенные ключи, есть запросы. Дело в том, что запросы можно делать не простым вводом фразы, как мы с вами обычно проступаем, заходя на страницу Яндекса или Google. Можно еще и использовать всевозможные ключи, ключи-уточнители, ключи с расширенным смыслом и т.д. Все это позволяет работать с базой данных более гибко.

    Опять же, надо понимать, что в базе данных знания о сайтах появляются не сразу, некоторые даже туда вообще не попадают (какие-то туда не успели попасть, какие-то не попали, какие-то не хотят попадать). Имеется определенная система выдачи информации. Она показывает пользователю проиндексированные сайты.

    Порядок поисковой выдачи называется ранжированием. Это тот момент, когда вы набираете в Яндексе вопрос (например: купить холодильник) и получаете множество ссылок на страницы, выстроенных в определенном порядке. Это и есть ранжирование.

    Кто же решает, будете вы на первом месте или на тридцатом?

    Первые десять мест - это те места, за которые есть смысл бороться каждому вебмастеру. На вторую и третью страницы практически никто не ходит, только очень заинтересованные люди. Лидирующие в выдаче сайты снимают все “сливки”, так как большая часть посетителей переходит именно к ним. Остается только правильно распорядиться трафиком, извлечь из него прибыль. Это может быть показ рекламы, партнерские программы, предложение собственных услуг. Вариантов множество.

    Ранжирование также определяется поисковыми алгоритмами, став еще одним элементом в ряду неизвестных нам правил. Представители Google заявляют, что у них сейчас порядка 1000 элементов формулы, которые определяют ранжирование. Тем не менее, общая закономерность уже никакой тайны не представляет. Это хороший уникальный сайт, это сделанный для пользователей контент, это грамотный ссылочный обмен.

    Имейте ввиду, поиск происходит только в пределах базы данных. Ваш сайт должен быть в этой базе, то есть – быть проиндексированным. Если Google или Яндексом (либо любым другим поисковиком) сайт не проиндексировался, его найти будет невозможно. Нормальный срок индексации молодых сайтов - от недели до двух.

    Таким образом, пройдя через получение информации роботом-пауком, ее обработку и индексацию, сайт попадает в поиск.

    Итак, мы разобрали общие принципы работы поисковых роботов. Важно отметить, что у Яндекса, Google и других поисковых систем все эти поисковые роботы разные, поисковые алгоритмы разные. Ваше присутствие в выдаче одного поисковика не гарантирует вашего присутствия и в другом. Поэтому нужно вести работу по нескольким фронтам сразу. Надо понимать, что поисковые системы, это точка входа для практически 90% пользователей интернета. Если не продвигать сайт там, о доходе можно будет забыть.
     
  2. dima45

    dima45 Участник

    Сообщения:
    5
    Репутация:
    5
    Рейтинг:
    +0 / -0
    Эти роботы счас вообще не работают,особенно у яши.
     
  3. deus

    deus Участник

    Сообщения:
    6
    Репутация:
    5
    Рейтинг:
    +0 / -0
    постоянно вижу на сайте роботов в списке посетителей
     
  4. spec935

    spec935 Участник

    Сообщения:
    75
    Репутация:
    6
    Рейтинг:
    +4 / -0
    Хорошая статья спасибо, но есть еще куча различных мелочей и нюансов которые если не знать или не применять на практике то про заработок на сайте тоже можно забыть. Как говорится это уже другая история!
     
  5. ritorik

    ritorik Участник

    Сообщения:
    10
    Репутация:
    5
    Рейтинг:
    +0 / -0
    Все щас думают, что эти роботы - вред, но без них не обойтись никакому пользователю/провайдеру
     

Похожие темы
  1. Next
    Ответов:
    0
    Просмотров:
    113
  2. Luxhack
    Ответов:
    1
    Просмотров:
    126
  3. WhiteYarik
    Ответов:
    1
    Просмотров:
    73
  4. ChargeSmile
    Ответов:
    2
    Просмотров:
    58
  5. man
    Ответов:
    4
    Просмотров:
    72
Загрузка...