lang="ru-RU"> Что такое скраппинг, краулинг и индексирование - itLandia.ru
Site icon itLandia.ru

Что такое скраппинг, краулинг и индексирование

Сегодня известно, что более 50% трафика вашего сайта составляют боты. Боты — это автоматизированные программы, которые выполняют повторяющиеся задачи на ваших сайтах. Некоторые из них выполняются с благими намерениями, в то время как большинство ботов являются вредоносными по своей природе. В мире поисковых систем понятия «ползание» и «индексирование» используются как взаимозаменяемые, и эти термины обычно рассматриваются с хорошей точки зрения. Однако важно понимать их значение, чтобы вы, как владелец бизнеса, могли настороженно относиться к подозрительной активности на вашем сайте.

Ползание

Когда бот поисковой системы проходит путь по вашему сайту, следуя по ссылкам, это называется ползанием. Подумайте о ползании как о следе, по которому идет поисковый бот или паук. Если у вас есть карта сайта, вы облегчаете поисковым ботам поиск всех ссылок на вашем сайте. Вы можете ограничить эту деятельность, настроив файл robots.txt. Это делается путем специального разрешения на посещение только определенных разделов вашего сайта, а также путем введения правила запрета на посещение краулером определенных URL. Гусеницы поисковых систем будут соблюдать правила, определенные в файле robots.txt.

Индексирование

После завершения краулинга все ссылки и содержащееся в них содержимое индексируются поисковыми системами, такими как Google, чтобы их можно было извлечь при поиске в Интернете. Даже здесь поисковые системы, такие как Google или Bing, будут придерживаться правил, определенных веб-мастером. Например, можно задать атрибуты no-follow или no-index, чтобы указать поисковым системам, когда они будут просматривать и индексировать ваши веб-страницы. Определение no-index запрещает поисковым системам индексировать страницу для веб-поиска, а no-follow запрещает им влиять на рейтинг целевого сайта, на который дана ссылка в сообщении. По большому счету, почти все системы управления контентом разрешают индексирование по умолчанию, если иное не указано веб-мастером в явном виде.

Скрапинг

Когда автоматизированные программы используются для извлечения данных с веб-страниц, это называется скраппингом. При ползании и индексировании поисковые системы, такие как Google или Bing, соскабливают ваши страницы, но с благим намерением создать видимость вашего сайта или контента — источник сохраняется. Например, при поиске «лучшие кроссовки для бега» Google выводит список результатов поиска. Кроме того, вы можете увидеть сниппет, содержащий краткое изложение текста, который, по мнению Google, является лучшим ответом на поисковый запрос. Это делается путем программного извлечения содержимого из веб-страницы и представления его вместе с исходным URL и заголовком. Очевидно, что это выгодно для сайта, который создал этот контент.

Защита цен на продукцию и каталога от ботов-конкурентов

С другой стороны, вредоносный скрепер будет посылать ботов для кражи оригинального контента с сайта; такого контента, как новости, обзоры продуктов, сообщения в блогах, мнения, цены на продукты, объявления и так далее. В отличие от ботов поисковых систем, боты-скреперы не соблюдают правила, установленные в файле robots.txt. Их цель — украсть данные и опубликовать их в другом месте или продать конкурентам. Этот вид недобросовестного скраппинга влияет на онлайн-бизнес несколькими способами, например:

Поисковые системы оценивают сайты на основе рейтинга страниц, и если рейтинг вашего сайта пострадал из-за скраппинга, вы предпринимаете правильные действия для блокировки вредоносных ботов.

Exit mobile version