Онлайн-экскурсия в действующие бизнес-проекты с оборотом от 20 млн. рублей в год
Участвовать бесплатно
×
Поисковый спам: классификация и методы устранения Поисковый спам: классификация и методы устранения
Вернуться к Блогу
6168

Время чтения: 16 минут

Нет времени читать?
Отправить материалы на почту

Поисковый спам: классификация и методы устранения

Ежегодно количество интернет-сайтов стремительно растет, что ведет к сильному повышению конкуренции за место в ТОПе (особенно среди высокочастотных запросов). Чтобы продвигать собственные сайты в условиях жесткой конкуренции, веб-мастера и SEO-оптимизаторы пользуются разными методами. При этом поисковые системы частично или полностью запрещают многие из этих способов. В этой статье мы расскажем, что такое поисковый спам.

Что такое поисковый спам

Запрещенные методы оптимизации, которые иногда применяют некоторые веб-мастера, называют общим термином «поисковый спам». Название обусловлено тем, что поисковая выдача заспамливается веб-страницами с нерелевантным контентом из-за использования нечестных методов оптимизации.

Проще говоря, поисковый спам — это процесс, когда пользователю выдаются страницы с содержимым, которые не соотносятся с его запросом (по его собственному мнению) и которые не должны присутствовать в ТОПе (по мнению поисковой системы).

Веб-сайт для привлечения клиентов

Источник: shutterstock.com

Из-за присутствия спам-страниц в выдаче люди негативно относятся к поисковым системам и меньше им доверяют.

Общее значение спама — «интернет-мусор». Спамом называют рассылки коммерческих, информационных и других типов рекламных сообщений пользователям, которые не соглашались на их получение.

В Интернете спам распространяется по нескольким каналам:

  1. Электронная почта. Пользователи могут получать на свой email-адрес почтовый спам, навязчивую рекламу товаров и услуг, предложения зайти на сайт. Часто в таких письмах содержатся вирусы или ложные мошеннические сведения.

  2. Сервис мгновенных сообщений и SMS.«SPam + Instant Messenger», или, другими словами, «спим» — спам, который приходит пользователям сервисов мгновенных сообщений, например Viber, WhatsApp. SMS-спам — это информация рекламного характера, которую распространяют в формате SMS-сообщений.

  3. Соцсети. Спамеры взламывают аккаунты людей в соцсетях и от их лица отправляют фишинговые сообщения с просьбой о переводе средств. Также они могут публиковать от имени пользователя рекламу и вступать в рекламные группы.

  4. Блоги и форумы, в которых предусмотрено свободное редактирование (сайты «вики») и комментарии. Изменение нового контента в материалах, которые можно свободно редактировать, доступно только привилегированным пользователям. Этим обусловлено быстрое распространение спама и медленная фильтрация на сайте, долгое пребывание в Сети и назойливое присутствие перед пользователями.

  5. Поисковики. «Веб-спам», «поисковый спам», или «спамдексинг», — это метод манипуляции результатами выдачи в поисковике.

Если углубиться, исторически термин «спам» означает SPicedhAM, или «острая ветчина» (в переводе с английского). По одной из теорий, после Второй мировой войны на складах компании Hormel Foods залежалось много консервов с острой ветчиной, которую употребляла армия США.

Чтобы как-то реализовать немного испорченный продукт, Hormel Foods начали активно его рекламировать. Компания обклеила здания, машины, витрины магазинов словом «SPAM», продвигала продукт по радио и в печатных СМИ. Но популярным «SPAM» стал только в «Летающем цирке Монти Пайтона» в 1969 году. Артисты шоу тогда представили пародию на столь агрессивную рекламу.

Этот случай связали с инцидентом 1986 года. В сети Usenet Дэйв Родес активно продвигал идею финансовой пирамиды, обещая, что вкладчики благодаря ей разбогатеют. Родес в огромных количествах рассылал сообщения, что вызвало у пользователей раздражение, а тексты писем начали называть «спамом».

В России термин «спам» возник во времена Августовского путча 19 августа 1991 года. Тогда руководитель компании «Релком» рассылал людям обращение Бориса Ельцина.

Вновь о спаме заговорили в 1993 году, когда администратор сети Usenet Ричард Депью нечаянно отправил на конференцию 200 сообщений.

В 1994 году компания Canter&Siegel поручила программисту разработку программы, рекламирующей в Usenet услуги. После такой рассылки интернет-пользователи быстро потеряли интерес к Usenet.

Сегодня спамом называют почтовые и электронные рассылки. Также термин используют в интернет-среде (спамдексинг).

Виды поискового спама

Каким бывает поисковый спам? Расскажем об основных его видах.

1. Употребление в тексте огромного количества ключевых слов и фраз

Ключевыми запросами может набиваться и текст, и описания к видео- и фотофайлам, метатеги и т. д.

Цель набивки — сделать так, чтобы алгоритм поисковых систем счел содержимое страницы соответствующим определенным ключевым запросам. Но на практике этот метод продвижения давно неэффективен. Оптимизаторы, которые его используют, скорее добьются бана для своего сайта, чем выведут его в ТОП.

2. Автоматический редирект

Процесс, при котором пользователи моментально перенаправляются с одной веб-страницы на другую. То есть человек заходит на один сайт, а система перенаправляет его на другой.

Часто человек не успевает заметить непосредственно редирект (поскольку это автоматический и очень быстрый процесс). Как правило, после редиректа пользователь попадает на веб-страницу с рекламным контентом, заспамленную ссылками.

3. Клоаки

Здесь для каждой продвигаемой страницы SEO-оптимизатор разрабатывает сразу две версии:

  • Первая предназначена для поисковиков.

  • Вторая — для простых пользователей.

То есть клоаки — это разное содержание страниц для поисковиков и для простых людей.

Специальная программа фиксирует, кто именно посетил страницу — поисковый робот или пользователь. С учетом этого отображается определенный контент.

Разработка многостраничного сайта

Источник: shutterstock.com

Оптимизация страницы для поисковых систем ведется очень тщательно. На странице нет ни одного лишнего элемента, зато есть множество ключей для поисковиков. Для пользователей страница выглядит абсолютно стандартно, имеет приятный дизайн и максимально удобную навигацию.

На первый взгляд, всем хорошо — и роботам, и людям. Но на самом деле, пользуясь клоаками, SEO-оптимизатор обманывает поисковую систему. А она в свою очередь видит это и банит веб-страницы, имеющие две версии.

4. Свопинг

Это полная замена контента веб-страницы сразу после ее успешной индексации в поисковых системах. Веб-мастер или SEO-оптимизатор, использующий этот способ, должен разместить на странице уникальное и качественное содержимое, повысить ее позиции и получить из поисковиков хороший трафик.

Далее, после планового update (периодического обновления поисковика), специалист полностью меняет контент на странице. Уникальный текст меняется на контент с бесчисленным количеством ключевых запросов и ссылок на продвигаемые веб-сайты.

Конечно, когда поисковые системы будут в очередной раз делать обновление, они выявят подмену и снизят позиции страницы в выдаче. Но до этого момента она будет собирать трафик (посещения) и какое-то время находиться в ТОПе.

5. Невидимые ссылки и текст

Есть разные способы скрыть от пользователей ссылки и текстовый контент на сайте. Например:

  • использование очень мелкого шрифта;

  • одинаковые по цвету шрифт и фон страницы (например, серый текст на сером фоне);

  • использование специальных правил стилей CSS, позволяющих маскировать ссылки;

  • вставка на страницу однопиксельных изображений со ссылкой и т. д.

Пользователи не видят ни текст, ни ссылку. Однако текст и ссылка видны роботам, индексирующим поисковые системы.

Примеры поискового спама

  • Выражения со спамом

Рассмотрим методы спама, влияющие на алгоритмы ранжирования.

При оценке релевантности текста поисковики учитывают, где на странице расположены запросы. Каждое такое расположение — это поле. Обычные текстовые поля для страницы — это тело документа, наименование веб-страницы (title), метатеги в HTML-заголовке и идентификатор инфоресурса (адрес веб-страницы).

Кроме того, указатели в тексте, связанные с урлами, указывающие на эту страницу и принадлежащие ей, — это анкеры текстового поля. Зачастую они достаточно полно описывают контент страницы. Выражения в текстовом поле веб-страницы используются для оценки, соответствует ли страница ключевому запросу (группе слов). Часто у разных полей разный вес. Выражения со спамом относятся к приему, определяющему содержание этих полей текста, чтобы сделать веб-страницы со спамом соответствующими определенным запросам.

  • Способы спама выражений

В основе группирования способов спама выражений могут лежать текстовые поля, содержащие спам.

  • Cпам в теле документа

Здесь выражения со спамом находятся в теле документа. Этот метод спама — самый простой и распространенный. Он такой же старый, как сами поисковики.

Например:

Apartment Rent Moscow Moscow Hotel Moscow Hotel Moscow Russia Moscow Flight Moscow Russia Flower To Moscow Moscow Travel Moscow Apartment Moscow ...

Results for Apartment Rent Moscow

  • Спам в наименовании документа (title)

Поисковики сегодня, как правило, придают выражениям в наименовании документа большой вес. Соответственно, выражения со спамом вполне разумно включать в название документа.

Например:

<title>Пластиковые окна, пластиковые окна пвх, пластиковые окна Internova, пластиковые окна KBE, пластиковые окна Tryba, пластиковые окна Rehau, пластиковые окна Veka</title>

  • Спам в метатегах документа

Спамеры всегда стремились к метатегам HTML, появляющимся в заголовке документа. Из-за значительного объема спама поисковики сейчас обращают все меньше внимания на эти теги или вообще их не замечают.

Вот простой пример спама ключей в метатегах:

<meta name="”keywords”" content="”купить," nikon canon>

  • Cпам анкеров текста

Как и наименованию документа, поисковики придают большой вес анкерам (указателям) выражений в тексте, поскольку предполагают, что в них есть краткое содержание обозначенного документа. Поэтому выражения со спамом иногда включают в текст анкера HTML c гиперссылкой на страницу.

Отличие этого метода спама от предыдущих в том, что выражения со спамом размещают не на самой главной странице, а на других, которые на нее ссылаются. Поскольку текст в анкерах индексируется для одной и для второй страницы, их спам влияет на ранжирование обеих страниц.

Элементарный пример спама анкеров текста:

«бесплатно, огромные скидки, дешево, недорого, дешево, бесплатно».

  • Спам адреса веб-страницы

Некоторые поисковые системы разбивают адрес страницы на набор выражений, используемых для определения ее релевантности. Зная это, спамеры часто делают адреса веб-страниц длинными, состоящими из последовательности выражений со спамом. Так, можно увидеть следующий спам-адрес веб-страницы:

buy-canon-rebel-300d-lens-case.camerasx.com
buy-nikon-d100-d70-lens-case.camerasx.com

Иногда некоторые методы спама используют вместе. Например, часто можно встретить в ссылочном спаме анкер текста и спам-адрес веб-страницы.

В основе другого метода классификации способов спама лежит группа выражений в текстовых полях. Следовательно, у нас есть:

  • Использование большого количества выражений, где присутствует спам с повторяющимся содержанием.

Бывает так, что спамеры повторяют большие куски текста (например, новости), которые размещены в Интернете, и в случайном порядке разбавляют их фразами со спамом. Такой метод продвижения дает результат, только если тема исходника насколько редкая, что лишь несколько веб-страниц ей релевантны.

Накачивание большим количеством текста используют также для того, чтобы разбавлять текст, например, чтобы скрыть в нем повторяющиеся фразы со спамом и обмануть поисковые алгоритмы, фильтрующие явные повторы.

  • Повтор одной или нескольких фраз.

Это позволяет спамерам хорошо повышать релевантность веб-страницы к меньшему числу запросов.

  • Демпинг многочисленных несоответствующих фраз, иногда даже целых устойчивых выражений.

В этом случае спамеры делают конкретную страницу релевантной многочисленным запросам. Хорошие результаты демпинг приносит в отношении редких и не совсем точных запросов. Последним явно будут соответствовать только 2-3 страницы. Поэтому даже та страница, где будет размещен низкорелевантный спам, войдет в ТОП-10 поисковой выдачи.

Кейс: VT-metall
Узнай как мы снизили стоимость привлечения заявки в 13 раз для металлообрабатывающей компании в Москве
Узнать как
  • Склеивание выражений.

Еще один способ, который используют спамеры, чтобы быстро создавать контент.

Идея заключается в том, чтобы склеить предложения и фразы воедино, может быть даже из разных источников. Страница, напичканная спамом, впоследствии может появиться под любой запрос любой темы начального предложения.

Поисковики опираются не только на метрическую направленность, в основе которой лежат выражения. Также поисковые системы полагаются на ссылочные данные, определяя ценность страницы. В результате спамеры часто формируют ссылочную структуру, которая, как они планируют, повысит вес одной или нескольких страниц.

Как поисковики воюют с поисковым спамом: 3 способа выявления

Поисковые системы не любят поисковый спам и за обман, и главным образом за то, что он запутывает пользователя. В результате тот злится и переходит (может перейти) в другую поисковую систему, чтобы найти релевантные своему запросу данные. Поисковые системы борются за каждого пользователя, а потому стараются выдавать страницы только с качественным содержанием по запросам.

Как поисковики воюют с поисковым спамом: 3 способа выявления

То есть активная борьба поисковых систем со спамом неизбежна. Поисковые системы пытаются его найти, исключить из базы и забанить веб-страницу или сайт, на котором он размещен.

Поисковый спам выявляется тремя способами:

  1. Автоматическим. Здесь поисковый спам находят, используя поисковые алгоритмы. С учетом характеристик того или иного вида спама алгоритмы ищут сайты, где используется нечестная оптимизация, и в дальнейшем снижают их позиции в выдаче.

  2. Полуавтоматическим. Здесь поисковые алгоритмы ищут прежде всего подозрительные сайты и страницы. Окончательно решает, будет сайт забанен или его позиции снизятся, модератор (асессор) поисковика.

  3. Ручным. В этом случае модератор (асессор) самостоятельно проверяет, использует ли сайт поисковый спам. Основанием для таких проверок обычно служат жалобы от владельцев конкурирующих сайтов.

Как проверить заспамленность сайта

Для этого можно использовать несколько способов:

  • Использовать Google.Вебмастер. Это сервис от веб-мастеров Google, в котором есть сведения об оптимизации HTML на вашем сайте. Он проверяет, сколько оптимизатор допустил ошибок — случайно или специально, сколько на сайте повторяется заголовков и метаописаний. Ваша задача — уменьшить число ошибок и разнообразить эти поля.

  • Изучить программный код веб-страницы или просмотреть страницы сайта. Зачастую спам на веб-странице заметен сразу. Иногда в тексте столько ключевых слов, что его нельзя прочитать. При открытии кода верстки бывает видно, как аномально много ключей в тегах title, keywords и description.

  • Проанализировать входящие ссылки и внутреннюю ссылочную структуру. Необходимо просмотреть в Яндекс.Вебмастере входящие ссылки (Индексирование сайта — Входящие ссылки), как другие веб-сайты на вас ссылаются, не много ли в ссылках и тексте ключевых слов. Google Search Console позволяет увидеть организацию внутренних ссылок (Поисковый трафик — Внутренние ссылки). Благодаря этому можно и найти поисковый спам «Яндекса», и изучить структуру сайта.

  • Воспользоваться специальными программами. Они дают возможность примерно понять, насколько качественно оптимизирован сайт.

Алгоритмы, направленные на ссылочный спам

Спамер различает три типа интернет-страниц:

  1. Недоступные. Это веб-страницы, не подлежащие изменению. Они недосягаемые. Спамер не способен повлиять на исходящие ссылки.

  2. Доступные. Их поддерживают другие люди (по всей вероятности, те, которые не относятся к спамерам). При этом спамеры могут их менять с определенными ограничениями. Допустим, они могут вставить в гостевую книгу сообщение, включающее в себя ссылку на сайт, где есть поисковый спам. Поскольку фильтрация доступных страниц, как правило, не является прямой, мы можем отметить, что запас доступных страниц у спамеров ограничен.

  3. Собственные. Их поддерживает спамер и, следовательно, полностью контролирует их контент. Такие веб-страницы называют фермами спама. Спамер прежде всего нацелен на увеличение веса одной или многих своих страниц. Чтобы было проще все это понять, предположим, есть страница t. Кроме того, существуют определенные затраты на техобслуживание (регистрацию домена, веб-хостинг), связанные с собственными веб-страницами спамера. В связи с этим можно говорить о том, что число таких страниц у спамера ограничено. Исключение составляет главная страница.

Принимая во внимание эту модель, расскажем о трех популярных алгоритмах, в основу которых положена ссылочная информация, используемая для оценки качества результатов.

Техническая грамотность

Источник: unsplash.com

  • HITS

Цель введения оригинального алгоритма HITS заключалась в ранжировании веб-страниц определенной тематической направленности. Но, как правило, алгоритм применяют ко всем интернет-страницам, чтобы найти ядро и понять, как результаты влияют на каждую страницу.

В соответствии с циркулярным определением HITS главные весомые страницы — это те, что указывают на многие другие авторитетные веб-страницы, в то время как авторитетные страницы с большим весом — это те, на которые ссылаются основные. Поисковик, использующий алгоритм HITS-ранжирования страниц в качестве результата выдачи, выдает страницы с самым большим весом и авторитетом.

Веб-страницы с большим весом несложно заспамить, если добавить исходящую ссылку на многие авторитетные страницы, известные всему миру, например www.cnn.com или www.mit.edu. То есть спамер должен добавлять множество исходящих ссылок на авторитетную страницу для повышения ее веса.

Завоевать хорошую репутацию сложнее, поскольку для этого на сайте должны присутствовать многочисленные входящие ссылки со страниц с предположительно большим весом. Спамер может сделать свою страницу более весомой (добавив на нее многочисленные исходящие ссылки), после чего сослаться с этих страниц на свою основную веб-страницу.

Благодаря ссылкам с доступных страниц, имеющих хороший авторитет, можно повысить репутацию главной страницы и таким образом продвинуть ее. Поэтому руководствоваться следует правилом «чем больше, тем лучше». Если бюджет спамера ограничен, ему нужно ссылаться со всех своих доступных веб-страниц к себе на главную. На собственных страницах, не являющихся главными, также стоит разместить ссылки на максимальное количество других (популярных) страниц с хорошей репутацией.

  • PageRank

Так называют показатель авторитетности веб-страниц. Для придания глобального веса всем страницам он пользуется входящей ссылочной информацией. PageRank допускает, что популярность страницы среди простых интернет-пользователей зависит от количества входящих ссылок на нее (посетители будут ссылаться на авторитетные, по их мнению, страницы). В соответствии с алгоритмом страница авторитетна, если на нее ссылаются другие страницы с хорошей репутацией. Следовательно, в основе PageRank лежит взаимное укрепление веб-страниц: вес конкретной страницы влияет на другую страницу, а она в свою очередь на другие.

Результаты проведенного анализа алгоритма показали, что PageRank включает в себя r total-группу страниц (или, во всяком случае, одну страницу) и зависит от 4 параметров:

R total = r static + r in – r out – r sink,

где r static — вес, приобретенный из статического распределения (случайный скачок);

r in — вес, вытекающий из веб-страниц через входящие ссылки с внешних страниц;

r out — вес, утекающий с веб-страницы из-за исходящих ссылок на внешние страницы;

r sink — вес, утраченный из-за низких веб-страниц в группе (к примеру, страниц без исходящих ссылок).

Предыдущая формула ведет к качественной ссылочной структуре, повышающей вес главной страницы до предельного значения. У такой структуры оптимальные характеристики, она делает каждую свою страницу доступной с досягаемых веб-страниц (в связи с чем их может проиндексировать поисковая система), в ней минимум ссылок.

Для этой структуры применяют ряд приемов, позволяющих достичь максимального показателя авторитетности страницы фермы спама, особенно страницы t:

  • Применение в ферме спама всех собственных веб-страниц. За счет этого статический вес r static максимально увеличивается.

  • Сбор в ферме спама максимального числа входящих ссылок из доступных веб-страниц. Это позволяет повысить входящий вес r in до предельного уровня.

  • Сдерживание ссылок, ведущих не к фермам спама. То есть устанавливается значение r out, близкое к 0.

  • Игнорирование пониженных веб-страниц в ферме спама обеспечивает наличие на каждой странице, в том числе t, нескольких входящих ссылок. То есть r sink равняется 0.

В ферме спама ссылочная структура по максимуму повышает вес страницы t при соблюдении следующих условий:

  • Ссылки со всех доступных и собственных веб-страниц должны ссылаться напрямую на главную страницу, максимально повышая входящий вес.

  • Необходимо размещать ссылки с t на других собственных страницах. Без них t могла бы потерять существенную часть веса, если бы была понижена, а собственные страницы стали бы недоступны вне фермы спама. Благодаря такому замкнутому кругу вес, утекающий с t, перетекает назад. Надо сказать, что формировать подобные круги между t и доступными веб-страницами нелогично, поскольку из-за этого ферма спама будет весить меньше.

Технологии ссылочного спама

Рассмотрим 2 технологии ссылочного спама: входящие и исходящие ссылки.

Исходящие ссылки

Добавляя исходящие ссылки на авторитетные веб-страницы вручную, вы можете увеличить основной вес. Но самый действенный способ — каталог ссылок. В интернете таких сайтов-каталогов достаточно много. Они распределяют контент по тематическим группам и подгруппам, подбирая соответствующие веб-ресурсы для каждой тематики по запросу. С помощью частичного и полного дублирования страниц каталога спамеры могут оперативно сформировать структуру исходящих ссылок.

Сторонние ссылки на сайте компании

Источник: shutterstock.com

Входящие ссылки

Чтобы накопить достаточно много входящих ссылок на главную страницу или группу страниц, используются следующие способы:

  • Создание групп страниц, содержащих полезный контент и скрытые ссылки на главные страницы, где присутствует поисковый спам. Далее посетителей призывают делиться ссылками на сайты, за счет чего главная страница лучше ранжируется. К этому способу также относится копирование каталогов.

  • Формирование каталога ссылок. Многие сайты позволяют поставить ссылки на свои веб-ресурсы в определенной главе каталога. Нередко такие ссылки не проверяются, и спамер может проставить в каталоге ссылки на собственную главную страницу. Хорошая авторитетность и большой вес каталогов ссылок позволяют данному методу эффективно повышать репутацию главных страниц.

  • Размещение ссылок на досках объявлений и в гостевых книгах, которые не модерируются. Спамеры с большим опытом могут ссылаться в облачных сообщениях на необходимые веб-страницы. Поскольку такие страницы никто не контролирует, их постепенно начинают воспринимать как поисковый спам.

  • Обмен ссылками. Целые сообщества спамеров могут по договоренности друг с другом формировать общие группы, обменивающиеся ссылками.

  • Создание собственной фермы спама. Контроль над многочисленными сайтами и разработка произвольной ссылочной структуры способствуют повышению ранжирования главных веб-страниц. Если раньше такой способ был затратен, то сегодня регистрировать домен или веб-хостинг гораздо дешевле.

Спамеры почти всегда пытаются скрыть указатели. Как правило, скрывают повторяющиеся фразы или большой перечень ссылок. Спамеры пользуются особыми методами, помогающими скрывать от людей и поисковых роботов свои очень заспамленные веб-страницы.

Какие бывают скрытые методы спама

Рассмотрим примеры скрытого спама.

Сокрытие контента

Браузер при просмотре страницы может не видеть ключевые слова или ссылки, в которых есть поисковый спам. Очень часто контент скрывают, используя определенные цветовые схемы. Так, фразы в теле HTML-документа не видно, если их цвет совпадает с фоном страницы. Простой пример:

<fontcolor="white">hiddentext</font>

Таким методом поисковый спам можно скрыть, если избежать анкеров текста. Вместо этого спамеры часто формируют очень маленький, размером 1х1 pixel, рисунок анкера, также незаметный для посетителя, или такой же расцветки, как фон.

Кроме того, для сокрытия некоторых визуальных элементов на странице спамер может пользоваться скриптами, например поставить видимый атрибут стилей HTML на неправильный.

Маскировка (клоакинг)

Если спамеры могут запросто определять IP-адрес сетевого паука (робота), то могут воспользоваться способом под названием маскировка (клоакинг). Клиент (в этом случае IP-адрес, с которого заходит паук (робот)) индексирует страницы.

Веб-серверы, где есть поисковый спам, возвращают специальный HTML-документ стандартному веб-браузеру, в то время как пауку-роботу они возвращают совершенно иной документ. То есть спамеры могут предлагать умышленный контент пользователям (без каких-либо признаков спама на странице) и при этом направлять документ, в котором присутствует поисковый спам, поисковику для индексации.

Есть два способа распознавания поискового робота. Во-первых, некоторые спамеры сохраняют лист IP-адресов, которые используют поисковые системы, и определяют поисковые машины, сравнивая их с IP. Во-вторых, сервер может установить обращение, которое делает запрос документу на основе поля user-agent в тексте запроса HTTP. Допустим, следующее простое HTTP-сообщение о запросе имени user-agent — это имя, которое использует браузер Internet Explorer 6:

GET /db_pages/members.html HTTP/1.0

Host: www-db.stanford.edu

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Имена user-agent четко не нормированы, и вопрос поступающего обращения заключается в том, какую информацию нужно разместить в соответствующем текстовом поле. Однако поисковые роботы, как правило, самостоятельно идентифицируют себя по четкому названию, которое использует веб-браузер при обычных обращениях для предоставления правильной и вполне адекватной оптимизации. К примеру, некоторые сайты для поисковиков — это версии их веб-страниц без навигационных ссылок, рекламных сообщений и прочих визуальных элементов, относящихся к презентации, а не к содержанию. Такую деятельность поисковые системы приветствуют, поскольку она помогает индексировать полезный контент.

Переадресация (редирект)

Еще один метод скрыть поисковый спам на веб-странице — автоматически переадресовывать браузер на другой адрес в процессе загрузки страницы. В этом случае поисковик продолжает индексировать страницу, но пользователь ее не видит. Веб-страницы с редиректом являются посредниками (прокси, входных страниц) для решения главной задачи, в которой спамеры помогают пользователю, находящему их сайт через поисковые системы.

Для реализации переадресации есть несколько способов. Самый элементарный — применить метатег refresh в заголовке HTML-документа. При установлении времени обновления, равном 0, и обновлении адреса веб-страницы на главную спамеры могут достичь редиректа во время загрузки страницы браузером:

<meta http-equiv="”refresh”" content="”0;" url="target.html’">

Поскольку предыдущий способ реализовать несложно, поисковики легко могут определить такие попытки редиректа с помощью синтаксического анализа метатегов. Более продвинутые спамеры делают редирект, используя некоторые скрипты на странице, поскольку роботы не исследуют скрипты:

<script language="”javascript”"><!--

location.replace (“target.html”)

--></script>

Напоследок о том, как бороться с поисковым спамом

Мы рассказали о самых популярных способах борьбы с поисковым спамом. Распределение спама по группам позволяет вместе с тем классифицировать и методы противостояния этому явлению. Следовательно, стоит упомянуть о мерах борьбы со спамом, которыми могут пользоваться поисковики.

  1. Выявить примеры спама, к примеру найти веб-страницы, где есть поисковый спам определенных видов, и прекратить обход и/или индексацию таких веб-страниц. Как правило, поисковики пользуются группой автоматических или полуавтоматических собственных схем выявления поискового спама и экспертными знаниями редакторов для точного обнаружения и удаления из индекса страниц со спамом.

  2. Предупредить поисковый спам, сделав те или иные способы спама невозможными к применению. Допустим, поисковый робот вправе самостоятельно определять себя в качестве обращения веб-браузера во избежание маскировки.

  3. Уравновесить воздействие спама. Сейчас поисковики используют отклонения от главных способов ранжирования, в некоторой степени устойчивые к спаму.

Скачайте полезный документ по теме:
Чек-лист: Как добиваться своих целей в переговорах с клиентами

При этом проблему поискового спама можно рассматривать в целом, несмотря на то, что он делится на разные категории. В основе этого подхода лежит распознавание некоторых распространенных возможностей веб-страниц со спамом. Допустим, способы выявления спама подразумевают примерное изолирование известных веб-страниц без спама.

На популярных страницах часто присутствуют ссылки на поисковый спам. То есть рациональный анализ ссылочного алгоритма можно использовать для отделения известных страниц от любого типа спама без учета его способов по отдельности.

Облако тегов
Понравилась статья? Поделитесь:
Забрать подарки
из закрытой базы
Скачать 7,4 MB
Полезные
материалы
для руководителей
Скачать 3,2 MB
Елена Койгородова
Елена Койгородова печатает ...