Вопросы, рассмотренные в материале:
-
Что такое стоп-слова в тексте
-
Какие бывают стоп-слова и выражения
-
Почему поисковые роботы игнорируют стоп-слова
-
Каким должен быть хороший текст для людей и роботов
-
Как проверить текст на наличие стоп-слов
Не каждый может написать действительно хороший текст, хотя писателей и копирайтеров сейчас очень много. Большая часть статей, написанных частными исполнителями, – малосодержательна. В них минимум полезной информации. Стоп-слова в тексте делают статью неинтересной, неудобной для восприятия. Это отталкивает читателя, и человек, зайдя на страницу, почти сразу ее покидает.
Что такое стоп-слова в тексте
Существует категория слов, удаление которых из текста не только не нарушает его смысла, а, даже наоборот, делает более понятным, простым для восприятия. Их и называют стоп-словами.
Американский профессор Уильям Странк-мл. в своей небольшой книге «Элементы стиля» (1920 г., США) перечислил правила, помогающие писать доступно и интересно. Одной из распространенных ошибок при этом профессор называет использование лишних слов.
Динамичный текст должен быть емким – эту мысль еще тогда первым высказал Уильям Странк. Лишние слова портят предложение, а лишние предложения перегружают абзац, так же, как на картине не нужны лишние мазки, а лишние детали помешают работе механизма.
Это не призыв сокращать каждое предложение до минимума, упускать важные подробности и давать описания в общих чертах. Это рекомендация не использовать стоп-слова в тексте, они не несут смысловой нагрузки и только мешают восприятию.
Подобные рекомендации есть в книге редактора и переводчика Норы Галь «Слово живое и мертвое», вышедшей в СССР (1972 г.). Автор призывает не использовать канцеляризмы, отглагольные существительные (вместо глаголов), излагать просто, без излишней официальности, меньше использовать слов иностранного происхождения, больше русских и стараться быстро ухватить самую суть.
Данное направление получило развитие, в этом заслуга передовых журналистов, лингвистов и людей, умеющих писать и чувствующих слово. Сформировались новые рекомендации для тех, кто занимается написанием текстов и статей. Лишние «мусорные» слова были классифицированы.
В наши дни тема приобрела еще большую актуальность, стремительно развивается Интернет, появляются новые стили письма. «Стоп-слова» – это уже почти официальная терминология, которой обозначаются те отрывки, которым можно не придавать значения.
Сейчас уже существуют алгоритмы, придуманные специально для того, чтобы подсчитывать стоп-слова в тексте. Сформировались новые термины: «переспам», «тошнота», «водность» и пр. Определение «стоп-слово» применяется теперь к целым фразам, а не только к отдельным словам.
Ни в одном из существующих языков стоп-слова не являются запрещенными для использования, авторы могут применять их по своему усмотрению. Но, как правило, текст, не наполненный стоп-словами, воспринимается намного лучше.
Задача редактора – определить, насколько полезно использование стоп-слова в каждом конкретном случае. Слова, не несущие смысловой нагрузки, редактор удаляет, а те, что имеют значение для текста, оставляет.
Вас также может заинтересовать: Оптимизация интернет-сайтов: гайд для новобранцев
Простые примеры стоп-слов в тексте
Текст с лишними словами | Просто текст |
Мороз стоял сильный, следовательно, уроки в школе отменили. |
Из-за мороза уроки в школе отменили. |
Из всех проживающих в Англии этот самый богатый человек в тот день был самым несчастным среди других. |
Богатейший человек Англии в тот день был самым несчастным. |
Естественно, я убедился, что ваша прекрасная внешность действительно соответствует всем вашим душевным качествам. |
Я убедился, что душа ваша так же прекрасна, как и внешность. |
Я, несомненно, кое-что знаю о настоящих причинах того большого внимания, которым он постоянно окутывает вас. |
Я знаю, почему он к вам так внимателен. |
Разумеется, примеров, которые дают полное представление о том, что такое стоп-слова, на самом деле, можно привести очень много. |
Есть много примеров, где стоп-слова в тексте встречаются слишком часто. |
Какие бывают стоп-слова в обычном тексте: 14 категорий
На сегодняшний день лингвисты, отвечая на вопрос «Что это такое стоп-слова в тексте?», включают в это понятие более 2000 слов. Для простоты использования их сгруппировали в 14 категорий.
-
Междометия: ах, ух, ну, уж, ой.
-
Местоимения: я, мы, мой, вы, ваш.
-
Неопределенность: где-то, что-то, зачем-то, как-то, какой-то, около, порядка, примерно, всего.
-
Вводные структуры: на самом деле, допустим, скажем, например, в общем.
-
Слова-усилители: предельно, максимально, наиболее, очень, самый, абсолютно, сильно.
-
Оценочные: роскошный, уютный, красивый, дорогой (не следует сочетать их со словами из предыдущего пункта).
-
Очевидные формулировки: данный документ, этот сайт, на данной странице, кликните эту кнопку, нажмите тут, форма внизу страницы.
-
Бытовые штампы: направо и налево, сплошь и рядом, шаг за шагом, так или иначе, мало-помалу.
-
Штампы, характерные для прессы: ударными темпами, пески времени, царила атмосфера, в лучших традициях.
-
Штампы корпоративного или рекламного характера: индивидуальный подход, решать бизнес-задачи, завоевать доверие клиентов, расширить географию продаж.
-
«Временные» слова-паразиты: в наши дни, в настоящее время, в современном мире.
-
Словосочетания с отглагольными существительными: оказывать услуги по ремонту, производить ремонт, осуществлять деятельность.
-
Модальные фразы: нужно пройти процедуру, можете авторизоваться, должны завершить заказ.
-
Страдательные глаголы и сказуемые в безличных предложениях: спорткомплекс построен по заказу мэрии, леса вырубают.
Кто-то скажет, что список слишком большой (в особенности его вторая половина). Здесь не имеется в виду, что стоп-слова в тексте – это плохие и недопустимые слова. Важно научиться использовать их обдуманно, наделить каждое смысловой нагрузкой.
Еще 7 видов стоп-слов, которые портят текст
Опытные журналисты и авторы статей для Интернета не останавливаются на том, чтобы использовать как можно меньше «мусорных» слов. Они подходят к делу серьезнее.
Важный момент – простота текста, при этом смысл не должен теряться. Не следует путать простоту с примитивностью. Текст может нести серьезную смысловую нагрузку, освещать сложные понятия и термины. При этом нет причин выражать суть слишком сложно, если можно сделать это проще.
Упростить – не означает бездумно выбросить куски текста. В первую очередь это суметь найти стоп-слова в тексте и избавиться от них. Текст станет чище, однако не потеряет от этого смысловую насыщенность.
-
Вводные конструкции
-
Оценки
-
Штампы
-
Заумные слова
-
Отглагольные слова
-
Неопределенные слова
-
Брехня
Одна из самых простых групп стоп-слов. Их просто заметить и удалить из текста.
Словосочетания вида «не секрет» или «всем известно» заманчивы для использования, но ни к чему писать лишний раз, что факт широко известен, если об этом и так все знают.
Хорошо, если в тексте есть примеры, но слова «например» нужно стараться избегать.
Пришли вы в магазин. Например, за молоком. |
Вот пришли вы в магазин за хлебом. |
Еще один пример стоп-слова в тексте – «кстати». Не нужно специально подчеркивать, если что-то пришлось кстати, это и само по себе понятно.
Вечером перед сном не следует есть что-то жирное и калорийное. Кстати, калорийность нашего йогурта всего 1,5 кКал. |
В нашем йогурте полторы килокалории, поэтому его можно есть вечером перед сном. |
Лучшая оценка, это та, которую человек может сделать, опираясь на собственный опыт. Если дальний знакомый будет уверять вас в том, что его друг успешный бизнесмен, вряд ли вам удастся ясно представить себе этого друга. Скорее всего, вы не сможете сравнить его успехи со своими собственными, подумать о сотрудничестве с ним. Заверения малознакомого человека для вас мало значат.
Текст, содержащий оценочные суждения автора, получается пустым. Оценка будет восприниматься убедительно, если подкрепить ее реальными фактами или вовсе заменить. Автор должен проделать большую работу, вникнуть в тему, разобраться с техническими терминами, изучить данные статистики, пообщаться с производителями и т. д.
Мгновенная загрузка компьютера. |
Использование твердотельного жесткого диска гарантирует загрузку компьютера в течение трех секунд. |
Полезное лакомство. |
Зерновые хлопья с фруктовой начинкой, обогащенные кальцием и витаминами. |
Высокая процентная ставка, удобное обслуживание. |
21,5 % годовых в рублях; возможность доставки карты на дом заказчику. |
Еще одна разновидность стоп-слова в тексте – штамп. Это широко известное и часто используемое сочетание слов, которое не очень понятно по смыслу, или его можно заменить одним словом.
Одна из разновидностей штампов – корпоративные штампы. Они так же не нужны в тексте, как и оценки. Вместо них приведите конкретные факты или полезные сведения.
Нам доверяют самые крупные компании на рынке. |
Разработанные нами системы используются для защиты нефтеперерабатывающих заводов «Газпром нефти» и центрального офиса Сбербанка. |
С уверенностью можно сказать, что это тоже стоп-слова в тексте. Чем проще у вас получается изложить суть, тем лучше. Текст воспринимается легко, если в нем используются простые слова.
Кадровый аппарат ведомства продемонстрировал положительную тенденцию в области производительности труда. |
Работа сотрудников отдела улучшилась. |
Не стоит смешивать понятия «заумные слова» и «термины». Если очевидно, что без сложного слова не обойтись и оно точно подходит по значению, то его не нужно убирать.
Заумно | Термин по делу |
Доминантная тема мероприятия — права человека. |
Примеры доминантных генетических признаков человека – веснушки и ямочки. |
Чтение текста вызывает в голове у читателя визуальную картинку. Она получается интересной и динамичной, если текст наполнен действием.
Обычно это выражают при помощи глаголов. Но случается, что автор передает действие завуалированно, проявляя некую нерешительность. Действие есть, но оно спрятано за отглагольными существительными, которые тоже считаются стоп-словами в тексте.
Они занимаются производством фильмов и видеороликов. |
Они снимают фильмы и видеоролики. |
Текст, который легко себе представить, всегда интересен для чтения, в голове как будто прокручивается кино. Неопределенные слова – это стоп-слова в тексте, которые не несут конкретной информации и не поддаются представлению.
К берегам Норвегии переместили более восьми нефтяных вышек. |
К берегам Норвегии переместили девять нефтяных вышек. |
Нашей разработкой пользуются более 20 000 клиентов. |
У нас 20 тысяч пользователей. |
Читателю не всегда интересно точное количество клиентов или вышек. Ему достаточно примерной величины, чтобы иметь представление о вопросе.
Под брехней подразумеваются туманные формулировки, которые фактически не лживы, но и правдой тоже не являются. Это разновидность стоп-слов в тексте, которую используют для усиления значения шаткой, ничем не подтвержденной мысли.
Подобные определения очень неубедительны. Они не обязательно появляются от того, что автор умышленно хочет соврать, а просто из-за его лени. Вместо того чтобы разыскать реальные факты, журналист использует общие абстрактные формулировки.
Неубедительно | Убедительно |
Генетики делают работу полиции
Все чаще случается, что полиция не справляется со своей непосредственной работой и генетики выполняют то, что должны делать полицейские. Можно заявить, что главным способом продиагностировать редкие болезни и разыскать по ним людей становятся генетические исследования. |
Версальского вора удалось разыскать по ДНК
Пять месяцев поиска Версальского вора принесли свои плоды. Преступником оказался брат начальника охраны музея. Его вычислили с помощью генетического анализа частичек кожи, оставленных на стаканчике, из которого вор отпил во время преступления. |
Подход поисковых машин в поиске стоп-слов в тексте
Ежедневно в базы поисковиков попадает огромное количество страниц. Для экономии пространства поисковые машины не берут в расчет некоторые слова, не учитывают цифры, одиночные местоимения, часть букв. На них проставляется специальная маркировка, и роботы их «не замечают».
Использование ключевых слов для поиска информации существенно увеличивает список стоп-слов. Появился новый термин «шумовые» слова, введенный в обиход программистами.
Что значит «стоп-слова в тексте» для поискового алгоритма?
Шумовые (те же стоп-слова) – это слова (символика, знаки), которые в отрыве от всего остального текста не имеют никакого смысла. Поисковики «не видят» их в процессе индексации или ранжирования сайтов. Однако без них текст теряет свою целостность и читабельность.
Контент без стоп-слов будет неполноценен, его не смогут нормально воспринимать ни читатели, ни поисковые системы. Стоп-слова в тексте дают возможность органично наполнить его ключевыми фразами, использовать предлоги и знаки препинания для объединения несогласованных между собой слов.
Для каждого поисковика (типа «Яндекса» или «Гугла») составляются свои собственные перечни шумовых слов, которые постоянно обновляются. Перечислить их все не представляется возможным.
Но можно заметить, что существуют две основные группы, на которые делят все стоп-слова: общие и зависимые.
-
Общие: союзы, местоимения, частицы, предлоги, наречия, вводные слова, однозначные числа. Кроме того, распространенные служебные слова, символика, знаки препинания, самостоятельные части речи. Не так давно в этот список вошли часто встречающиеся наборы символов из Интернета, типа www, http, com.
-
Зависимые: те, которые ключевые запросы определяют как слова второстепенного значения.
Стоп-слова в тексте, относящиеся ко второй категории, зависят от фразы, внесенной в поисковик. Смысл в том, чтобы в найденном документе отсутствие обычных слов и зависимых стоп-слов (из фразы запроса) учитывалось по-разному.
Если ввести в строку поисковика «Лев Николаевич Толстой», то, скорее всего, интерес для пользователя будут представлять документы, где есть:
-
Толстой, Лев, Николаевич;
-
Толстой, Лев;
-
Николаевич, Толстой;
-
Толстой.
И нет смысла показывать страницы, где найдется только:
-
Лев, Николаевич;
-
Лев;
-
Николаевич.
Шумовые слова в этом запросе – Лев и Николаевич.
В процессе индексации приведенные выше шумовые слова поисковые роботы убирают из текстов и из ключевых фраз (когда идет определение, подходит ли документ под данный запрос). Программа ставит на их места специальные символы, так называемые маркеры.
Эта процедура снижает нагрузку на сервер, уменьшает размеры индекса, позволяет разумно использовать пространства баз данных. Стоп-слова в тексте запроса удаляют еще и для того, чтобы снизить количество операций по поиску каждой составляющей ключевой фразы. А это, в свою очередь, увеличивает скорость и эффективность поиска необходимых данных и позволяет сохранить релевантность запроса.
Слова в тексте для SEO-продвижения
Интересный и важный момент – как стоп-слова влияют на SEO-тексты. При формировании контента серьезное значение имеют такие факторы:
-
каким будет восприятие текста читателями;
-
как будут видеть текст роботы поисковых систем.
Текст, составленный только из слов, несущих смысловую нагрузку, нечитабелен. Людям трудно его воспринимать.
Слишком большое количество стоп-слов в тексте, шумовых отступлений, лишних словосочетаний делает его непригодным для результативного восприятия поисковыми системами.
Цель SEO-продвижения – сбалансировать контекст по информативности и читабельности.
Задача непростая, ведь одна и та же статья представляет интерес для очень разных пользователей. Кто-то хорошо знаком со словом «дилемма» и свободно им пользуется, а для другого человека это непонятный страшный термин. Одни свободно воспринимают в статье слова «контент» и «лендинг», а другие не разберутся, если не написано проще: «содержание страницы» и «сайт-одностраничник».
Поэтому весь контент в Интернете разбит на категории: продающую, информационную, развлекательную и т. д. Для каждой категории правила использования стоп-слов в тексте неодинаковы. На автора ложится ответственность решить, где слово или фраза необходимы, а в каком месте их следует считать шумовыми («лишним мусором»).
Поисковые роботы не принимают в расчет шумовые лексемы при изучении страницы, так как они не содержат смысла. Большое количество «мусорных» слов повышает водность и тошноту текста, а его релевантность падает. Полезной информации в таком контенте мало, он плохо воспринимается пользователями и ухудшает ранжирование сайта.
Однако, если удалить почти все стоп-слова в тексте, он станет странным, неестественным. Такой текст невозможно запросто прочесть. Теряется логичность, а отчасти и смысл написанного. Например, поисковые роботы не умеют распознавать иронию, переносное значение, отрицания. Читатель воспримет такой контент как бессмысленный набор фраз.
Важно суметь создать равновесие между словами, необходимость которых под вопросом, и теми, которые однозначно следует удалить. Распространенная ошибка авторов, работающих в инфостиле – убрать из текста все местоимения. Содержание получается сухим, похожим на телеграмму. Вот пример:
Консультируем по земельным вопросам. Составляем акты на землю. Вносим объект в Госкадастр. |
Мы даем консультации по земельным вопросам: продажа земельного участка, оформление прав собственности, раздел, объединение. Наши специалисты проводят замеры для составления акта на землю. |
Первый вариант очень короткий, без местоимений и конкретной информации. Второй не назовешь отличным, однако по нему видно, что излишняя краткость для продающего текста – только минус.
Количество второстепенных лексических единиц, по заключению SEO-профессионалов, не должно превышать 30 % от всего объема слов в статье. Для определения этого соотношения существуют программы. Не нужно спешить выбросить из статьи все, что программа выделила как «мусор». Следует отталкиваться от того, как воспринимается текст, легко ли его читать.
Нелишним будет снова напомнить, что хоть поисковые системы и не обращают внимания на стоп-слова в тексте, без них невозможно написать связный материал, способный привлечь интерес пользователей. Важно научиться чувствовать равновесие между явным недостатком и очевидным переизбытком шумовых слов, уметь создавать сбалансированное отношение с общим объемом текста и фразами-ключами.
Отсутствие или недостаток второстепенных слов в тексте делает материал сухим, плохо читаемым, удобным для поисковых систем, однако абсолютно непривлекательным для пользователей сайта. А перенасыщенность шумовыми словами повышает водность, размывает смысл, усложняет восприятие сути статьи.
Норма стоп-слов в тексте – примерно 30 % от общего количества лексических единиц. Уровень приемлемой тошноты, которая также зависит от процентного содержания стоп-слов, расписан в таблице.
Количество символов | Количество слов | Допустимая тошнота текста* |
До 1000 |
~166 |
До 3 |
До 2000 |
~335 |
До 3,5 |
До 3000 |
~500 |
До 4 |
До 4000 |
~668 |
До 4,5 |
До 5000 |
~833 |
До 5 |
До 6000 |
~1000 |
До 5,5 |
До 7000 |
~1166 |
До 6 |
*Здесь приведены средние значения, примерно подходящие для любой тематики.
Всегда нужно помнить, что роботы поисковых систем все стоп-слова заменят маркерами и будут их пропускать. Учитывайте это, когда создаете поисковые запросы, ключевые фразы для SEO-текстов и определяете плотность их вхождения. При этом важно, чтобы материал не потерял читабельность. Существует ряд сервисов и программ (специально предназначенных для проведения SEO-анализа), которые выявляют норму стоп-слов в тексте.
Онлайн-сервисы для проверки текста на стоп-слова
Многие авторы с большой неприязнью относятся к идее проверять качество написанного материала через придуманные сервисы: типа, как робот может оценить гармоничность полета мысли? Здесь можно возразить: не обязательно то, что автор считает идеальным, в действительности не содержит ошибок. Это могут быть как системные недочеты, так и самоповторы, неуникальность материала, неправильная орфография, описки и многое другое.
Специально разработанные сервисы находят стоп-слова, определяют их количество, проверяют материал на тошноту. Весьма популярна у веб-разработчиков TEXTUS PRO – простая в использовании программа, в которой необходимые параметры можно настраивать.
С помощью этой программы можно:
-
определить, какие есть стоп-слова в тексте и сколько их;
-
выявить их конкретные места расположения;
-
проверить материал на тошноту;
-
определить число слов, знаков (с пробелами и без них);
-
выявить частоту вхождения ключей и их местоположение.
Многие онлайн-сервисы умеют находить стоп-слова и определять количество воды в тексте.
-
Тext.ru
-
бесплатный, легок в использовании, объем материала для проверки – до 15 тыс. знаков;
-
автоматически находит орфографические ошибки, проводит SEO-проверку, выявляет тошноту и водность;
-
делает анализ страниц сайтов и документов;
-
не отбрасывает устойчивые словосочетания (имеет большое значение, если материал узкоспециализированный).
-
Advego
-
«Главред»
-
в онлайне проверяет материал в течение 3–5 секунд;
-
дает возможность увидеть статью под другим углом, понять принципы написания качественных текстов;
-
не просто выделяет неудачные слова и обороты, но дает к ним пояснения, подсказывает варианты перефразирования;
-
находит и предлагает замену для сомнительных фраз и слов;
-
позволяет вносить правки прямо в онлайн-окне, на других фрагментах метки при этом остаются.
-
не анализирует уместность «сомнительных» слов в контексте, поэтому даже в случае их оправданного использования может занижать оценку;
-
не работает над орфографическими и пунктуационными ошибками;
-
на текст в кавычках смотрит как на цитату и не проверяет его;
-
слова с опечатками игнорирует, не видит ошибок в них и не учитывает при анализе.
-
«ТУРГЕНЕВ»
-
Istio
Это популярная биржа контента, где есть и сервис проверки. Он проводит анализ уникальности, выявляет плагиат и рерайт. Разработчики подчеркивают использование программой «эффективных алгоритмов для глубокой и точной проверки».
Сервис онлайн-проверки Text.ru не только анализирует уникальность, но и определяет норму стоп-слов в тексте, процент спама и воды.
Программа работает «в пределах разумного» и отбрасывает как воду или спам только фразы и обороты, не несущие важного смысла.
Плюсы сервиса:
Бесплатный инструмент, который в онлайне проводит семантический анализ текстов. Определяет количество знаков в документе, водность, заспамленность и академическую тошноту.
SEO-проверка в качестве «мусора» отбрасывает частицы, союзы и предлоги.
Инструмент находит и удаляет общие фразы, штампы, стоп-слова в тексте, канцеляризмы, неподходящие обобщения, воду. Он выявляет все эти недочеты и помогает их исправлять. Отлично работает с рекламными, информационными текстами, заметками, статьями, деловыми письмами.
Для оценки документа используется 10-бальная дробная система. Это позволяет дорабатывать статью в онлайне и тут же видеть, как улучшаются показатели.
«Главред» выявляет мусор и помогает его убрать. Материал после этого воспринимается легче, полезная информация освобождается от лишней «шелухи».
Сервис оценивает водность текста, но не проверяет на уникальность и тошноту.
Плюсы инструмента:
Минусы:
Задумывался как способ противостояния фильтру «Баден-Баден». Сравнительно новый инструмент, анализирующий документ на водность и неинформативность.
За несколько секунд проверяет предоставленный материал. Анализирует стиль, удобство восприятия, количество воды.
Инструмент дает SEO-оценку документу, проверяет орфографию, находит стоп-слова в тексте, шаблоны, лишнюю воду. Умеет «понять» тематику материала, дает анализ ключевым словам и фразам, формирует облачную «карту» слов, использованных чаще всего.
Обладает удобным интерфейсом и при этом мощным и многоплановым функционалом.
Плюсы:
-
более широкий набор инструментов в сравнении с другими сервисами;
-
высокая скорость работы;
-
удобный информативный интерфейс;
-
проводит углубленный анализ документа и выдает подробную статистику.
Минусы:
-
может ошибиться с определением тематики. В тексте словарное ядро «интеллект, поведение, отрасль» программа восприняла как подходящее для тематики «погода, работа, прочее». Почему – непонятно.
-
странно рассчитывается водность. Она не может быть целых 50 % в информационной статье, причем проверка этого же материала на других ресурсах выдает результат не выше 20 %.