Бесплатно

Семантический Ренессанс

Текст
iOSAndroidWindows Phone
Куда отправить ссылку на приложение?
Не закрывайте это окно, пока не введёте код в мобильном устройстве
ПовторитьСсылка отправлена
Отметить прочитанной
Шрифт:Меньше АаБольше Аа

лекторий ● Ссылки и ключи сохранятся

Продолжим тему промышленного характера поисковых технологий. Сторонний наблюдатель, даже хорошо образованный специалист, не сможет детально разобраться в нюансах этой науки/технологии. Вместе с тем, бизнесу нужно представлять себе, какие существуют


Весь предыдущий текст говорит о том, что теперь первостепенным является смысл материалов, их интеллектуальная насыщенность и ценность. Здесь важно, что «смысл» понимается в естественной человеческой традиции.

Несмотря на первостепенное значение «смыслового» параметра, позиция в рейтинге также зависит и будет зависеть еще от двух важнейших параметров:

● наличие и вес перекрестных ссылок;

● насыщенность текста ключевыми словами и их структура.

Чтобы разобраться с этими параметрами немного напомним историю поисковых технологий.



Поисковики начинали с простого поиска


Поисковые системы в Интернете появились практически синхронно с появлением сайтов, в начале 1990-х годов. Первые технологии были простым поиском вхождения одного текста в другом тексте. С таким поиском знакомы все пользователи текстовых редакторов, например, MS Word. Если вбить в строку поиска искомую фразу, то Ворд сходу покажет все вхождения фразы в документе. Первые поисковые технологии отличались от Ворда лишь существованием роботов-читателей. Это программы, которые обходят все страницы Интернета. Слово «обходят» означает, что роботы «читают» страницы. В процессе чтения робот создает краткий образ страницы, которые иногда называется индекс. Индексы всех страниц сохраняются в архиве поисковой компании. Профессионалы процесс «чтения» называют индексированием.

Соответственно, когда пользователь вводит поисковую фразу, то поисковая программа сравнивает фразу с индексами из базы данных. Все совпадения составляют поисковый результат, который выдается в виде последовательного списка пользователю.



Морфология, как цифровая проблема


Первая проблема Интернет-поиска появилась практически сразу, особенно, в русском языке. В языке представлены разные морфологические формы с чрезвычайно близким значением. Прежде всего падежи: бизнес, бизнеса, бизнесу и т.д. Плюс другие способы словообразования, например, видеть, видение, или наоборот, индекс, индексирование. Практически всегда пользователю интересны все морфологические варианты. самостоятельный перебор всех морфологических форм сейчас кажется нонсенсом.

В русском сегменте Интернета полную морфологическую унификацию произвел Яндекс в середине 1990-х на основе словаря академика А. Зализняка. Все формы от одно слова – падежи, числа, новообразования – приводились к одной единице. Морфологическая унификация позволила Яндексу выйти на первое место в Рунете.



Вечная проблема ранжирования


Следующей возникла проблема больших чисел. Число страниц в поисковых результатах стало невообразимо большим. Пример, сейчас Яндекс находит фразу «столешница» в 739 миллионах страниц! Слово «бизнес» содержится примерно в 1 миллиарде страниц. Простой текстовый поиск, как в Ворде, здесь уже не справляется. Конечно, можно уточнять текстовый поиск, удлинять фразу, использовать логические операторы И/ИЛИ. Все это сложно и начинает требовать от пользователя специальных навыков.

Именно здесь впервые возникает задача ранжирования. Как расставить страницы по степени нужности (интереса и т.п.) для пользователя.



Мета-теги и ключевые слова


Первым способом решения задачи ранжирования стало применение мета-тегов. Каждая веб-страница в соответствии с протоколом HTML имеет видимую и невидимую часть. Видимая компонента – это тот материал, который мы видим на своем экране. Невидимая часть создается владельцем веб-страницы и анализируется только компьютером без вывода на экран. В частности, роботы-поисковики видят веб-страницу полностью. Специально для поисковиков протокол HTML допустил включение в невидимую часть специальных разделов, «тегов», с помощью которых владелец страницы может позиционировать свою страницу. Поскольку эти теги описывают всю страницу, то они получили специальное название «мета-теги».

Для поиска наиболее важны три мета-тега:

title: название страницы, обыкновенно кратко, этот текст браузер выводит в названии вкладки

description: описание, обыкновенно размером в абзац

keywords: ключевые слова, ключи, список наиболее важных слов из текста, как правило, в именительном падеже


К примеру, если слово «бизнес» имеется и в названии, и в описании, и среди ключевых слов, а также внутри видимого текста, то подобная страница получит более высокий рейтинг по сравнению со страницами, которые содержат слово «бизнес» только в видимой части.

За прошедшие 20 лет поисковики по-разному воспринимали значения мета-тегов. Были периоды, когда поисковики, вероятно, даже игнорировали мета-теги и доверяли только своему анализу.

Скорее всего, на 2018 год большинство мета-тегов уменьшили свой вес для ранжирования. В частности, по причине появления новых протоколов структурирования, скажем «микроразметка».

Исключением являются ключевые слова, что связано с фундаментальной особенностью семантической структуры каждого языка – существованием постоянных частотных спектров.

Представим себе все реальные тексты на одном языке. Подсчитаем количество всех слов в таком объединении, причем одно и тоже слово будем учитывать столько раз, сколько оно встречается в текстах. Подсчитаем число вхождений для выделенного слова. Частота вхождения определяется как отношение двух этих чисел. Как следствие, появляется частотный словарь: лексические единицы, расположенные по убыванию частоты.

Частоту вождения можно рассчитать не только по всем текстам, но и по отельному тексту или по группе текстов. Скажем по группе, объединенной отраслевым признаком – медицина, математика, геология, финансы. Или по газетным текстам. Оказывается, что частотный словарь газетных текстов содержит всего 300-500 слов. Как ни покажется удивительным, но для выделения большинства отраслей достаточно 100-500 ключевых слов. Лишь талантливые писатели используют словарь из нескольких тысяч слов.

С некоторой условностью частота вхождения обладает свойством постоянности: частота по выделенному тексту примерно совпадает с частотой по группе текстов. Это как раз то, что мы можем сразу сказать после прочтения текста: это медицинский текст, это инженерный, это литература. Вывод мы делаем по высокочастотным словам. Точно также текст может анализировать и машина. Она просто сравнивает слова в тексте (семантические единицы) с частотными словарями разных отраслей.

Отметим, что в Интернете используется термин «частота поисковых запросов», который методологически весьма близок к общей семантической частоте.

Подробнее об использовании ключевых слов в бизнесе поговорим в разделе «Составляем семантический базис» (см. содержание).



Революция Гугла


Следующим и, пожалуй, революционным шагом в задаче ранжирования для того времени стало использование Гуглом перекрестных ссылок.

Гугл предложил и внедрил простую идею из реальной жизни. Если вызывающие у Вас доверие люди говорят «этот продукт известен с хорошей стороны», то Вы поверите, и с высокой вероятностью обратите свое внимание на этот известный продукт.

Перенос реалистических традиций произошел элементарно. Гугл сначала на экспертном, человеческом уровне выделил стартовый пакет сайтов. Думаю, в самом начале, это было примерно 1 тысяча штук. Этим сайтам присвоены максимальные рейтинги. Затем Гугл ввел примерно следующее правило:



Точно также, как в жизни. Рекомендация одного, но уважаемого, известного человека весит больше, чем рекомендации 10 малоизвестных Вам людей.

Успех Гугла был мгновенным и неоспоримым. Сама компания была настолько уверена в успехе, что оставила на главной поисковой странице только поле для ввода запроса и кнопку поиска.

Вслед за Гуглом все остальные компании начали строить и использовать свои перекрестные индексы, в том числе и наш, российский Яндекс.



Великая поисковая война


Дальше произошло непредвиденное. Открылась грандиозная 20-летняя война между поисковыми системами и массой неорганизованных варваров (SEO), стремящихся тем или иным способом обмануть поисковую систему. SEO – это аббревиатура благообразного словосочетания Search Engine Optimization (Оптимизация Поисковой Машины).

Как только ранжирование стало автоматическим, то точно такими же автоматическими способами можно было обмануть поисковую систему.

Самые простейшие способы обмана. Допустим, требуется вывести сайт на первое место в выдаче на заданные поисковые фразы, скажем «лекарство от гриппа».

Способ первый. Регистрируется 100 сайтов, это стоит совсем недорого. На всех сайтах размещаются веб-страницы со ссылками на нужный сайт.

Способ второй. Находят 100 сайтов, уже существующих в Интернете и имеющих не нулевой перекрестный индекс. За небольшую плату на этих сайтах размещают ссылки.

Возникли биржи где торгуют ссылками. Появился серый рынок обманного продвижения. Были моменты, когда казалось, что поисковики проигрывают, а за вполне нормальные деньги можно было вывести на первое место любую страницу.

 

Для Гугла и Яндекса начался кошмар войны. На каждый инструмент защиты СЕОшники придумывали новое оружие атаки. Кстати, именно эта война резко стимулировала поиски интеллектуальных технологий. Первоначально, поисковики использовали простые методы обороны. Например, все опасные сайты вносились в черные списки и исключались из поисковой индексации. Рост напряженности неизбежно подталкивал поисковые компании в сторону цифрового интеллекта.

О судьбе СЕО поговорим в следующем разделе.



О судьбе перекрестных индексов


Попробуем спрогнозировать судьбу перекрестных индексов. На первый взгляд кажется, что система перекрестных рекомендаций и система смысловой оценки не согласуются друг с другом с точки зрения чистой логики. Если цифровой интеллект является универсальным суперэкспертом, то никакие сторонние рекомендации не должны поколебать мнение суперэксперта, иначе он не суперпрофи.

С другой стороны, за 20 лет поисковые системы накопили гигантскую базу данных перекрестных ссылок. Отшлифовали и неоднократно модернизировали методики перекрестного индексирования. Отказываться от такого фундамента никто не будет. Поэтому совершенно очевидно,





Влияние новых ресурсов


Существует еще одна причина сохранения перекрестных ссылок – появление новых интегрирующих ресурсов.

Когда Гугл вводил перекрестные индексы в 1990-х, существовавшие в Интернете сайты были персонифицированы и привязаны к какому-то материальному лицу. Например, сайт какого-то человека, сайт производственной компании, сайт газеты и т.д. За прошедшие годы в Интернете появились ресурсы, никак не связанные прямо с материальным объектом. Прежде всего, речь идет о социальных сетях. Наряду с традиционными, редактируемыми СМИ появились новейшие платформы для публикаций, тот же YouTube.

Новые медиа, например, известный Хабр https://habr.com/, или рекламируемый автором самоВод, https://samovod.ru применяют все современные методики публикаций, которые, часто уже недоступны корпорациям в силу уникальности технологий.

Помимо информационной насыщенности новые медиа характеризуются конкурентным характером. В этом их сильное отличие от корпоративных сайтов. На том же YouTube размещено множество видео, противоречащих друг другу, что трудно представить на корпоративном сайте. Понятно, что конкуренция повышает качество (смысл) размещаемой информации, что как раз и привлекает поисковиков.

В результате к настоящему времени Интернет насыщен множеством ресурсов с информацией, которую неизбежно должны учитывать поисковые компании.


Сформулируем общий вывод.

1. Перекрестные ссылки и ключевые слова будут использоваться при многопараметрическом умном ранжировании.

2. Даже при полном переходе к смысловому ранжированию, не стоит ограничиваться публикациями на собственном сайте.

3. Из сторонних сайтов следует отдавать преимущество конкурентным платформам.

Купите 3 книги одновременно и выберите четвёртую в подарок!

Чтобы воспользоваться акцией, добавьте нужные книги в корзину. Сделать это можно на странице каждой книги, либо в общем списке:

  1. Нажмите на многоточие
    рядом с книгой
  2. Выберите пункт
    «Добавить в корзину»