Как работают поисковые системы ?

Поисковые системы стали частью нашей повседневной жизни. В месяц только лишь с одного Гугла делают более 100 миллиардов запросов. Это сумасшедшие цифры, учитывая, что существуют множество других более мелких поисковиков, ну а в россии, более половины всех запросов приходится на Яндекс.

Конечно, в этом нет ничего сверхестественного, так-как ежедневно, с помощью поисковиков люди ищут различную информацию, покупают товары, выбирают выгодный кредит и ипотеку, заказывают пиццу, продвигают бизнес и т.д. Впрочем вся онлайн жизнь человека во многом зависит от них, так-как именно эти сервисы ведут нас на нужный нам сайт.

Однако давайте все по-порядку и в этом видео вы узнаете историю и как работают поисковые системы, какие вообще бывают поисковики, сколько они зарабатывают и много другое, поэтому обязательно ставьте лайк этому видео и подписывайтесь на наш канал, так, вы стимулируете нас, к созданию нового интересного контента.

Краткая история поисковых систем

Давайте начнем с краткой историей поисковиков.

Основные этапы развития поисковых систем приходятся на период с 1993 по 1998 год.

Краткая история поисковых систем

В 1993 году был создан первый поисковик в той форме которую мы знаем сегодня. Он носил название Wandex, а разработал его молодой парень по имени Мэттью Грей. Wandex сканировала сайты и искала поисковый запрос, по заголовкам страниц сайтов в интернете.

В 1994 году, основанный на технологии Wandex, поисковик WebCrawler, начал индексировать не только заголовки, ну и полный текст сайтов. Это позволило поисковику давать больше более точных результатов по запросу.

Система Yahoo, была основана в 1994 году и одним из ее крупнейших вкладов в интернет-поиск стала служба каталогов, состоящая из большой коллекции авторитетных сайтов.

В этом же году был создан поисковик Lycos, который обрел большую популярность и многие веб-мастера, добавляли свои сайты в каталог данного сервиса.

Однако все же переломный момент произошел в декабре 1995 году, когда была создана полноценная поисковая система AltaVista. Поисковик использовал 20 многопроцессорных серверов, и все они были поддержаны, самой мощной на тот момент вычислительной системой. Это была самая быстрая поисковая система, которая могла обрабатывать миллионы поисковых запросов в день.

Важным нововведением AltaVista было включение поиска естественного языка, это означало, что пользователи могли напечатать любую фразу или вопрос и получить на нее интеллектуальный ответ.

Еще не менее переломным моментом был 1996 год, когда студенты Стэнфордского университета Ларри Пейдж и Сергей Брин, решили что поисковые системы должны анализировать сайты в зависимости от того, сколько раз слова, используемые при поиске, появлялись на веб-страницах. Благодаря этому, они создали новый алгоритм под названием PageRank.

Краткая история поисковых систем

Вслед, а именно в 1998 году, вместе с полнофункциональным поисковиком появилась и сама компания Google.

Новая поисковая система, просто разнесла в хлам всех своих конкурентов и в 2002 году Google занял лидирующее положение на рынке. Начиная с 2004 года доля Google на рынке неуклонно растет, а компания ежегодно расширяется и выдает новые продукты.

Ну а компания Яндекс была основана в 2000 году и благодаря инновациям в искусственном интеллекте, Яндекс может легко работать с российской терминологией при поиске на зарубежных ресурсах, благодаря чему в отдельных нишах обгоняет зарубежные технологии.

Принцип работы поисковиков

Главная цель любого современного поисковика, это выдать максимально релевантный и полезный для пользователя поисковый результат, а в частности, сайт, в котором пользователь сможет найти нужную ему информацию или воспользоваться нужной ему услугой. Принцип работы всех поисковых систем почти одинаковый, а проходит он в 3 основных этапа: сканирование, индексирование, показ результатов поиска.

Сканирования

На этапе сканирования, специальный алгоритм изучает весь контент в интернете и пытается найти новый сайт или уже обновленный контент, а также добавить его в индекс Google. Индекс это по сути самая важная составляющая любого современного поисковика, однако о нем мы поговорим чуть позже.

Сканирования

Для того, чтобы отсканировать миллиарды страниц, так-как именно столько алгоритм и обрабатывает, у Google, есть программа, которая собственно и выполняет сканирование и называется она googlebot, если бот нашел новый контент, то дальше сканирует его для обнаружения ссылок ведущих на другой веб-сайт. И скажем по принципу “паутины”, он обнаруживает множество ссылающихся на друг друга веб-сайтов. Тем ни менее, бот не посещает абсолютно каждый сайт. Чтобы попасть в список проверяемых, веб-ресурс должен быть рассмотрен, как достаточно важный.

Также, в сканирование могут попасть сайты, которые зарегистрировались через специальный сервис для веб-мастеров под название Google Search Console. С помощью него владельцы веб-сайтов, могут отслеживать эффективность страниц, поисковых запросов и т.д.

Индексирование

При индексировании алгоритм пытается определить тематику сайта, какой у него контент и вообще есть ли запрещающий контент, а также алгоритм умеет распознавать текст и медиафайлы находящиеся на страницы. В процессе, специальный алгоритм под названием Panda, сканирует веб-страницу на наличие оригинального авторского контента, и в случае обнаружение, он дает страницы высокий рейтинг, если же контент скопирован или имеет множество материалов, которые нарушают авторские права, то соответственно рейтинг страницы снижают.

Одним словом, при индексировании, алгоритм проводит полный анализ контента содержащийся на сайте, а также помимо основного, существует множество и других алгоритмов, например алгоритм Penguin, который обнаруживает спам, алгоритм Page Layout, который проверят, используется ли 

на сайте слишком много агрессивной рекламы или алгоритм Hummingbird, который нужен чтобы максимально точно понимать запрос пользователя, например когда вы пишите слово “погода”, чтобы не выдавалось определение термина, а показывался прогноз погоды.

Именно на этом этапе строится вся поисковая база, а именно индекс, о котором мы говорили ранее. Индекс это база данных, в котором хранится весь контент веб-сайтов. Именно сюда ссылается google, когда в очередной раз принял поисковый запрос от пользователя. То есть когда пользователь вводит “Как защитить конфиденциальность в интернете”, система анализирует всю индексную базу, которая состоит из несколько миллионов серверов по всему миру, и опираясь на него, находит наиболее релевантный источник.

Вообще. для того чтобы эффективно хранить информацию о миллиардах страниц в базе данных поисковой системы, Google использует крупные центры обработки данных в Европе, Азии, Северной и Южной Америке.

Показ результатов поиска

Как я уже говорил, когда пользователь вводит поисковый запрос, Google в своем индексе, опираясь при этом на самые разные факторы (а их на секунду более 200 штук), далее ищет наиболее подходящие результаты. К таким факторам относятся местоположение, язык, тип устройства пользователя (компьютер или телефон) и т. д.

Показ результатов поиска

Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь вы в Москве или в Киеве. Ранжирование выполняется естественно по алгоритмам Google, и компания, никак не повышает рейтинг страниц за плату.

Результаты, которые считаются более релевантными для пользователя, намеренно получают более высокий ранг, чем результаты, которые имеют меньше шансов обеспечить адекватный ответ.

Заключение

Все 3 этапа, а именно сканирование, индексирование и показ результатов происходит не тогда, когда пользователь ввел запрос. Такая система была бы не совсем корректной, так-как поисковик, долго выдавал бы ответ, всего лишь на 1 запрос пользователя. Ну а основная задача любой поисковой системы, это дать моментальный результат.

Например 1 этап, а именно сканирование, происходит безостановочно. То есть бот работает бесперебойно 24/7, чтобы найти как можно больше источников или обнаружить обновление контента в уже найденных страницах.

Этап индексирования происходит после того, как бот добавил страницу в очередь на обработку контента. При этом в работу вступают другие алгоритмы проверки, которые я приводил ранее.

Этап показ результатов поиска происходит соответственно когда пользователь ввел поисковый запрос. При этом специальный алгоритм пытается понять запрос, не на основе ключевых слов, а на основе естественного языка. То есть чтобы когда пользователь вводил слово пицца, ему предлагались различные магазины, где они смогут его заказать.

Какие существуют поисковики помимо Google

Немногие знают, что помимо привычных Google и Яндекса, существуют и другие поисковики.

Какие существуют поисковики помимо Google

Например популярный yahoo, который славится новостными статьями в финансовом секторе, занимает около 2% всего рынка.

Поисковик от компании Microsoft под названием Bing, занимает около 3%.

На 3 месте по популярности идет поисковик Яндекс. Учитывая, что он занимает больше половины рынка в россии и определенную часть в странах СНГ, на мировом рынке он занимает около 1%.

Далее идет китайский поисковик Baidu, который также является монополистом на своем рынке. Как и Яндекс, он занимает около 1% всего рынка. 

Также есть и более конфиденциальный поисковик под названием  DuckDuckGo. Он не собирает персонализированную информацию о пользователе и является относительно безопасным вариантом для тех, кто не хочет, чтобы следили за его историей поиска.

Из таких интересных также могу выделить поисковик Ask.com. Он был создан в 1996 году и основным фокусом является поиск ответов на вопросы.

На отечественном рынке и вообще в СНГ, также существуют такие поисковики как Поиск mail.ru, который в последнее время, за счет изменения алгоритмов, улучшил выдачу поисковых ответов и Рамблер, который по большей части является каталогом и медийно-сервисным интернет порталом.

Как и сколько зарабатывают поисковики

Любой бизнес должен приносить прибыль. Ребята из компании Google, построили просто сверхдоходную бизнес модель. Несмотря на то, что компания основана в США, сегодня она получает прибыль со всего мира. По итогам 2020 года,  холдинг Alphabet, которая собственно и владеет всеми продуктами Google, получил чистую прибыль в размере $40 млрд.

Как и сколько зарабатывают поисковики

Основной источник дохода IT гиганта, а именно около 83% - это конечно же контекстная реклама. Реклама в основном размещается в сервисах поиска Google и на YouTube.

Сегодня Google, это уже не просто поисковик, а универсальная технологическая компания, которая работает в широком сегменте рынка IT. Поэтому, существуют и другие источники дохода, а именно лицензионные сборы операционной системы Android, облачные сервисы Google Cloud, продажа смартфонов Google Pixel и т.д.

Также есть и множество онлайн сервисов от Google, некоторые из которых в определенной степени монетизируются тем-самым принося прибыль.

Российская компания яндекс, также является очень прибыльной. За последние 5 лет, акции компании выросли на 213%, а чистая прибыль в 2020 году составила $326 млн. Всему этому способствовал рост технологических внедрений компании, например искусственный интеллект, облачные вычисления, различные сервисы например электронный кошелек, такси, доставка и т.д.

Основной доход компании, идет с рекламных интеграций на множестве площадках, например через поисковик, яндекс дзен и яндекс эфир. Однако за последний год, ввиду пандемии и всей этой истории с короновирусом, рекламные компании, намного сократились, а вот довольно таки успешный сервис яндекс такси, приносит неплохую, стабильную прибыль компании.

Заключение

Чтобы объяснить как работают поисковые системы, одного видео конечно же мало. Однако я попытался быстро и максимально просто объяснить основные базовые принципы работы поисковиков. Поэтому, если вам понравился ролик и вы хотите увидет множество подобного контента, то обязательно ставьте лайк этому видео и подписывайтесь на канал. Также не забывайте делиться своим мнением в комментариях. Ну а я как всегда не прощаюсь.