Яку роботу виконують роботи павуки пошукових систем? Що таке пошуковий робот? Функції пошукового робота "Яндекса" та Google. Що робить пошуковий робот

Всупереч поширеній думці, робот безпосередньо не займається будь-якою обробкою документів, що скануються. Він їх лише зчитує та зберігає, далі їхню обробку здійснюють інші програми. Наочне підтвердження можна отримати, аналізуючи логи сайту, що індексується вперше. При першому візиті бот спочатку просить файл robots.txt, потім головну сторінку сайту. Тобто йде по єдиному відомому йому засланню. На цьому перший візит робота завжди і закінчується. Через деякий час (зазвичай наступного дня) робот запитує наступні сторінки - за посиланнями, які знайдені на вже зчитаній сторінці. Далі процес триває у тому порядку: запит сторінок, посилання куди вже знайдено - пауза на обробку лічених документів - наступний сеанс із запитом знайдених посилань.

Розбір сторінок «на льоту» означав би значно б пробільшу ресурсомісткість робота та втрати часу. Кожен сервер сканування запускає безліч процесів-ботів паралельно. Вони повинні діяти максимально швидко, щоб встигнути зчитувати нові сторінки та повторно перечитувати вже відомі. Тому боти лише зчитують та зберігають документи. Все, що вони зберігають, ставиться у чергу на обробку (розбирання коду). Знайдені під час обробки сторінок посилання ставляться у чергу завдань для роботів. Так і йде безперервне сканування усієї мережі. Єдине, що бот може і повинен аналізувати "на льоту" - це файл robots.txt, щоб не вимагати адреси, які в ньому заборонені. При кожному сеансі сканування сайту робот в першу чергу запитує цей файл, а вже після нього - всі сторінки, що стоять у черзі на сканування.

Види пошукових роботів

Кожна пошукова система має свій набір роботів для різних цілей.
В основному вони різняться за функціональним призначенням, хоча кордони дуже умовні, і кожен пошуковик розуміє їх по-своєму. Системам тільки для повнотекстового пошуку цілком достатньо одного робота на всі випадки життя. У тих пошукачів, які зайняті не лише текстом, боти поділяються як мінімум на дві категорії: для текстів та малюнків. Існують також окремі боти, зайняті специфічними видами контенту – мобільним, блоговим, новинним, відео тощо.

Роботи Google

Всі роботи Google мають назву Googlebot. Основний робот-індексатор «представляється» так:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Цей бот зайнятий скануванням HTML-сторінок та інших документів для основного пошуку Google. Він зрідка зчитує файли CSS і JS - в основному це можна помітити на ранній стадії індексування сайту, поки бот обходить сайт вперше. Типи контенту, що приймаються, - все (Accept: */*).

Другий з основних роботів зайнятий скануванням зображень із сайту. Він «видається» просто:

Googlebot-Image/1.0

Ще в логах помічені як мінімум три боти, зайняті збором контенту для мобільної версіїпошуку. Поле User-agent всіх трьох закінчується рядком:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Перед цим рядком – модель мобільного телефона, з якою цей бот сумісний. У помічених роботів це моделі телефонів Nokia, Samsung та iPhone. Типи контенту, що приймаються, - все, але із зазначенням пріоритетів:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботи Яндекса

З пошуковиків, що активно діють у Рунеті, найбільша колекція ботів у Яндекса. У розділі допомоги для вебмайстрів можна знайти офіційний список всього особового складу павука. Наводити його тут немає сенсу, оскільки в цьому списку періодично відбуваються зміни.
Тим не менш, про найважливіші для нас роботи Яндекса треба згадати окремо.
Основний індексуючий роботна даний момент зветься

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Раніше представлявся як

Yandex/1.01.001 (compatible; Win16; I)

Зчитує HTML-сторінки сайту та інші документи для індексування. Список медіатипів раніше був обмежений:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

З 31 липня 2009 року у цьому списку було помічено суттєве розширення (кількість типів майже подвоїлося), а з 10 листопада 2009 року список укоротився до */* (усі типи).
Цього робота жваво цікавить цілком певний набір мов: російська, дещо менш українська та білоруська, ще трохи менше англійська і зовсім мало – всі інші мови.

Accept-Language: ru, uk; q = 0.8, be; q = 0.8, en; q = 0.7, *; q = 0.01

Робот-сканер зображеньнесе у полі User-agent рядок:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Займається скануванням графіки різних форматів для пошуку картинок.

На відміну від Google, Яндекс має окремі боти для обслуговування деяких спеціальних функційзагального пошуку.
Робот-«дзеркальник»

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Нічого особливо складного не робить – періодично з'являється та перевіряє, чи збігається чи головна сторінка сайту при зверненні до домену з www. і без. Також перевіряє паралельні домени-«дзеркала» на збіг. Очевидно, дзеркалами та канонічною формою доменів в Яндексі займається окремий програмний комплекс, Не пов'язаний безпосередньо з індексуванням. Інакше рішуче нема чим пояснити існування цієї мети окремого бота.

Складальник іконок favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Періодично з'являється та запитує іконку favicon.ico, яка потім з'являється у пошуковій видачі поруч із посиланням на сайт. З яких причин цей обов'язок не поєднує збирач картинок, невідомо. Очевидно, також має місце окремий програмний комплекс.

Перевірочний ботдля нових сайтів, працює при додаванні до форми AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Цей бот перевіряє відгук сайту, посилаючи запит HEAD до кореневого URL. Таким чином перевіряється існування головної сторінкиу домені та аналізуються HTTP-заголовки цієї сторінки. Також бот запитує файл robots.txt у корені сайту. Таким чином, після подання посилання в AddURL визначається, що сайт існує і ні в robots.txt, ні в HTTP-заголовках не заборонено доступ до головної сторінки.

Робот Рамблера

Нині вже не працює, оскільки Рамблер зараз використовує пошук Яндекса
Робота-індексатора Рамблера легко впізнати у логах по полю User-agent

StackRambler/2.0 (MSIE incompatible)

У порівнянні з "колегами" з інших пошукових систем цей бот здається зовсім простим: не вказує список медіатипів (відповідно, отримує запитаний документ будь-якого типу), поле Accept-Language у запиті відсутнє, у запитах бота не зустрінуто також поле If-Modified-since .

Робот Mail.Ru

Про цей робот поки відомо небагато. Розробку власного пошуку портал Mail.Ru веде вже давно, але все ніяк не збереться пошук запустити. Тому достовірно відомо лише найменування робота в User-agent - Mail.Ru/2.0 (раніше - Mail.Ru/1.0). Назва бота для директив файлу robors.txt ніде не публікувалося, є припущення, що бота так і слід звати Mail.Ru.

Інші роботи

Пошук в інтернеті, звісно, ​​не обмежується двома пошуковими системами. Тому існують інші роботи - наприклад робот Bing - пошукової системи від Microsoft та інші роботи. Так, зокрема, в Китаї є національна пошукова система Baidu – але її робот навряд чи долетить до середини річки дійде до російського сайту.

Крім того, останнім часом розплодилося багато сервісів – зокрема solomono – які хоч і не є пошуковими системами, але також сканують сайти. Часто цінність передачі інформації про сайт таким системам сумнівна, і тому їх роботів можна заборонити

Як функціонують роботи пошукових систем

Пошуковий робот (павук, бот) є невеликою програмою, здатною без участі оператора відвідувати мільйони web-сайтів і сканувати гігабайти текстів. Зчитування сторінок та збереження їх текстових копій – це перша стадія індексації нових документів. Слід зазначити, що роботи пошукових систем не здійснюють жодної обробки отриманих даних. У їхнє завдання входить тільки збереження текстової інформації.

Більше відео на нашому каналі - вивчайте інтернет-маркетинг із SEMANTICA

Список пошукових роботів

З усіх пошукачів, що займаються скануванням Рунету, найбільшу колекцію ботів має Яндекс. За індексацію відповідають такі роботи:

  • головний робот, що індексує, збирає дані зі сторінок web-сайтів;
  • бот, здатний розпізнавати дзеркала;
  • пошуковий робот Яндекс, який здійснює індексацію картинок;
  • павук, що переглядає сторінки сайтів, прийнятих у РМК;
  • робот сканування іконки favicon;
  • кілька павуків, які визначають доступність сторінок сайту.

Головний пошуковий робот Google займається збиранням текстової інформації. В основному він переглядає html-файли, з певною періодичністю аналізує JS та CSS. Здатний приймати будь-які типи контенту, дозволені до індексації. ПС Google має павук, що контролює індексацію зображень. Існує також пошуковий робот – програма, що підтримує функціонування мобільної версії пошуку.

Побачити сайт очима пошукового робота

Щоб виправити помилки коду та інші недоліки, вебмастер може дізнатися, як бачить сайт пошуковий робот. Цю можливість надає ПС Google. Потрібно перейти в інструменти для вебмайстрів, а потім натиснути на вкладку «сканування». У вікні потрібно вибрати рядок «переглянути як Googlebot». Далі потрібно завести адресу сторінки, що досліджується, у пошукову форму (без вказівки домену та протоколу http://).

Вибравши команду «отримати та відобразити», вебмастер зможе візуально оцінити стан сторінки сайту. Для цього знадобиться натиснути на галочку «запит на відображення». Відкриється вікно із двома версіями web-документа. Вебмайстер дізнається, як бачить сторінку звичайний відвідувач, і як вона доступна для пошукового павука.

Порада! Якщо аналізований web-документ ще не проіндексований, то можна скористатися командою "додати в індекс" >> "сканувати тільки цей URL". Павук проаналізує документ за кілька хвилин, найближчим часом web-сторінка з'явиться у видачі. Місячний ліміт запитів на індексацію складає 500 документів.

Як вплинути на швидкість індексування

З'ясувавши, як працюють пошукові роботи, вебмайстер зможе набагато результативніше просувати свій сайт. Однією з основних проблем багатьох молодих веб-проектів є погана індексація. Роботи пошукових систем неохоче відвідують неавторитетні інтернет-ресурси.
Встановлено, що швидкість індексації залежить від того, з якою інтенсивністю оновлюється сайт. Регулярне додавання унікальних текстових матеріалів дозволить привернути увагу пошукової системи.

Для прискорення індексації можна скористатися соцзакладками та сервісом Twitter. Рекомендується сформувати карту сайту Sitemap та завантажити її у кореневу директорію web-проекту.

Пошуковим роботом називається спеціальна програмабудь-якої пошукової системи, яка призначена для занесення до бази (індексування) знайдених в Інтернеті сайтів та їх сторінок. Також використовуються назви: краулер, павук, бот, автоматичнийindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип роботи

Пошуковий робот – це програма браузерного типу. Він постійно сканує мережу: відвідує проіндексовані (вже відомі йому) сайти, переходить за посиланнями з них та знаходить нові ресурси. При виявленні нового ресурсу робот процедур додає його до індексу пошуковика. Пошуковий робот також індексує поновлення на сайтах, періодичність яких фіксується. Наприклад, оновлюваний раз на тиждень сайт відвідуватиметься павуком з цією частотою, а контент на сайтах новин може потрапити в індекс вже через кілька хвилин після публікації. Якщо на сайт не веде жодне посилання з інших ресурсів, для залучення пошукових роботів ресурс необхідно додати через спеціальну форму (Центр вебмайстрів Google, панель вебмайстра Яндекс і т.д.).

Види пошукових роботів

Павуки Яндекса:

  • Yandex/1.01.001 I - основний бот, що займається індексацією,
  • Yandex/1.01.001 (P) - індексує картинки,
  • Yandex/1.01.001 (H) — знаходить дзеркала сайтів,
  • Yandex/1.03.003 (D) — визначає, чи відповідає сторінка, додана з панелі вебмайстра, параметрам індексації,
  • YaDirectBot/1.0 (I) - індексує ресурси з рекламної мережіЯндекса,
  • Yandex/1.02.000 (F) - індексує фавікон сайтів.

Павуки Google:

  • Робот Googlebot - основний робот,
  • Googlebot News — сканує та індексує новини,
  • Google Mobile - індексує сайти для мобільних пристроїв,
  • Googlebot Images — шукає та індексує зображення,
  • Googlebot Video - індексує відео,
  • Google AdsBot — перевіряє якість цільової сторінки,
  • Google Mobile AdSense та Google AdSense- Індексує сайти рекламної мережі Google.

Інші пошукові системи також використовують роботів декількох видів, функціонально схожих з перерахованими.

Як працюють пошукові машини? Однією з чудових властивостей Інтернету є те, що існують сотні мільйонів web-ресурсів, які чекають і готові бути представленими нам. Але погано те, що є самі мільйони сторінок, які, навіть нам потрібні, не з'являться маємо, т.к. просто невідомі нам. Як дізнатися, що і де можна знайти в Інтернеті? Зазвичай ми звертаємося до допомоги пошукових машин.

Пошукові інтернет машини є спеціальні сайти в глобальної мережі, які зроблені так, щоб допомогти людям відшукати в всесвітньому павутиннюпотрібну їм інформацію. Є відмінності в способах, якими пошукові машини виконують свої функції, але в цілому є 3 основні та однакові функції:

Всі вони "обшукують" інтернет (або якийсь сектор інтернет) - на основі заданих ключових слів;
- усі пошукові системи індексують слова, які вони шукають і місця, де вони їх знаходять;
- всі пошукові системи дозволяють користувачам шукати слова або комбінації з ключових слів на основі вже проіндексованих та занесених до своїх баз даних web-сторінок.

Найперші пошукові системи індексували до кількох сотень тисяч сторінок і отримували 1,000 - 2,000 запитів на день. Сьогодні топові пошуковики проіндексували та індексують у безперервному режимі сотні мільйонів сторінок, обробляють десятки мільйонів запитів на день. Нижче буде розказано про те, як же працюють пошукові системи і яким чином вони "складають" всі шматочки знайденої інформації так, щоб зуміти відповісти на будь-яке питання, що нас цікавить.

Подивимося на Web

Коли люди говорять про пошукових інтернетмашинах, вони насправді мають на увазі пошукові машини World Wide Web. Перш, ніж Web став найбільш видимою частиною інтернету, вже існували пошукові машини, які допомагали людям знайти в мережі інформацію. Програми під назвою "gopher" та "Archie" вміли індексувати файли, розміщені на різних серверах, приєднаних до інтернет Internetі багато разів знижували тимчасові витрати на пошук потрібних програмчи документів. Наприкінці 80-х років минулого століття синонімом "вміння працювати в інтернеті" було вміння використовувати gopher, Archie, Veronica і т.п. пошукові програми Сьогодні більшість інтернет користувачів обмежують свій пошук тільки всесвітньою мережею, або WWW.

Маленький початок

Перед тим, як відповісти вам де знайти потрібний документ або файл, цей файл або документ має бути вже колись знайдений. Щоб знайти інформацію про сотні мільйонів існуючих WEB-сторінок, пошукова машина застосовує спеціальну програму-робот. Ця програма ще називається спайдер ("spider", павук) і служить для створення списку слів, знайдених на сторінці. Процес побудови такого списку називається web-краулінг(Web crawling). Щоб далі побудувати та зафіксувати "корисний" (має значення) список слів, пошуковий павук повинен "переглянути" масу інших сторінок.

Як же починає будь-хто павук(Spider) свою подорож по мережі? Зазвичай стартової точкою є найбільші світові сервери і дуже популярні веб-сторінки. Павук починає свій шлях з такого сайту, індексує всі знайдені слова і продовжує рух далі, за посиланнями на інші сайти. Таким чином, робот-павук починає охоплювати все більші "шматки" web-простору. Google.com починався з академічної пошукової системи. У статті, що описує, як була створена ця пошукова машина, Сергій Брін і Лауренс Пейдж (засновники та власники Google) навели приклад, як швидко працюють гуглівські павуки. Їх кілька і зазвичай пошук починається із використанням 3-х павуків. Кожен павук підтримує до 300 одночасно відкритих з'єднань із web-сторінками. При піковому завантаженні, з використанням 4-х павуків, система Google здатна обробити 100 сторінок за секунду, генеруючи трафік близько 600 кілобайт/сек.

Щоб забезпечити павуків необхідними для обробки даними, раніше Google мав сервер, який займався тільки тим, що "підкидав" павукам все нові і нові URL. Щоб не залежати від інтернет-сервісу провайдерів у частині серверів доменних імен (DNS), що транслюють url в IP адресу, Google обзавівся власним сервером DNS, звівши всі тимчасові витрати на індексацію сторінок до мінімуму

Коли Google робот відвідує HTML сторінку, він бере до уваги 2 речі:

Слова (текст) на сторінці;
- місце розташування (у якій частині body сторінки).

Слова, розташовані зі службових розділів, таких як title, subtitles, meta tagsта ін позначалися як особливо важливі для пошукових запитів користувача. Google павук був побудований так, щоб індексувати кожне подібне слово на сторінці, за винятком вигуків типу "a," "an" і "the.". Інші пошукові системи мають дещо інший підхід до індексації.

Всі підходи та алгоритми пошукових систем в кінцевому підсумку спрямовані на те, щоб змусити роботів павуків працювати швидше та ефективніше. Наприклад, деякі пошукові роботи відстежують при індексації слова в title, посиланнях і до 100 слів, що найчастіше використовуються, і навіть кожне зі слів перших 20 рядків текстового змісту сторінки. Такий алгоритм індексації, зокрема, у Lycos.

Інші пошукові системи, такі як AltaVista, йдуть в іншому напрямку, індексуючи кожне окреме слово сторінки, включаючи "a," "an," "the" та інші неважливі слова.

Мета-теги (Meta Tags)

Метатеги дозволяють власнику web-сторінки задавати ключові слова та поняття, які визначають суть її змісту. Це дуже корисний інструмент, особливо коли ці ключові слова можуть повторюватися до 2-3 разів у тексті сторінки. У цьому випадку мета-теги можуть "направити" пошуковий робот до потрібного вибору ключових слів для індексації сторінки. Існує ймовірність "накрутки" мета-тегів понад популярними пошуковими запитами та поняттями, ніяк не пов'язаними із змістом самої старниці. Пошукові роботивміють боротися з цим шляхом, наприклад, аналізу кореляції мета-тегів та вмісту web-сторінки, "викидаючи" з розгляду ті мета-теги (відповідно ключові слова), які не відповідають вмісту сторінок.

Все це стосується тих випадків, коли власник web-ресурсу дійсно бажає бути включеним у пошукові результати за потрібними пошуковими словами. Але часто буває так, що власник зовсім не хоче бути проіндексованим роботом. Але такі випадки не стосуються теми нашої статті.

Побудова індексу

Як тільки павуки закінчили свою роботу з знаходження нових web-сторінок, пошукові машини повинні розмістити всю знайдену інформацію так, щоб було зручно надалі користуватися нею. Тут мають значення 2 ключові компоненти:

Інформація, збережена разом із даними;
- метод, яким ця інформація проіндексована.

У найпростішому випадку, пошуковик міг би просто розмістити слово та URL-адресу, де воно знаходиться. Але це зробило б пошуковик зовсім примітивним інструментом, тому що немає жодної інформації про те, в якій частині документа знаходиться це слово (мета-тегах, або у звичайному тексті), чи використовується це слово один раз або багаторазово і чи міститься воно у посиланні інший важливий та близький за темою ресурс. Іншими словами, такий спосіб не дозволить ранжувати сайти, не забезпечить подання користувачам релевантних результатів тощо.

Щоб надати нам корисні дані, пошукові системи зберігають не тільки інформацію зі слова та його URL-адресу. Пошуковик може зберегти дані про кількість (частоту) згадок слова на сторінці, присвоїти слову "вага", що далі допоможе видавати пошукові лістинги (результати) на основі вагового ранжування за даним словом, з урахуванням його місцезнаходження (у посиланнях, мета тегах, титулі сторінки і т.п.). Кожен комерційний пошуковик має свою формулу для обчислення "ваги" ключових слів при індексації. Це одна з причин, чому з одного і того ж пошуковому запитупошукові системи видають зовсім різні результати.

Наступний важливий моментдля обробки знайденої інформації - її кодування з метою зменшення обсягу дискового простору для її збереження. Наприклад, в оригінальній статті Google описано, що для зберігання вагових даних слів використовується 2 байти (по 8 біт кожен) - при цьому враховується вид слова (великими або великими літерами), розмір самих літер (Font-Size) та ін. яка допомагає ранжувати сайт. Кожен такий " шматочок " інформації вимагає 2-3 біта даних у повному 2-байтном наборі. В результаті величезний обсяг інформації вдається зберігати у дуже компактному вигляді. Після того, як інформація "стиснута", настав час приступати до індексації.

Ціль індексація одна: забезпечити максимально швидкий пошукнеобхідної інформації. Існує кілька шляхів для побудови індексів, але найефективніший - це побудова хеш-таблиць(hash table). При хешуванні використовується певна формула, за допомогою якої кожному слову надається деяке чисельне значення.

У будь-якій мові існують літери, з яких починається набагато більше слів, ніж з літер алфавіту. Наприклад, слів на букв "M" у розділі англійського словника значно більше, ніж на букву "X". Це означає, що пошук слова, що починається з найпопулярнішої літери, потребує більше часу, ніж будь-яке інше слово. Хешінг(Hashing) зрівнює цю різницю і зменшує середній час пошуку, і навіть поділяє сам індекс реальних даних. Хеш таблиця містить хеш-значення разом із покажчиком на дані, що відповідають цьому значенню. Ефективна індексація + ефективне розміщення разом забезпечують високу швидкість пошуку, навіть якщо користувач задасть дуже складний пошуковий запит.

Майбутнє пошукових систем

Пошук, заснований на булевських операторах ("and", "or", "not") - це літерний пошук - пошуковик отримує пошукові слова так, як вони введені. Це може викликати проблему, коли, наприклад, введене слово має багато значень. "Ключ, наприклад" може означати "засіб для відкриття дверей", а може означати "пароль" для входу на сервер. Якщо вас цікавить лише одне значення слова, то вам, очевидно, будуть не потрібні дані щодо його другого значення. Можна, звичайно, побудувати буквальний запит, який дозволить виключити виведення даних за непотрібним значенням слова, але було б непогано, якби пошуковик зміг сам допомогти вам.

Одна з областей досліджень у галузі алгоритмів майбутніх пошукових машин – це концептуальний пошук інформації. Це такі алгоритми, як для знаходження релевантних даних використовується статистичний аналіз сторінок, що містять дане пошукове ключове слово або фразу. Зрозуміло, що такій "концептуальній пошуковій машині" буде потрібно набагато більший обсяг для зберігання даних про кожну сторінку і більше часу для обробки кожного запиту. В даний час багато дослідників працюють над цією проблемою.

Не менш інтенсивно ведуться роботи та в галузі розробки пошукових алгоритмів на основі запитів природної мови(Natural-Language query).

Ідея природних запитів полягає в тому, що ви можете написати запит так, ніби запитали про це колегу, що сидить навпроти вас. Не треба турбуватися про булевських операторів або напружуватися для складання складного запиту. Найпопулярніший на сьогодні пошуковий сайт на основі мови природних запитів – це AskJeeves.com. Він перетворює запит на ключові слова, які потім і використовує під час індексування сайтів. Цей підхід працює лише у разі простих запитів. Однак, прогрес не стоїть на місці, можливо, що зовсім скоро ми "розмовлятимемо" з пошуковими машинами своєю, "людською мовою".

Друзі, я знову вітаю Вас! Зараз ми розберемо, що таке пошукові роботи і детально поговоримо про пошуковий робот google і як дружити з ними.

Спершу треба розуміти, що взагалі таке пошукові роботи, ще їх називають павуки. Яку роботу виконують павуки пошукових систем?

Це програми, що перевіряють сайти. Вони переглядають усі записи та сторінки на вашому блозі, збирають інформацію, яку потім передають у базу тієї пошукової системи, на яку вони працюють.

Не треба знати весь список пошукових роботів, найголовніше знати, що у гугла зараз з'явилися два основні павуки, які називаються «панда» та «пінгвін». Вони борються з неякісним контентом та сміттєвими посиланнями і треба знати як відбивати їх атаки.

Пошуковий робот google «панда» створений для того, щоб просувати у пошуку лише якісний матеріал. Усі сайти з низькопробним контентом знижуються у пошуковій видачі.

Вперше цей павук з'явився у 2011 році. До появи можна було просунути будь-який сайт публікуючи у статтях великий обсяг тексту і використовуючи величезний обсяг ключових слів. У сукупності ці два прийоми виводили на верх видачі пошуку не якісний контент, а хороші сайти знижувалися у видачі.

«Панда» одразу навів порядок перевіривши всі сайти та розставив усіх на свої заслужені місця. Хоча вона й бореться з низькопробним контентом, проте зараз можна просунути навіть невеликі сайти з якісними статтями. Хоча раніше такі сайти просувати було марно, вони не могли конкурувати з гігантами, у яких велика кількість контенту.

Зараз ми з вами розберемося, як можна уникнути санкцій панди. Потрібно спочатку зрозуміти що їй не подобається. Я вже писав вище, що вона бореться з поганим контентом, але якийсь текст для неї поганий, давайте розберемося в цьому, щоб не публікувати такий на своєму сайті.

Пошуковий робот google прагнутиме, щоб у цьому пошуковику видавалася тільки якісні матеріали для претендентів. Якщо у вас є статті в яких мало інформації і вони не привабливі зовні, то терміново перепишіть ці тексти, щоб панда не дісталася до вас.

Якісний контент може мати як великий обсяг, так і маленький, але якщо павук бачить довгу статтю з великою кількістю інформації, значить вона більше принесе користі читачеві.

Потім треба відзначити дублювання, тобто плагіат. Якщо ви думаєте, що переписуватимете чужі статті собі на блог, то можете відразу поставити хрест на своєму сайті. Копіювання суворо карається накладенням фільтра, а перевіряється плагіатдуже легко, я писав статтю на тему як перевіряти тексти на унікальність.

Наступне, що треба помітити, це перенасичення тексту ключовими словами. Хтось думає, що напише статтю з одних ключів і займе перше місце у видачі – дуже помиляється. У мене є стаття, як перевіряти сторінки на релевантність, обов'язково прочитайте.

І ще що може залучити до вас панду, так це старі статті, які застаріли морально і не приносять трафік на сайт. Їх треба обов'язково оновити.

Існує також пошуковий робот google «пінгвін». Цей павук бореться зі спамом та сміттєвими посиланнями на вашому сайті. Також він обчислює куплені посилання з інших ресурсів. Тому щоб не боятися цього пошукового робота, треба не займатися закупівлею посилань, а публікувати якісний контент, щоб люди самі на вас посилалися.

Зараз давайте сформулюємо, що треба зробити, щоб сайт очима пошукового робота виглядав ідеально:

  • Щоб зробити якісний контент, спочатку добре вивчіть тему, перш ніж писати статтю. Потім треба розуміти, що цією темою реально цікавляться люди.
  • Використовуйте конкретні прикладиі картинки, це зробить статтю живою та цікавою. Розбивайте текст на дрібні абзаци, щоб читати було легко. Ось, наприклад, якщо ви відкрили в газеті сторінку з анекдотами, то які спочатку прочитаєте? Звичайно кожна людина спочатку читає короткі тексти, потім довше і в останню чергу вже довгі онучі.
  • Улюблена причіпка «панди» — це не актуальність статті, в якій міститься застаріла інформація. Слідкуйте за оновленнями та змінюйте тексти.
  • Слідкуйте за щільністю ключових слів, як визначити цю щільність я написав вище, у сервісі про який я розповів ви отримаєте точну необхідну кількість ключів.
  • Не займайтеся плагіатом, всім відомо, що не можна красти чужі речі або тексту – це те саме. За крадіжку відповідатимете потраплянням під фільтр.
  • Тексти пишіть щонайменше на дві тисячі слів, тоді така стаття виглядатиме очима роботів пошукових систем інформативною.
  • Не уникайте теми вашого блогу. Якщо ви ведете блог із заробітку в інтернеті, то не треба друкувати статті про пневматичну зброю. Це може знизити рейтинг вашого ресурсу.
  • Красиво оформляйте статті, діліть на абзаци і додавайте картинки, щоб приємно було читати і не хотілося швидше піти з сайту.
  • Купуючи посилання, робіть їх на найцікавіші та найкорисніші статті, які реально читатимуть люди.

Ну ось зараз ви знаєте яку роботу виконують роботи пошукових систем та зможете з ними дружити. А найголовніше пошуковий робот google та «панда» та «пінгвін» вами докладно вивчений.




Top