ما العمل الذي تقوم به عناكب محركات البحث؟ ما هو روبوت البحث؟ وظائف روبوت البحث "ياندكس" وجوجل. ماذا يفعل روبوت البحث؟

وخلافًا للاعتقاد الشائع، لا يشارك الروبوت بشكل مباشر في أي معالجة للمستندات الممسوحة ضوئيًا. فهو يقرأها ويحفظها فقط، ثم تتم معالجتها بواسطة برامج أخرى. يمكن الحصول على تأكيد مرئي من خلال تحليل سجلات الموقع الذي تتم فهرسته لأول مرة. في الزيارة الأولى، يطلب الروبوت أولاً ملف robots.txt، ثم الصفحة الرئيسية للموقع. أي أنه يتبع الرابط الوحيد المعروف له. هذا هو المكان الذي تنتهي فيه الزيارة الأولى للروبوت دائمًا. بعد مرور بعض الوقت (عادةً في اليوم التالي)، يطلب الروبوت الصفحات التالية - باستخدام الروابط الموجودة في الصفحة التي تمت قراءتها بالفعل. ثم تستمر العملية بنفس الترتيب: طلب الصفحات التي تم العثور على روابط لها بالفعل - توقف مؤقت لمعالجة مستندات القراءة - الجلسة التالية مع طلب الروابط التي تم العثور عليها.

إن تحليل الصفحات بسرعة يعني أكثر من ذلك بكثير يازيادة استهلاك الموارد للروبوت وضياع الوقت. يقوم كل خادم فحص بتشغيل عمليات روبوت متعددة بالتوازي. يجب عليهم التصرف في أسرع وقت ممكن حتى يتوفر لديهم الوقت لقراءة الصفحات الجديدة وإعادة قراءة الصفحات الموجودة. لذلك، تقوم الروبوتات بقراءة المستندات وحفظها فقط. كل ما يقومون بحفظه يتم وضعه في قائمة الانتظار للمعالجة (تحليل التعليمات البرمجية). يتم وضع الروابط التي تم العثور عليها أثناء معالجة الصفحة في قائمة انتظار المهام للروبوتات. هذه هي الطريقة التي يتم بها فحص الشبكة بالكامل بشكل مستمر. الشيء الوحيد الذي يمكن للروبوت ويجب عليه تحليله بسرعة هو ملف robots.txt، حتى لا يطلب العناوين المحظورة فيه. أثناء كل جلسة زحف للموقع، يطلب الروبوت هذا الملف أولاً، وبعد ذلك، يتم وضع كافة الصفحات في قائمة الانتظار للزحف.

أنواع روبوتات البحث

يحتوي كل محرك بحث على مجموعته الخاصة من الروبوتات لأغراض مختلفة.
في الأساس، تختلف في الغرض الوظيفي، على الرغم من أن الحدود تعسفية للغاية، وكل محرك بحث يفهمها بطريقته الخاصة. بالنسبة لأنظمة البحث عن النص الكامل فقط، يكفي روبوت واحد لجميع المناسبات. بالنسبة لمحركات البحث التي لا تتعامل مع النص فقط، يتم تقسيم الروبوتات إلى فئتين على الأقل: للنصوص والرسومات. هناك أيضًا روبوتات منفصلة مخصصة لأنواع معينة من المحتوى - الهاتف المحمول، والمدونة، والأخبار، والفيديو، وما إلى ذلك.

روبوتات جوجل

يُطلق على جميع روبوتات Google مجتمعة اسم Googlebot. يقدم مفهرس الروبوت الرئيسي نفسه على النحو التالي:

Mozilla/5.0 (متوافق؛ Googlebot/2.1؛ +http://www.google.com/bot.html)

هذا الروبوت مشغول بمسح صفحات HTML والمستندات الأخرى للبحث الرئيسي بحث جوجل. كما أنه يقرأ أحيانًا ملفات CSS وJS - ويمكن ملاحظة ذلك بشكل رئيسي في المرحلة المبكرة من فهرسة الموقع، بينما يقوم الروبوت بالزحف إلى الموقع لأول مرة. أنواع المحتوى المقبولة كلها (قبول: */*).

الروبوت الثاني الرئيسي مشغول بمسح الصور من الموقع. إنها "تقدم نفسها" ببساطة:

Googlebot-Image/1.0

وشوهدت أيضًا ثلاثة روبوتات على الأقل في السجلات، مشغولة بجمع المحتوى لها اصدار المحموليبحث. ينتهي حقل وكيل المستخدم لجميع الثلاثة بالسطر:

(متوافق؛ Googlebot-Mobile/2.1؛ +http://www.google.com/bot.html)

قبل هذا الخط هو النموذج تليفون محمول، والذي يتوافق معه هذا الروبوت. الروبوتات المرقطة لديها نماذج هواتف نوكياوسامسونج وآيفون. أنواع المحتوى المقبولة كلها، ولكن مع تحديد الأولويات:

قبول: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

روبوتات ياندكس

من بين محركات البحث النشطة على RuNet، تمتلك Yandex أكبر مجموعة من الروبوتات. في قسم مساعدة مشرفي الموقع، يمكنك العثور على قائمة رسمية بجميع موظفي العنكبوت. ليس من المنطقي تقديمه هنا بالكامل، حيث تحدث التغييرات بشكل دوري في هذه القائمة.
ومع ذلك، يجب ذكر أهم روبوتات Yandex بشكل منفصل.
روبوت الفهرسة الأساسييسمى حاليا

Mozilla/5.0 (متوافق؛ YandexBot/3.0؛ +http://yandex.com/bots)

تم تمثيلها سابقًا كـ

Yandex/1.01.001 (متوافق؛ Win16؛ I)

يقرأ صفحات HTML الخاصة بموقع الويب والمستندات الأخرى للفهرسة. كانت قائمة أنواع الوسائط المقبولة محدودة سابقًا:

قبول: text/html، application/pdf؛q=0.1، application/rtf؛q=0.1، text/rtf؛q=0.1، application/msword؛q=0.1، application/x-shockwave-flash؛q=0.1، application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

منذ 31 يوليو 2009، لوحظ توسع كبير في هذه القائمة (تضاعف عدد الأنواع تقريبًا)، ومنذ 10 نوفمبر 2009، تم اختصار القائمة إلى */* (جميع الأنواع).
يهتم هذا الروبوت بشدة بمجموعة محددة جدًا من اللغات: الروسية، والقليل من الأوكرانية والبيلاروسية، والقليل من الإنجليزية، والقليل جدًا من اللغات الأخرى.

لغة القبول: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

روبوت ماسح الصوريحمل السطر التالي في حقل وكيل المستخدم:

Mozilla/5.0 (متوافق؛ YandexImages/3.0؛ +http://yandex.com/bots)

يشارك في مسح الرسومات بتنسيقات مختلفة للبحث في الصور.

على عكس جوجل، لدى ياندكس روبوتات منفصلة لخدمة البعض وظائف خاصةبحث عام.
روبوت "مرآة"

Mozilla/5.0 (متوافق؛ YandexBot/3.0؛ MirrorDetector؛ +http://yandex.com/bots)

لا يفعل أي شيء معقد بشكل خاص - فهو يظهر بشكل دوري ويتحقق مما إذا كانت الصفحة الرئيسية للموقع متطابقة عند الوصول إلى المجال باستخدام www. ودون. يتحقق أيضًا من النطاقات "المرآة" المتوازية بحثًا عن التطابقات. على ما يبدو، يتم التعامل مع المرايا والشكل المتعارف عليه للنطاقات في ياندكس بشكل منفصل حزمة البرامج، لا تتعلق مباشرة بالفهرسة. بخلاف ذلك، لا يوجد أي شيء على الإطلاق يفسر وجود روبوت منفصل لهذا الغرض.

جامع الأيقونات favicon.ico

Mozilla/5.0 (متوافق؛ YandexFavicons/1.0؛ +http://yandex.com/bots)

ويظهر بشكل دوري ويطلب أيقونة favicon.ico، التي تظهر بعد ذلك في نتائج البحث بجوار رابط الموقع. الأسباب التي تجعل جامع الصور لا يشارك في هذه المسؤولية غير معروفة. يبدو أن هناك أيضًا حزمة برامج منفصلة قيد التشغيل.

بوت التحققللمواقع الجديدة، يعمل عند إضافته إلى نموذج AddURL

Mozilla/5.0 (متوافق؛ YandexWebmaster/2.0؛ +http://yandex.com/bots)

يتحقق هذا الروبوت من استجابة الموقع عن طريق إرسال طلب HEAD إلى عنوان URL الجذر. بهذه الطريقة، يتم التحقق من وجود الصفحة الرئيسية في المجال ويتم تحليل رؤوس HTTP لهذه الصفحة. يطلب الروبوت أيضًا ملف robots.txt في جذر الموقع. وبالتالي، بعد إرسال الرابط إلى AddURL، تم تحديد أن الموقع موجود ولا تمنع رؤوس robots.txt أو HTTP الوصول إلى الصفحة الرئيسية.

روبوت رامبلر

حاليا لم تعد تعمل، نظرًا لأن Rambler يستخدم الآن بحث Yandex
يمكن التعرف بسهولة على روبوت مفهرس Rambler في السجلات من خلال حقل وكيل المستخدم

StackRambler/2.0 (MSIE غير متوافق)

بالمقارنة مع "الزملاء" من الآخرين محركات البحثيبدو هذا الروبوت بسيطًا جدًا: فهو لا يحدد قائمة بأنواع الوسائط (وبالتالي يتلقى المستند المطلوب من أي نوع)، وحقل قبول اللغة مفقود في الطلب، ولم يتم العثور على حقل If-Modified-since في طلبات الروبوت.

روبوت البريد.Ru

لا يُعرف سوى القليل عن هذا الروبوت حتى الآن. تعمل بوابة Mail.Ru على تطوير بحثها الخاص منذ فترة طويلة، لكنها لم تتمكن بعد من إطلاق هذا البحث. لذلك، فإن اسم الروبوت الموجود في وكيل المستخدم هو الوحيد المعروف على وجه اليقين - Mail.Ru/2.0 (سابقًا - Mail.Ru/1.0). لم يتم نشر اسم الروبوت لتوجيهات ملف robors.txt في أي مكان، وهناك افتراض بأن الروبوت يجب أن يسمى Mail.Ru.

الروبوتات الأخرى

البحث على الإنترنت، بطبيعة الحال، لا يقتصر على محركين للبحث. ولذلك هناك روبوتات أخرى - مثلا روبوت بينج - محرك البحث من ميكروسوفت وروبوتات أخرى. لذلك، على وجه الخصوص، يوجد في الصين محرك بحث وطني بايدو - ولكن من غير المرجح أن يصل الروبوت الخاص به إلى منتصف النهر ويصل إلى الموقع الروسي.

بالإضافة إلى ذلك، انتشرت في الآونة الأخيرة العديد من الخدمات - ولا سيما خدمة Solomono - والتي، على الرغم من أنها ليست محركات بحث، تقوم أيضًا بفحص المواقع. في كثير من الأحيان تكون قيمة نقل معلومات الموقع إلى مثل هذه الأنظمة موضع شك، وبالتالي يمكن حظر الروبوتات الخاصة بها

كيف تعمل روبوتات محركات البحث

روبوت البحث (العنكبوت، الروبوت) هو برنامج صغير يمكنه زيارة ملايين مواقع الويب ومسح غيغابايت من النصوص دون تدخل المشغل. قراءة الصفحات وتخزين النسخ النصية منها هي المرحلة الأولى لفهرسة المستندات الجديدة. تجدر الإشارة إلى أن روبوتات محرك البحث لا تقوم بأي معالجة للبيانات المستلمة. مهمتهم هي الحفاظ فقط معلومات نصية.

المزيد من مقاطع الفيديو على قناتنا - تعلم التسويق عبر الإنترنت مع SEMANTICA

قائمة روبوتات البحث

من بين جميع محركات البحث التي تقوم بفحص Runet، تمتلك Yandex أكبر مجموعة من الروبوتات. الروبوتات التالية مسؤولة عن الفهرسة:

  • روبوت الفهرسة الرئيسي الذي يجمع البيانات من صفحات الموقع؛
  • روبوت يمكنه التعرف على المرايا؛
  • روبوت بحث ياندكس، الذي يقوم بفهرسة الصور؛
  • عنكبوت يقوم بمسح صفحات المواقع التي تقبلها YAN؛
  • أيقونات الأيقونة المفضلة لمسح الروبوت؛
  • العديد من العناكب التي تحدد إمكانية الوصول إلى صفحات الموقع.

يقوم روبوت البحث الرئيسي في Google بجمع المعلومات النصية. في الأساس، يقوم بعرض ملفات HTML وتحليل JS وCSS على فترات زمنية معينة. القدرة على قبول أي نوع من أنواع المحتوى المسموح بالفهرسة. لدى PS Google عنكبوت يتحكم في فهرسة الصور. يوجد أيضًا روبوت بحث - وهو برنامج يدعم عمل النسخة المحمولة من البحث.

شاهد الموقع من خلال عيون روبوت البحث

لتصحيح أخطاء التعليمات البرمجية وأوجه القصور الأخرى، يمكن لمشرف الموقع معرفة كيف يرى روبوت البحث الموقع. يتم توفير هذه الفرصة بواسطة Google PS. ستحتاج إلى الانتقال إلى أدوات مشرفي المواقع، ثم النقر فوق علامة التبويب "الزحف". في النافذة التي تفتح، تحتاج إلى تحديد السطر "عرض كـ Googlebot". بعد ذلك، يتعين عليك إدخال عنوان الصفحة التي تبحث عنها في نموذج البحث (دون تحديد المجال وبروتوكول http://).

من خلال تحديد أمر "الحصول على وعرض"، سيتمكن مشرف الموقع من تقييم حالة صفحة الموقع بشكل مرئي. للقيام بذلك، تحتاج إلى النقر فوق مربع الاختيار "طلب العرض". سيتم فتح نافذة تحتوي على نسختين من مستند الويب. يتعرف مشرف الموقع على كيفية رؤية الزائر العادي للصفحة، وبأي شكل تكون متاحة لعنكبوت البحث.

نصيحة: إذا لم تتم فهرسة مستند الويب الذي تقوم بتحليله بعد، فيمكنك استخدام الأمر "إضافة إلى الفهرس" >> "فحص عنوان URL هذا فقط". سيقوم العنكبوت بتحليل المستند في بضع دقائق، وفي المستقبل القريب ستظهر صفحة الويب في نتائج البحث. الحد الشهري لطلبات الفهرسة هو 500 مستند.

كيفية التأثير على سرعة الفهرسة

بعد فهم كيفية عمل روبوتات البحث، سيتمكن مشرف الموقع من الترويج لموقعه بشكل أكثر فعالية. إحدى المشاكل الرئيسية للعديد من مشاريع الويب الناشئة هي ضعف الفهرسة. تحجم روبوتات محركات البحث عن زيارة موارد الإنترنت غير المصرح بها.
لقد ثبت أن سرعة الفهرسة تعتمد بشكل مباشر على كثافة تحديث الموقع. إن إضافة مواد نصية فريدة بانتظام سوف يجذب انتباه محركات البحث.

لتسريع الفهرسة، يمكنك استخدام الإشارات المرجعية الاجتماعية وخدمة تويتر. يوصى بإنشاء ملف Sitemap وتحميله إلى الدليل الجذر لمشروع الويب.

روبوت البحث مُسَمًّى برنامج خاصأي محرك بحث مصمم للدخول إلى قاعدة بيانات (فهرس) المواقع وصفحاتها الموجودة على شبكة الإنترنت. الأسماء المستخدمة أيضًا: الزاحف، العنكبوت، الروبوت، الفهرس التلقائي، النمل، webcrawler، bot، webscutter، webbots، webspider.

مبدأ التشغيل

روبوت البحث هو برنامج من نوع المتصفح. يقوم بمسح الشبكة باستمرار: يزور المواقع المفهرسة (المعروفة بالفعل)، ويتبع الروابط منها ويبحث عن موارد جديدة. عندما يتم اكتشاف مورد جديد، يقوم روبوت الإجراء بإضافته إلى فهرس محرك البحث. يقوم روبوت البحث أيضًا بفهرسة التحديثات على المواقع، والتي يتم تحديد تكرارها. على سبيل المثال، الموقع الذي يتم تحديثه مرة واحدة في الأسبوع سيزوره العنكبوت بهذا التردد، ويمكن فهرسة المحتوى الموجود على المواقع الإخبارية خلال دقائق من النشر. إذا لم تكن هناك روابط من موارد أخرى تؤدي إلى الموقع، فمن أجل جذب روبوتات البحث، يجب إضافة المورد من خلال نموذج خاص (مركز مشرفي المواقع من Google، لوحة مشرفي المواقع ياندكس، وما إلى ذلك).

أنواع روبوتات البحث

العناكب ياندكس:

  • Yandex/1.01.001 I - الروبوت الرئيسي المشارك في الفهرسة،
  • Yandex/1.01.001 (P) - فهرسة الصور،
  • Yandex/1.01.001 (H) - يجد مواقع المرآة،
  • Yandex/1.03.003 (D) - يحدد ما إذا كانت الصفحة المضافة من لوحة مشرفي المواقع تتوافق مع معلمات الفهرسة،
  • YaDirectBot/1.0 (I) - يقوم بفهرسة الموارد من شبكة اعلانيةياندكس،
  • Yandex/1.02.000 (F) - يقوم بفهرسة أيقونات الموقع المفضلة.

العناكب جوجل:

  • Googlebot هو الروبوت الرئيسي
  • أخبار Googlebot - أخبار المسح والفهرسة،
  • Google Mobile - فهرسة المواقع للأجهزة المحمولة،
  • صور Googlebot - يبحث في الصور ويفهرسها،
  • فيديو Googlebot - فهرسة مقاطع الفيديو،
  • Google AdsBot - يتحقق من جودة الصفحة المقصودة،
  • جوجل موبايل AdSense و جوجل ادسنس- فهرسة مواقع شبكة جوجل الإعلانية.

تستخدم محركات البحث الأخرى أيضًا عدة أنواع من الروبوتات التي تشبه وظيفيًا تلك المدرجة.

كيف عمل محركات البحث؟ أحد الأشياء الرائعة المتعلقة بالإنترنت هو أن هناك مئات الملايين من موارد الويب تنتظر وجاهزة لتقديمها إلينا. لكن الشيء السيئ هو أن هناك نفس الملايين من الصفحات التي، حتى لو كنا في حاجة إليها، لن تظهر أمامنا، لأن... ببساطة غير معروف لنا. كيف تعرف ماذا وأين يمكنك أن تجد على الإنترنت؟ للقيام بذلك، نلجأ عادة إلى محركات البحث.

محركات البحث على الإنترنت هي مواقع خاصة في شبكة عالمية، والتي تم تصميمها لمساعدة الأشخاص في العثور على شبكة الانترنتالمعلومات التي يحتاجونها. هناك اختلافات في طريقة أداء محركات البحث لوظائفها، ولكن بشكل عام هناك 3 وظائف رئيسية ومتطابقة:

جميعهم "يبحثون" في الإنترنت (أو في بعض قطاعات الإنترنت) - بناءً على كلمات رئيسية معينة؛
- تقوم كافة محركات البحث بفهرسة الكلمات التي تبحث عنها والأماكن التي تجدها فيها؛
- تسمح جميع محركات البحث للمستخدمين بالبحث عن كلمات أو مجموعات من الكلمات الرئيسية بناءً على صفحات الويب المفهرسة والمدرجة بالفعل في قواعد بياناتها.

قامت محركات البحث الأولى بفهرسة ما يصل إلى عدة مئات الآلاف من الصفحات وتلقت ما بين 1000 إلى 2000 طلب يوميًا. اليوم، قامت أفضل محركات البحث بفهرسة مئات الملايين من الصفحات وفهرستها بشكل مستمر ومعالجة عشرات الملايين من الطلبات يوميًا. سنتحدث أدناه عن كيفية عمل محركات البحث وكيفية "تجميع" كل المعلومات التي تم العثور عليها حتى نتمكن من الإجابة على أي سؤال يهمنا.

دعونا نلقي نظرة على الويب

عندما يتحدث الناس عن محركات البحث على الإنترنتالآلات، فهي في الواقع تعني محركات البحث شبكة الانترنت. قبل أن تصبح الويب الجزء الأكثر وضوحًا في الإنترنت، كانت محركات البحث موجودة بالفعل لمساعدة الأشخاص في العثور على المعلومات على الإنترنت. تمكنت البرامج المسماة "gopher" و"Archie" من فهرسة الملفات الموجودة على خوادم مختلفة متصلة بها الإنترنت الإنترنتوقلل بشكل كبير من الوقت الذي تقضيه في البحث البرامج الضروريةأو الوثائق. في أواخر الثمانينات من القرن الماضي، كان مرادف "القدرة على العمل على الإنترنت" هو القدرة على استخدام غوفر، وأرتشي، وفيرونيكا، وما إلى ذلك. برامج البحث. اليوم، يقصر معظم مستخدمي الإنترنت بحثهم على فقط شبكة العالميةأو WWW.

بداية صغيرة

قبل أن نتمكن من إخبارك بمكان العثور على المستند أو الملف المطلوب، يجب أن يكون الملف أو المستند قد تم العثور عليه بالفعل. للعثور على معلومات حول مئات الملايين من صفحات الويب الموجودة، يستخدم محرك البحث برنامج روبوت خاص. يُسمى هذا البرنامج أيضًا "العنكبوت" ("العنكبوت") ويستخدم لإنشاء قائمة بالكلمات الموجودة في الصفحة. تسمى عملية إنشاء مثل هذه القائمة الزحف على شبكة الإنترنت(الزحف على شبكة الإنترنت). لمواصلة بناء والتقاط قائمة "مفيدة" (ذات معنى) من الكلمات، عنكبوت البحثيجب أن "تنظر" في الكثير من الصفحات الأخرى.

كيف يبدأ أي شخص؟ العنكبوت(العنكبوت) رحلتك على الويب؟ عادةً ما تكون نقطة البداية هي أكبر الخوادم في العالم وصفحات الويب المشهورة جدًا. يبدأ العنكبوت رحلته من هذا الموقع، ويقوم بفهرسة جميع الكلمات الموجودة ويواصل حركته أكثر، متبعًا الروابط إلى مواقع أخرى. وهكذا، يبدأ الروبوت العنكبوت في تغطية "أجزاء" كبيرة بشكل متزايد من مساحة الويب. بدأ Google.com كمحرك بحث أكاديمي. في مقال يصف كيفية إنشاء محرك البحث هذا، قدم سيرجي برين ولورنس بيج (مؤسسو جوجل ومالكوها) مثالاً على مدى سرعة عمل عناكب جوجل. يوجد العديد منها وعادة ما يبدأ البحث باستخدام 3 عناكب. يدعم كل عنكبوت ما يصل إلى 300 اتصال مفتوح بصفحات الويب في وقت واحد. عند ذروة التحميل، وباستخدام 4 عناكب، يكون نظام Google قادرًا على معالجة 100 صفحة في الثانية، مما يؤدي إلى توليد حركة مرور تبلغ حوالي 600 كيلو بايت/ثانية.

لتزويد العناكب بالبيانات التي تحتاج إلى معالجتها، كان لدى Google خادمًا لا يفعل شيئًا أكثر من تغذية العناكب بمزيد والمزيد من عناوين URL. لكي لا تعتمد على مزودي خدمة الإنترنت من حيث خوادم أسماء النطاقات (DNS) التي تترجم عناوين URL إلى عناوين IP، حصلت Google على خوادمها الخاصة خادم DNS، مما يقلل الوقت المستغرق في فهرسة الصفحات إلى الحد الأدنى.

عندما يزور Google Robot صفحة HTML، ويأخذ في الاعتبار شيئين:

الكلمات (النص) لكل صفحة؛
- موقعهم (في أي جزء من نص الصفحة).

الكلمات الموجودة مع أقسام الخدمة مثل العنوان والعناوين الفرعية والعلامات الوصفيةوتم وضع علامة على الآخرين على أنهم ذوو أهمية خاصة لاستعلامات بحث المستخدم. تم تصميم Google Spider لفهرسة كل كلمة مشابهة في الصفحة، باستثناء المداخلات مثل "a" و"an" و"the". لدى محركات البحث الأخرى أسلوب مختلف قليلاً في الفهرسة.

تهدف جميع أساليب وخوارزميات محركات البحث في النهاية إلى جعل الروبوتات العنكبوتية تعمل بشكل أسرع وأكثر كفاءة. على سبيل المثال، تقوم بعض روبوتات البحث بتتبع الكلمات الموجودة في العنوان والروابط وما يصل إلى 100 كلمة الأكثر استخدامًا على الصفحة أثناء الفهرسة، وحتى كل كلمة من الكلمات الموجودة في أول 20 سطرًا من محتوى النص على الصفحة. هذه هي خوارزمية الفهرسة، على وجه الخصوص، في Lycos.

وتذهب محركات البحث الأخرى، مثل AltaVista، في الاتجاه الآخر، حيث تقوم بفهرسة كل كلمة في الصفحة، بما في ذلك "a" و"an" و"the" وغيرها من الكلمات غير المهمة.

العلامات الفوقية

تسمح العلامات الوصفية لمالك صفحة الويب بتحديد الكلمات الرئيسية والمفاهيم التي تحدد جوهر محتواها. هذه أداة مفيدة للغاية، خاصة عندما يمكن تكرار هذه الكلمات الرئيسية حتى 2-3 مرات في نص الصفحة. في هذه الحالة، يمكن للعلامات الوصفية "توجيه" روبوت البحث إلى الاختيار المطلوب من الكلمات الرئيسية لفهرسة الصفحة. هناك احتمال "لغش" العلامات الوصفية باستخدام استعلامات ومفاهيم البحث الشائعة التي لا تتعلق بأي حال من الأحوال بمحتوى الصفحة نفسها. روبوتات البحث قادرة على مكافحة ذلك، على سبيل المثال، من خلال تحليل الارتباط بين العلامات الوصفية ومحتوى صفحة الويب، و"استبعاد" تلك العلامات الوصفية (على التوالي الكلمات الرئيسية) التي لا تتوافق مع محتوى الصفحات.

كل هذا ينطبق على الحالات التي يريد فيها مالك مورد الويب حقًا إدراجه في نتائج البحث لكلمات البحث المطلوبة. ولكن غالبًا ما يحدث أن المالك لا يريد أن يتم فهرسته بواسطة الروبوت على الإطلاق. لكن مثل هذه الحالات ليست موضوع مقالتنا.

بناء المؤشر

بمجرد انتهاء العناكب من عملها في العثور على صفحات ويب جديدة، يجب على محركات البحث وضع جميع المعلومات التي تم العثور عليها بحيث تكون مناسبة لاستخدامها في المستقبل. هناك مكونان رئيسيان مهمان هنا:

المعلومات المخزنة مع البيانات؛
- الطريقة التي يتم بها فهرسة هذه المعلومات.

في أبسط الحالات، يمكن لمحرك البحث ببساطة وضع الكلمة وعنوان URL في المكان الذي توجد فيه. لكن هذا من شأنه أن يجعل محرك البحث أداة بدائية تمامًا، حيث لا توجد معلومات حول أي جزء من المستند توجد هذه الكلمة (علامات وصفية، أو في نص عادي)، وما إذا كانت هذه الكلمة قد تم استخدامها مرة واحدة أو بشكل متكرر، وما إذا كانت الواردة في رابط لمورد آخر مهم وذات صلة. بمعنى آخر، لن تقوم هذه الطريقة بتصنيف المواقع، ولن تقدم النتائج ذات الصلة للمستخدمين، وما إلى ذلك.

لتزويدنا ببيانات مفيدة، لا تقوم محركات البحث بتخزين المعلومات من الكلمة وعنوان URL الخاص بها فحسب. يمكن لمحرك البحث حفظ بيانات حول عدد (تكرار) الإشارات لكلمة ما على الصفحة، وتعيين "وزن" للكلمة، مما سيساعد بعد ذلك في إنتاج قوائم البحث (النتائج) بناءً على التصنيف المرجح لهذه الكلمة، مع أخذ مع مراعاة موقعه (في الروابط والعلامات الوصفية وعنوان الصفحة وما إلى ذلك). يحتوي كل محرك بحث تجاري على صيغته الخاصة لحساب "وزن" الكلمات الرئيسية أثناء الفهرسة. وهذا هو أحد الأسباب لنفسه استعلام بحثتنتج محركات البحث نتائج مختلفة تمامًا.

التالي نقطة مهمةعند معالجة المعلومات التي تم العثور عليها - يتم ترميزها لتقليل مساحة القرص المخصصة لتخزينها. على سبيل المثال، توضح مقالة Google الأصلية أنه يتم استخدام 2 بايت (8 بت لكل منهما) لتخزين بيانات وزن الكلمات - وهذا يأخذ في الاعتبار نوع الكلمة (بالأحرف الكبيرة)، وحجم الحروف نفسها (حجم الخط) )، وغيرها من المعلومات التي تساعد على تصنيف الموقع. تتطلب كل "قطعة" من المعلومات 2-3 بتات من البيانات في مجموعة كاملة مكونة من 2 بايت. ونتيجة لذلك، يمكن تخزين كمية هائلة من المعلومات في شكل مضغوط للغاية. بمجرد "ضغط" المعلومات، فقد حان الوقت لبدء الفهرسة.

الفهرسة لها هدف واحد: ضمان الحد الأقصى بحث سريعالمعلومات اللازمة. هناك عدة طرق لإنشاء الفهارس، ولكن الأكثر فعالية هي البناء جداول التجزئة(جدول التجزئة). يستخدم التجزئة صيغة محددة لتعيين قيمة رقمية لكل كلمة.

في أي لغة، هناك حروف تبدأ بها كلمات أكثر بكثير من بقية الحروف الأبجدية. على سبيل المثال، يوجد عدد أكبر بكثير من الكلمات التي تبدأ بالحرف "M" في قسم قاموس اللغة الإنجليزية مقارنة بتلك التي تبدأ بالحرف "X". وهذا يعني أن البحث عن كلمة تبدأ بالحرف الأكثر شيوعًا سيستغرق وقتًا أطول من أي كلمة أخرى. التجزئة(التجزئة) تعمل على معادلة هذا الفارق وتقليل متوسط ​​وقت البحث، كما تفصل الفهرس نفسه عن البيانات الحقيقية. يحتوي جدول التجزئة على قيم التجزئة مع مؤشر للبيانات المقابلة لتلك القيمة. الفهرسة الفعالة + الموضع الفعال معًا يوفران سرعة بحث عالية، حتى لو قام المستخدم بطرح استعلام بحث معقد للغاية.

مستقبل محركات البحث

البحث المعتمد على العوامل المنطقية ("و"، "أو"، "لا") هو بحث حرفي - يتلقى محرك البحث كلمات البحث تمامًا كما تم إدخالها. يمكن أن يسبب هذا مشكلة، على سبيل المثال، عندما تكون الكلمة المدخلة لها معاني متعددة. "المفتاح"، على سبيل المثال، يمكن أن يعني "وسيلة لفتح الباب"، أو يمكن أن يعني "كلمة المرور" لتسجيل الدخول إلى الخادم. إذا كنت مهتمًا فقط بمعنى واحد للكلمة، فمن الواضح أنك لن تحتاج إلى بيانات حول معناها الثاني. يمكنك، بالطبع، إنشاء استعلام حرفي يستبعد إخراج البيانات بناءً على المعنى غير الضروري للكلمة، ولكن سيكون من الجيد أن يساعدك محرك البحث نفسه.

أحد مجالات البحث في خوارزميات محرك البحث المستقبلية هو استرجاع المعلومات المفاهيمية. هذه هي الخوارزميات التي تستخدم التحليل الإحصائي للصفحات التي تحتوي على كلمة رئيسية أو عبارة بحث معينة للعثور على البيانات ذات الصلة. ومن الواضح أن مثل هذا "محرك البحث المفاهيمي" سيتطلب مساحة تخزين أكبر بكثير لكل صفحة ومزيدًا من الوقت لمعالجة كل طلب. حاليا، يعمل العديد من الباحثين على هذه المشكلة.

لا يتم تنفيذ عمل أقل كثافة في مجال تطوير خوارزميات البحث بناءً على الاستعلامات. لغة طبيعية(استعلام باللغة الطبيعية).

الفكرة وراء الاستعلامات الطبيعية هي أنه يمكنك كتابة استعلامك كما لو كنت تسأل زميلًا يجلس أمامك. لا داعي للقلق بشأن العوامل المنطقية أو الضغط على التأليف استعلام معقد. موقع البحث عن اللغات الطبيعية الأكثر شهرة اليوم هو AskJeeves.com. يقوم بتحويل الاستعلام إلى كلمات رئيسية، والتي يستخدمها بعد ذلك عند فهرسة المواقع. هذا الأسلوب يعمل فقط مع الاستعلامات البسيطة. ومع ذلك، فإن التقدم لا يقف ساكنا، فمن الممكن أن "نتحدث" قريبا جدا مع محركات البحث "لغتنا البشرية".

أصدقائي، أرحب بكم مرة أخرى! الآن سوف نلقي نظرة على ماهية روبوتات البحث ونتحدث بالتفصيل عن روبوت بحث Google وكيفية تكوين صداقات معهم.

تحتاج أولاً إلى فهم ماهية روبوتات البحث في الواقع، والتي يطلق عليها أيضًا اسم العناكب. ما العمل الذي تقوم به عناكب محركات البحث؟

هذه هي البرامج التي تقوم بفحص المواقع. إنهم يبحثون في جميع المنشورات والصفحات الموجودة على مدونتك، ويجمعون المعلومات، ثم ينقلونها بعد ذلك إلى قاعدة بيانات محرك البحث الذي يعملون به.

لا تحتاج إلى معرفة القائمة الكاملة لروبوتات البحث، الشيء الأكثر أهمية هو أن تعرف أن جوجل لديها الآن عنكبوتين رئيسيين، يطلق عليهما "الباندا" و"البطريق". إنهم يحاربون المحتوى منخفض الجودة والروابط غير المرغوب فيها، وتحتاج إلى معرفة كيفية صد هجماتهم.

تم إنشاء روبوت بحث Google Panda للترويج فقط للمواد عالية الجودة في عمليات البحث. يتم تخفيض جميع المواقع ذات المحتوى منخفض الجودة في نتائج البحث.

ظهر هذا العنكبوت لأول مرة في عام 2011. قبل ظهوره، كان من الممكن الترويج لأي موقع ويب من خلال نشر كمية كبيرة من النصوص في المقالات واستخدام عدد كبير من الكلمات الرئيسية. أدت هاتان التقنيتان معًا إلى جلب المحتوى غير الجيد إلى أعلى نتائج البحث، وتم تخفيض المواقع الجيدة في نتائج البحث.

تقوم "باندا" بترتيب الأمور على الفور من خلال فحص جميع المواقع ووضع الجميع في أماكنهم الصحيحة. على الرغم من أنها تعاني من محتوى منخفض الجودة، إلا أنه من الممكن الآن الترويج حتى للمواقع الصغيرة بمقالات عالية الجودة. على الرغم من أنه كان من غير المجدي الترويج لمثل هذه المواقع في السابق، إلا أنها لم تتمكن من التنافس مع الشركات العملاقة التي لديها كمية كبيرة من المحتوى.

الآن سنكتشف كيف يمكنك تجنب عقوبات "الباندا". يجب عليك أولاً أن تفهم ما لا تحبه. لقد كتبت بالفعل أعلاه أنها تعاني من محتوى سيئ، ولكن ما هو نوع النص السيئ بالنسبة لها، فلنكتشف ذلك حتى لا ننشره على موقعنا.

يسعى روبوت بحث Google جاهداً للتأكد من أن محرك البحث هذا يوفر فقط مواد عالية الجودة للباحثين عن عمل. إذا كانت لديك مقالات تحتوي على معلومات قليلة وليست جذابة في المظهر، فأعد كتابة هذه النصوص بشكل عاجل حتى لا تصل إليك "الباندا".

يمكن أن يكون المحتوى عالي الجودة كبيرًا وصغيرًا، ولكن إذا رأى العنكبوت مقالًا طويلًا يحتوي على الكثير من المعلومات، فسيكون ذلك أكثر فائدة للقارئ.

ثم عليك أن تلاحظ الازدواجية، وبعبارة أخرى، الانتحال. إذا كنت تعتقد أنك ستعيد كتابة مقالات الآخرين على مدونتك، فيمكنك وضع حد لموقعك على الفور. يتم معاقبة النسخ بشكل صارم من خلال تطبيق مرشح، و يتم فحص الانتحالمن السهل جدا، وكتبت مقالا عن هذا الموضوع كيفية التحقق من النصوص للتفرد.

والشيء التالي الذي يجب ملاحظته هو التشبع الزائد للنص بالكلمات الرئيسية. أي شخص يعتقد أنه يمكنه كتابة مقال باستخدام الكلمات الرئيسية فقط ويحتل المركز الأول في نتائج البحث فهو مخطئ جدًا. لدي مقال حول كيفية التحقق من الصفحات للتأكد من ملاءمتها، تأكد من قراءتها.

والشيء الآخر الذي يمكن أن يجذب "الباندا" إليك هو المقالات القديمة التي عفا عليها الزمن أخلاقياً ولا تجلب حركة المرور إلى الموقع. إنهم بالتأكيد بحاجة إلى التحديث.

وهناك أيضًا روبوت بحث جوجل "البطريق". يحارب هذا العنكبوت الروابط غير المرغوب فيها والروابط غير المرغوب فيها على موقعك. كما أنه يحسب الروابط المشتراة من الموارد الأخرى. لذلك، لكي لا تخاف من روبوت البحث هذا، لا ينبغي عليك شراء الروابط، بل نشر محتوى عالي الجودة حتى يتمكن الأشخاص من الارتباط بك بأنفسهم.

الآن دعونا نقوم بصياغة ما يجب القيام به لجعل الموقع يبدو مثاليًا من خلال عيون روبوت البحث:

  • لإنشاء محتوى عالي الجودة، قم أولاً بالبحث في الموضوع جيدًا قبل كتابة المقال. ثم عليك أن تفهم أن الناس مهتمون حقًا بهذا الموضوع.
  • يستخدم أمثلة محددةوالصور، وهذا سيجعل المقال حيويًا ومثيرًا للاهتمام. قم بتقسيم النص إلى فقرات صغيرة لتسهيل قراءته، على سبيل المثال، إذا قمت بفتح صفحة النكات في إحدى الصحف، أي منها ستقرأ أولاً؟ وبطبيعة الحال، يقرأ كل شخص أولاً النصوص القصيرة، ثم النصوص الأطول، وأخيرًا، أغطية الأقدام الطويلة.
  • المراوغة المفضلة لدى "الباندا" هي عدم ملاءمة المقال الذي يحتوي على معلومات قديمة. متابعة التحديثات وتغيير النصوص.
  • تتبع كثافة الكلمات الرئيسية، لقد كتبت أعلاه كيفية تحديد هذه الكثافة، في الخدمة التي وصفتها، سوف تتلقى العدد الدقيق المطلوب من الكلمات الرئيسية.
  • لا تنتحل، يعلم الجميع أنه لا يمكنك سرقة أشياء أو رسائل نصية خاصة بأشخاص آخرين - إنه نفس الشيء. سيتم معاقبتك على السرقة من خلال الوقوع في الفلتر.
  • اكتب نصوصًا لا تقل عن ألفي كلمة، ثم ستبدو هذه المقالة مفيدة من خلال عيون روبوتات محرك البحث.
  • البقاء على الموضوع مع بلوق الخاص بك. إذا كنت تدير مدونة حول كسب المال على الإنترنت، فلن تحتاج إلى نشر مقالات حول الأسلحة الهوائية. قد يؤدي هذا إلى خفض تصنيف المورد الخاص بك.
  • صمم مقالاتك بشكل جميل وقسمها إلى فقرات وأضف الصور حتى تستمتع بالقراءة ولا تريد مغادرة الموقع بسرعة.
  • عند شراء الروابط، اجعلها تؤدي إلى المقالات الأكثر إثارة للاهتمام والمفيدة التي سيقرأها الأشخاص بالفعل.

حسنًا، الآن أنت تعرف ما هو العمل الذي تقوم به روبوتات محركات البحث، ويمكنك أن تكون صديقًا لهم. والأهم من ذلك، أن روبوت بحث جوجل و"الباندا" و"البطريق" قد تمت دراستهم بالتفصيل من قبلك.




قمة