ماذا يحدث بمجرد انتهاء محرك البحث من الزحف إلى الصفحة؟ دعنا نلقي نظرة على عملية الفهرسة التي تستخدمها محركات البحث لتخزين معلومات حول صفحات الويب، وتمكينها من إرجاع نتائج ذات صلة وعالية الجودة بسرعة.

ما هي الحاجة إلى الفهرسة بواسطة محركات البحث؟

هل تتذكر الأيام التي سبقت الإنترنت عندما كان عليك الرجوع الى الموسوعة في مكتبة المدرسة أو الجامعة أو مكتبة والدك للتعرف على العالم الذي من حولك؟

حتى في الأيام الأولى للويب، قبل محركات البحث، كان علينا البحث في الدليل المحلي للحصول على المعلومات. يا لها من عملية تستغرق وقتًا طويلاً. كيف كان لدينا الصبر؟

أحدثت محركات البحث ثورة في استرجاع المعلومات لدرجة أن المستخدمين يتوقعون ردودًا شبه فورية على استفسارات البحث الخاصة بهم.

ما هي فهرسة محرك البحث؟

الفهرسة هي العملية التي تنظم من خلالها محركات البحث المعلومات قبل البحث لتمكين الاستجابات فائقة السرعة للاستعلامات.

سيكون البحث في الصفحات الفردية عن الكلمات الرئيسية والموضوعات عملية بطيئة للغاية لمحركات البحث لتحديد المعلومات ذات الصلة. 

بدلاً من ذلك ، تستخدم محركات البحث (بما في ذلك Google) فهرسًا مقلوبًا ، يُعرف أيضًا بالفهرس العكسي.

ما هو الفهرس المقلوب؟

الفهرس المقلوب  inverted index هو نظام يتم فيه تجميع قاعدة بيانات لعناصر النص جنبًا إلى جنب مع المؤشرات إلى المستندات التي تحتوي على تلك العناصر. بعد ذلك ، تستخدم محركات البحث عملية تسمى الترميز (tokenization) لتقليل الكلمات إلى معناها الأساسي ، وبالتالي تقليل كمية الموارد اللازمة لتخزين البيانات واستردادها. هذا نهج أسرع بكثير من سرد جميع المستندات المعروفة مقابل جميع الكلمات الرئيسية والأحرف ذات الصلة.

أمثلة على الفهرس المقلوب لتعرف ماهو

يوجد أدناه مثال أساسي يوضح مفهوم الفهرسة المعكوسة. في المثال ، يمكنك أن ترى أن كل كلمة أساسية (أو رمز مميز) مرتبطة بصف من المستندات التي تم تحديد هذا العنصر فيها.

الكلمة المفتاحيةمسار المستند 1مسار المستند 2
SEOexample.com/seo-tipsmoz.com
HTTPSdeepcrawl.co.uk/https-speedexample.com/https-future

يستخدم هذا المثال عناوين URL ولكن قد تكون هذه معرفات مستندات بدلاً من ذلك بناءً على كيفية هيكلة محرك البحث.

ماهي النسخة المخبأة للصفحة

بالإضافة إلى الفهرسة، قد تقوم محركات البحث أيضًا بتخزين نسخة نصية مضغوطة للغاية من المستند بما في ذلك جميع HTML والبيانات الوصفية. المستند المخبأ هو أحدث لقطة للصفحة التي شاهدها محرك البحث.

يمكن الوصول إلى النسخة المخبأة من الصفحة (في Google) من خلال النقر على السهم الأخضر الصغير بجوار عنوان URL لكل نتيجة بحث وتحديد الخيار المخبأ. بدلاً من ذلك ، يمكنك استخدام “cache:” عامل تشغيل بحث Google لعرض النسخة المخبأة للصفحة.

ماهي النسخة المخبأة للصفحة

ما هو نظام ترتيب الصفحات PageRank؟

PageRank هي خوارزمية من Google وتعطي قيمة لكل صفحة يتم حسابها عن طريق حساب عدد الروابط التي تشير إلى الصفحة لتحديد قيمة الصفحة بالنسبة إلى كل صفحة أخرى على الإنترنت.

تستند القيمة التي يتم تمريرها من خلال كل ارتباط فردي إلى عدد وقيمة الروابط التي تشير إلى الصفحة التي بها الارتباط.

تعد PageRank مجرد واحدة من العديد من الإشارات المستخدمة في خوارزمية الترتيب الكبيرة في Google.
تم تقديم تقدير تقريبي لقيم PageRank في البداية بواسطة Google ولكنها لم تعد مرئية للعامة.

كيف تعمل محركات البحث؟

تعمل محركات البحث من خلال ثلاث وظائف أساسية:

  1. الزحف Crawling: تخيل أنّ محرك البحث عبارة عن روبوت له ألف ذراع, سيأتي زاحفاً بأذرعه الى موقعك الالكتروني.
  2. الفهرسة Indexing: بعد الخطوة الاولى و زيارة محرك البحث لموقعك, سيكتشف صفحاتك و سيقوم بسحبها وتخزينها في ذاكرته.
  3. الترتيب Ranking: سيقوم محرك البحث بإعادة ترتيب صفحاتك بحسب قوتها ليعرضها للمستخدمين و الباحثين.

زحف محرك البحث

الزحف Crawling هو عملية الاكتشاف التي ترسل فيها محركات البحث فريقًا من الروبوتات (المعروفة باسم برامج الزحف أو العناكب) للعثور على محتوى جديد ومحدث. يمكن أن يختلف المحتوى – فقد يكون صفحة ويب أو صورة أو مقطع فيديو أو ملف PDF وما إلى ذلك – ولكن بغض النظر عن التنسيق ، يتم اكتشاف المحتوى عن طريق الروابط.

يبدأ Googlebot بجلب بعض صفحات الويب، ثم يتبع الروابط الموجودة على صفحات الويب هذه للعثور على صفحات جديدة. من خلال التنقل على طول مسار الروابط هذا، يكون الزاحف قادرًا على العثور على محتوى جديد وإضافته إلى فهرسهم المسمى Caffeine – قاعدة بيانات ضخمة لعناوين URL المكتشفة – ليتم استردادها لاحقًا عندما يبحث الباحث عن معلومات تفيد بأن المحتوى الموجود على عنوان URL هذا هو مباراة جيدة ل.

Crawling

فهرسة محرك البحث

تقوم محركات البحث بمعالجة وتخزين المعلومات التي يجدونها في فهرس ، وهو عبارة عن قاعدة بيانات ضخمة لجميع المحتوى الذي اكتشفوه ويعتبرونه جيدًا بما يكفي لخدمة الباحثين.

Indexing

ترتيب محرك البحث

عندما يقوم شخص ما بإجراء بحث ، تقوم محركات البحث بمسح فهرسها بحثًا عن محتوى وثيق الصلة ثم تطلب ذلك المحتوى على أمل حل استعلام الباحث. يُعرف ترتيب نتائج البحث حسب الصلة بالترتيب. بشكل عام ، يمكنك أن تفترض أنه كلما ارتفع ترتيب موقع الويب ، كلما كان محرك البحث يعتقد أن الموقع مرتبط بالاستعلام.

من الممكن منع برامج الزحف لمحركات البحث من جزء من موقعك أو كله ، أو توجيه محركات البحث لتجنب تخزين صفحات معينة في فهرسها. في حين أنه يمكن أن تكون هناك أسباب للقيام بذلك ، إذا كنت تريد أن يعثر الباحثون على المحتوى الخاص بك ، فعليك أولاً التأكد من أنه يمكن الوصول إليه من قبل برامج الزحف وقابل للفهرسة. خلاف ذلك ، فهو جيد مثل غير المرئي.

PageRank

بنهاية هذا الفصل ، سيكون لديك السياق الذي تحتاجه للعمل مع محرك البحث ، وليس ضده!

إذا كنت لا تظهر في أي مكان في نتائج البحث ، فهناك بعض الأسباب المحتملة لذلك:

  • موقعك جديد تمامًا ولم يتم الزحف إليه بعد.
  • موقعك ليس مرتبطًا به من أي مواقع ويب خارجية.
  • يجعل التنقل في موقعك من الصعب على الروبوت الزحف إليه بشكل فعال.
  • يحتوي موقعك على بعض التعليمات البرمجية الأساسية تسمى توجيهات الزاحف التي تحظر محركات البحث.
  • عاقبت Google موقعك على الويب بسبب الأساليب غير المرغوب فيها.

ماهو ملف robots.txt

توجد ملفات Robots.txt في الدليل الجذر لمواقع الويب (على سبيل المثال ، studyshoot.com/robots.txt) وتقترح أي أجزاء من محركات البحث يجب ألا تزحف إليها ، بالإضافة إلى السرعة التي تزحف بها إلى موقعك ، عبر توجيهات معينة لملف robots.txt .

كيف يتعامل Googlebot مع ملفات robots.txt

  • إذا لم يتمكن Googlebot من العثور على ملف robots.txt لأحد المواقع ، فسيواصل الزحف إلى الموقع.
  • إذا عثر Googlebot على ملف robots.txt لأحد المواقع ، فعادة ما يلتزم بالاقتراحات ويتابع الزحف إلى الموقع.
  • إذا واجه Googlebot خطأً أثناء محاولة الوصول إلى ملف robots.txt الخاص بالموقع ولم يتمكن من تحديد ما إذا كان موجودًا أم لا ، فلن يقوم بالزحف إلى الموقع.

أخطاء التنقل الشائعة التي يمكن أن تمنع برامج الزحف من رؤية موقعك بالكامل:

  • امتلاك التنقل عبر الجوال الذي يعرض نتائج مختلفة عن التنقل على سطح المكتب
  • أي نوع من التنقل حيث لا تكون عناصر القائمة في HTML ، مثل التنقلات التي تدعم JavaScript. لقد تحسنت Google كثيرًا في الزحف إلى جافا سكريبت وفهمها ، لكنها لا تزال ليست عملية مثالية . الطريقة الأكثر ضمانًا لضمان العثور على شيء ما وفهمه وفهرسته بواسطة Google هي وضعه في HTML.
  • قد يبدو التخصيص ، أو عرض التنقل الفريد لنوع معين من الزائرين مقابل الآخرين ، وكأنه يخفي إلى زاحف محرك بحث
  • نسيان الارتباط بصفحة أساسية على موقع الويب الخاص بك من خلال التنقل – تذكر أن الروابط هي المسارات التي تتبعها برامج الزحف للوصول إلى صفحات جديدة!