البرنامج التعليمي من Semalt حول كيفية كشط مواقع الويب الأكثر شهرة من ويكيبيديا

تستخدم مواقع الويب الديناميكية ملفات robots.txt لتنظيم أي أنشطة كشط والتحكم فيها. هذه المواقع محمية بشروط وسياسات إلغاء الويب لمنع المدونين والمسوقين من إلغاء مواقعهم. بالنسبة للمبتدئين ، يعد تجريف الويب عملية جمع البيانات من مواقع الويب وصفحات الويب وحفظها ثم حفظها بتنسيقات قابلة للقراءة.

يمكن أن يكون استرداد البيانات المفيدة من مواقع الويب الديناميكية مهمة معقدة. لتبسيط عملية استخراج البيانات ، يستخدم مشرفو المواقع الروبوتات للحصول على المعلومات الضرورية في أسرع وقت ممكن. تتكون المواقع الديناميكية من توجيهات "السماح" و "عدم السماح" التي تخبر الروبوتات حيث يُسمح بالقشط وأين لا يسمح بذلك.

كشط أشهر المواقع من ويكيبيديا

يغطي هذا البرنامج التعليمي دراسة حالة أجراها بريندان بيلي على مواقع القشط من الإنترنت. بدأ بريندان من خلال جمع قائمة بالمواقع الأكثر فاعلية من ويكيبيديا. كان هدف بريندان الأساسي هو تحديد مواقع الويب المفتوحة لاستخراج بيانات الويب استنادًا إلى قواعد robot.txt. إذا كنت ستكتشف موقعًا ، ففكر في زيارة شروط خدمة الموقع لتجنب انتهاك حقوق الطبع والنشر.

قواعد إلغاء المواقع الديناميكية

باستخدام أدوات استخراج بيانات الويب ، يعد مسح الموقع مجرد مسألة نقر. التحليل التفصيلي لكيفية تصنيف برندان بيلي لمواقع ويكيبيديا ، والمعايير التي استخدمها موصوفة أدناه:

مختلط

وفقًا لدراسة حالة Brendan ، يمكن تصنيف معظم مواقع الويب الشائعة على أنها مختلطة. على المخطط الدائري ، تمثل مواقع الويب التي تحتوي على مزيج من القواعد 69٪. يعد ملف robots.txt الخاص بـ Google مثالًا ممتازًا لملف robots.txt المختلط.

السماح الكامل

من ناحية أخرى ، تبلغ نسبة السماح الكاملة 8٪. في هذا السياق ، يعني Complete Allow أن ملف robots.txt الخاص بالموقع يمنح البرامج الآلية إمكانية الوصول إلى الموقع بالكامل. SoundCloud هو أفضل مثال يمكن أخذه. تتضمن الأمثلة الأخرى لمواقع السماح الكاملة ما يلي:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

غير مضبوط

تمثل مواقع الويب ذات "Not Set" نسبة 11٪ من إجمالي العدد المعروض على الرسم البياني. عدم تعيين يعني شيئين التاليين: إما أن المواقع تفتقر إلى ملف robots.txt ، أو تفتقر المواقع إلى قواعد "وكيل المستخدم". تتضمن أمثلة مواقع الويب التي يكون فيها ملف robots.txt "غير معين" ما يلي:

  • Live.com
  • Jd.com
  • Cnzz.com

عدم السماح الكامل

تمنع مواقع Disallow الكاملة البرامج الآلية من إلغاء مواقعها. Linked In هو مثال ممتاز على مواقع Disallow الكاملة. تتضمن الأمثلة الأخرى لمواقع Disallow الكاملة:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

كشط الويب هو الحل الأفضل لاستخراج البيانات. ومع ذلك ، فإن التخلص من بعض المواقع الديناميكية يمكن أن يوقعك في مشكلة كبيرة. سيساعدك هذا البرنامج التعليمي على فهم المزيد حول ملف robots.txt ومنع المشاكل التي قد تحدث في المستقبل.

mass gmail