הדרכה מסמלט כיצד לגרד את אתרי האינטרנט המפורסמים ביותר מוויקיפדיה

אתרים דינמיים משתמשים בקבצי robots.txt כדי לווסת ולשלוט על כל פעילויות גירוד. אתרים אלה מוגנים על ידי תנאי ומדיניות גרידת אתרים כדי למנוע מבלוגרים ומשווקים לגרוט את האתרים שלהם. למתחילים, גרידת אתרים היא תהליך של איסוף נתונים מאתרי אינטרנט ודפי אינטרנט ושמירה ואז שמירתם בתבניות קריאות.

אחזור נתונים שימושיים מאתרים דינמיים יכולה להיות משימה מסורבלת. כדי לפשט את תהליך שאיבת הנתונים, מנהלי אתרים משתמשים ברובוטים בכדי לקבל את המידע הדרוש במהירות האפשרית. אתרים דינמיים כוללים הוראות "לאפשר" ו"אסור "שמספרים לרובוטים היכן מותר לגרד והיכן אין.

גרידת האתרים המפורסמים ביותר מוויקיפדיה

מדריך זה עוסק במחקר מקרה שנערך על ידי ברנדן ביילי באתרי גירוד מהאינטרנט. ברנדן התחיל באיסוף רשימת האתרים החזקים ביותר מוויקיפדיה. המטרה העיקרית של ברנדן הייתה לזהות אתרים הפתוחים לחילוץ נתונים באינטרנט על בסיס כללי robot.txt. אם אתה מתכוון לגרד אתר, שקול לבקר בתנאי השירות של האתר כדי למנוע הפרת זכויות יוצרים.

כללי גירוד אתרים דינמיים

בעזרת כלי חילוץ נתונים באינטרנט, גרידת אתרים היא רק עניין של לחיצה. הניתוח המפורט לגבי אופן סיווגו של ברנדן ביילי את אתרי ויקיפדיה והקריטריונים בהם השתמש מתוארים להלן:

מעורב

על פי מקרה המקרה של ברנדן, את האתרים הפופולריים ביותר ניתן לקבץ כ- מעורב. בתרשים העוגה, אתרים עם תערובת של כללים מייצגים 69%. Robots.txt של גוגל הוא דוגמה מצוינת ל- robots.txt מעורב.

אפשר להשלים

לעומת זאת, השלם Allow מציין 8%. בהקשר זה, Complete Allow פירושו שקובץ robots.txt האתר נותן לתוכנות אוטומטיות גישה לשרוט את כל האתר. SoundCloud הוא הדוגמה הטובה ביותר לקחת. דוגמאות נוספות לאתרי Complete Complete כוללות:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

לא מוכן

אתרים עם "לא מוגדר" היוו 11% מכלל המספרים שהוצגו בתרשים. פירושו של לא Set פירושו שני הדברים הבאים: לאתרים חסרים קובץ robots.txt, או באתרים אין כללים עבור "User-Agent". דוגמאות לאתרים שבהם קובץ robots.txt הוא "לא מוגדר" כוללים:

  • Live.com
  • Jd.com
  • Cnzz.com

אי אפשר

אי הסרת אתרים מלאים אוסרים על תוכניות אוטומטיות לגרד את האתרים שלהם. Linked In הוא דוגמה מצוינת לאתרי Complete Disallow. דוגמאות נוספות לאתרי איסור מוחלט כוללות:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

גירוד באינטרנט הוא הפיתרון הטוב ביותר לחילוץ נתונים. עם זאת, גרידת אתרים דינמיים מסוימים עלולה להוביל אותך לצרות גדולות. הדרכה זו תעזור לך להבין יותר אודות קובץ robots.txt ולמנוע בעיות שעלולות להתרחש בעתיד.