הקובץ robots.txt מכיל הנחיות למנועי חיפוש לגבי האופן בו עליהם לסרוק את האתר שלכם. הנחיות אלו נקראות באנגלית directives, וניתן כאמור להשתמש באלו בכדי להנחות בוטים ולציין למנועי חיפוש מסויימים (או לכולם) כי עליהם להמנע מסריקת כתובות, קבצים, או חלקים מסויימים באתר שלכם. קובץ ה- robots.txt משמש מעין הוראות כניסה לאותם רובוטים עבור האתר שלנו. לפני שהם נכנסים לאתר, הם סורקים את קובץ ה- robots.txt וממנו מסיקים לאלו דפים מותר להם להכנס ולאילו לא.
באופן כללי, בוטים וסורקים למינהם הם רעיון מוצלח ואולי אף הכרחי לרשת האינטרנט. עם זאת, אין זה אומר שאתם, או כל בעל אתר מעוניין שאותם בוטים וזחלנים יעשו כאוות נפשם וייסרקו כל כתובת ותוכן שעולה על רוחם ללא שיקול דעת.
במילים פשוטות יותר, מומלץ שרוב הדפים יהיו גלויים. יחד עם זאת, יש דפים שאנחנו לא רוצים שלגוגל תהיה גישה אליהם ואנחנו לא רוצים שהם יופיעו באינדקס, למשל דפי Admin ושאר דפים שדורשים סיסמה לפני כניסה. חוץ מאלה, נרצה שגוגל תדע בדיוק מה מכיל האתר ונוסיף גם את מפת האתר לקובץ ה-robots.txt כדי להקל על הסריקה.

הרצון לשליטה על ההתנהגות הבוטים, ועל הדרך בה הם מבצעים אינטראקציה עם אתרים ברשת, הובילה באמצע שנות התשעים ליצירת סטנדרט הנקרא Robots Exclusion Protocol. הקובץ robots.txt הוא למעשה היישום הפרקטי של Robots Exclusion Protocol, וזה מאפשר לכם להנחות בוטים של מנועי חיפוש כיצד לסרוק את האתר שלכם.
- עבור מרבית בעלי האתרים, היתרונות של קובץ robots.txt נכון מסתכם ומתחלק לשתי קטגוריות:
אופטימיזציה לתקציב הזחילה ולמשאבים שמנועי חיפוש מקדישים לאתר שלכם. זו נעשית על ידי הנחיה ובקשה להימנע מבזבוז משאבים בסריקת עמודים שאינכם רוצים באינדקס. - פעולה זו מבטיחה כי מנועי חיפוש יתמקדו בסריקת העמודים החשובים ביותר באתר שלכם.
אופטימיזציה לשרת עליו יושב האתר ומניעת עומסים בעקבות הסריקה. זו מתבצעת על ידי חסימת בוטים המבזבזים משאבים מיותרים בסריקת כתובות ותוכן שאינו רלוונטי.
יתרונות וחסרונות בשימוש של הקובץ robots.txt
יתרון: שליטה בתקציב הזחילה תקציב הזחילה הינו משך הזמן או כמות הדפים שהזחלנים יסרקו באתר שלכם. כלומר, בכל כניסה לאתר שלכם, לזחלנים יש תקציב שמוגדר מראש, ולכן אין זה אומר שבכל פעם שהם נכנסים לאתר שלכם, הם יסרקו את כל האתר.
המשמעות של תקציב הזחילה היא אחת – עלינו לנצל בחוכמה את תקציב הזחילה של האתר שלנו, ולא לבזבז אותו. קובץ ה robots.txt הוא אחד הדרכים העיקריות לשליטה בתקציב הזחילה, שכן אנו מורים לזחלנים לאן להיכנס ולאן לא.
חסרון: אי אפשר להסיר דפים מתוצאות החיפוש במידה והם כבר נמצאים שם. הקובץ אמנם מורה לזחלנים לאן להיכנס ולאן לא, אך הוא לא יכול לומר למנוע החיפוש, לא לאנדקס (כלומר, לא להציג) את הדף הספציפי הזה, או כתובת ה URL הזו. לכן, אם אתם רוצים להסיר דף מסוים מתוצאות החיפוש של גוגל, עליכם להשתמש בדרך אחרת שנקראת מטה רובוטס ולתת לדף NOINDEX תג.
חסרון נוסף הוא שהקובץ לא מאפשר חלוקת כח של לינקים במידה והגדרתם שדף כלשהו לא יכנס לתקציב הזחילה. הכח של הדף, לא עובר לדפים אחרים שכן נכנסים לתקציב הזחילה.

איך ליצור קובץ robots.txt ומה ההגדרה המומלצת
- שימוש בפלאגיני SEO – בין אם האתר שלכם מבוסס וורדפרס, WIX, ג'ומלה או כל מערכת מובנת אחרת, ניתן להתקין פלאגין SEO שמכיל גם פיצ'ר של יצירת קובץ רובוטס. בוורדפרס למשל הן YOAST SEO והן RANK MATH ייצרו לכם בקליק אחד קובץ robots.txt איכותי. חשוב לאחר ההתקנה של התוסף, לוודא שאכן נוצר קובץ robots.txt.
- יצירת קובץ robots.txt בצורה ידנית – זה יותר פשוט ממה שאתם חושבים. על מנת ליצור את הקובץ בצורה ידנית עליכם לפתוח במחשב, קובץ TXT פשוט, לשים בו את השורות הרלוונטיות עבורכם, ולאחר מכן להתחבר למנהל הקבצים בשרת שלכם ולהעלות את הקובץ.
איך זה משפיע על קידום אתרים?
השימוש של הקובץ בא לידי ביטוי בכמה מקרים בתהליך קידום אתרים. ראשית, כאשר אנחנו עוברים לאתר חדש נהוג לבנות אותו בסביבת טסט על סאב דומיין כך שלא יהיה חשוף לגולשים. אך מצד שני, אם האתר החדש זהה בתוכן שלו לאתר הקיים יכול להיווצר תוכן משוכפל – מה שיכול לפגוע בדירוגים. לכן במקרה כזה נגדיר בקובץ robots.txt של האתר שנבנה שגוגל לא יאנדקס אותו בינתיים. כמובן שברגע ש”נדרוס” את האתר הקיים עם החדש חשוב מאד לשנות את ההגדרה הזו בקובץ, אחרת האתר יכול לעוף מגוגל (ממצב שהוא היה מאונדקס, התעדכן הקובץ שמורה כעת לגוגל לא לאנדקס אותו יותר).
עוד סיבה טובה מספיק כדי להשתמש בקובץ robots.txt היא כשאתם רוצים למנוע ממנועי החיפוש וכמובן ממנוע חיפוש גוגל בראשם, ביקור בדף ספציפי. פעמים רבות אנחנו מעלים לאתר דפים אשר יש בהם תוכן דל ביותר אך אנו חשים "חובה" להעלות אותם (הם לא מועילים לתהליך הקידום אך הם הכרחיים לגולשים). כדי שגוגל לא יסרוק את הדף האמור, ניתן להעלות את קובץ ה- robots.txt ולמנוע ממנו ביקור בדף. סיבה נוספת ולא מומלצת בכל מקרה, היא במקרים בהם בדף ספציפי יש תוכן משוכפל ועל מנת שעדכון פנדה לא יפגע בדירוג האתר, חשוב לעדכן את קובץ robots.txt וכן הלאה. שימו לב כי תפקידו של קובץ robots.txt הוא למנוע ביקורים לא רצויים של מנועי החיפוש באזורים בעייתיים באתר.


