अधिकांश अनुभवी ब्लॉगर निश्चित रूप से जानते हैं कि robots.txt क्या है और आपको इस फ़ाइल की आवश्यकता क्यों है। लेकिन कुछ लेखक वर्डप्रेस पर ब्लॉग स्थापित करने के तुरंत बाद robots.txt फ़ाइल बनाने के लिए दौड़ पड़ते हैं।
Robots.txt एक टेक्स्ट फ़ाइल है जो आपकी साइट की रूट डायरेक्टरी में अपलोड की जाती है और इसमें क्रॉलर के लिए निर्देश होते हैं। इसके उपयोग का मुख्य उद्देश्य साइट पर अलग-अलग पृष्ठों और अनुभागों के अनुक्रमण को प्रतिबंधित करना है। हालांकि, robots.txt का उपयोग करके, आप सही डोमेन मिरर भी निर्दिष्ट कर सकते हैं, साइटमैप के लिए पथ निर्धारित कर सकते हैं, और इसी तरह।
अधिकांश आधुनिक खोज इंजनों ने लोकप्रिय सीएमएस को अच्छी तरह से नेविगेट करना सीख लिया है और आमतौर पर ऐसी सामग्री को अनुक्रमित करने का प्रयास नहीं करते हैं जो इसके लिए अभिप्रेत नहीं है। उदाहरण के लिए, Google आपके WordPress ब्लॉग व्यवस्थापक क्षेत्र को अनुक्रमित नहीं करेगा, भले ही आप इसे सीधे robots.txt में निर्दिष्ट न करें। हालांकि, कुछ मामलों में, प्रत्यक्ष प्रतिबंध का उपयोग अभी भी उपयोगी हो सकता है। और हम मुख्य रूप से डुप्लिकेट सामग्री के निषेध के बारे में बात कर रहे हैं।
कुछ वेबमास्टर श्रेणी और टैग पृष्ठों के अनुक्रमण को प्रतिबंधित करते हैं, क्योंकि उनकी सामग्री आंशिक रूप से मुख्य पृष्ठ की सामग्री की नकल करती है। लेकिन अधिकांश ट्रैकबैक और फ़ीड पृष्ठों पर प्रतिबंध लगाने तक सीमित हैं, जो पूरी तरह से लेख सामग्री की नकल करते हैं और खोज इंजन के लिए बिल्कुल भी अभिप्रेत नहीं हैं। इस तरह की सावधानी न केवल साइट के परिणामों को "क्लीनर" बनाएगी, बल्कि आपको संभावित खोज फ़िल्टर से भी बचाएगी, खासकर नए Google पांडा एल्गोरिथम की शुरुआत के बाद।
यहां robots.txt फ़ाइल के लिए अनुशंसित निर्देश दिए गए हैं (यह लगभग किसी भी वर्डप्रेस ब्लॉग के लिए काम करेगा):
उपयोगकर्ता-एजेंट: * अस्वीकृत करें: /wp-login.php अस्वीकृत करें: /wp-register.php अस्वीकृत करें: /xmlrpc.php अस्वीकृत करें: / wp-admin अस्वीकृत करें: / wp-includes अस्वीकृत: / wp-content / plugins wp-content / कैशे अस्वीकृत करें: / wp-content / थीम अस्वीकृत करें: / ट्रैकबैक / अस्वीकृत करें: / फ़ीड / अस्वीकृत करें: * / ट्रैकबैक / अस्वीकृत करें: * / फ़ीड /
कृपया ध्यान दें कि robots.txt में व्यवस्थापकीय फ़ोल्डर wp-admin और wp-include अनुक्रमण के लिए पूरी तरह से बंद हैं। wp-content फ़ोल्डर केवल आंशिक रूप से बंद है, क्योंकि इसमें अपलोड निर्देशिका है, जिसमें आपके ब्लॉग की सभी छवियां शामिल हैं जिन्हें अनुक्रमित किया जाना चाहिए।
आपको केवल उपरोक्त कोड से निर्देशों को कॉपी करना है (ध्यान दें कि प्रत्येक निर्देश एक नई लाइन पर लिखा जाना चाहिए), उन्हें robots.txt नामक टेक्स्ट फ़ाइल में सहेजें, और उन्हें अपनी साइट की मूल निर्देशिका में अपलोड करें।
आप Google वेबमास्टर टूल्स और यांडेक्स वेबमास्टर इंटरफेस के माध्यम से हमेशा जांच सकते हैं कि robots.txt सही ढंग से काम कर रहा है या नहीं।