खोज इंजनों द्वारा साइटों की अनुक्रमणिका को प्रबंधित करने का एक उपकरण robots.txt फ़ाइल है। इसका उपयोग मुख्य रूप से सभी या केवल कुछ रोबोट को कुछ पेज समूहों की सामग्री को डाउनलोड करने से रोकने के लिए किया जाता है। यह आपको खोज इंजन परिणामों में "कचरा" से छुटकारा पाने की अनुमति देता है और कुछ मामलों में, संसाधन की रैंकिंग में काफी सुधार करता है। सफल एप्लिकेशन के लिए सही robots.txt फ़ाइल होना महत्वपूर्ण है।
ज़रूरी
पाठ संपादक।
निर्देश
चरण 1
उन रोबोटों की सूची बनाएं जिनके लिए विशेष बहिष्करण नियम निर्धारित किए जाएंगे या विस्तारित robots.txt मानक के निर्देशों के साथ-साथ गैर-मानक और विशिष्ट निर्देशों (एक विशिष्ट खोज इंजन के एक्सटेंशन) का उपयोग किया जाएगा। इस सूची में चयनित रोबोट द्वारा साइट सर्वर पर भेजे गए HTTP अनुरोध हेडर के उपयोगकर्ता-एजेंट फ़ील्ड के मान दर्ज करें। रोबोटों के नाम खोज इंजन साइटों के संदर्भ अनुभागों में भी पाए जा सकते हैं।
चरण 2
साइट संसाधनों के URL के समूहों का चयन करें, जिन तक पहले चरण में संकलित सूची में से प्रत्येक रोबोट तक पहुंच से इनकार किया जाना चाहिए। अन्य सभी रोबोट (इंडेक्सिंग बॉट्स का एक अनिश्चित सेट) के लिए एक ही ऑपरेशन करें। दूसरे शब्दों में, परिणाम में साइट के अनुभागों, पृष्ठों के समूहों या मीडिया सामग्री के स्रोतों के लिंक वाली कई सूचियां होनी चाहिए जो अनुक्रमण से प्रतिबंधित हैं। प्रत्येक सूची को एक अलग रोबोट के अनुरूप होना चाहिए। अन्य सभी बॉट्स के लिए निषिद्ध URL की एक सूची भी होनी चाहिए। सर्वर पर डेटा के भौतिक स्थान के साथ साइट की तार्किक संरचना की तुलना के साथ-साथ पृष्ठों के URL को इसके अनुसार समूहीकृत करके सूची बनाएं। उनकी कार्यात्मक विशेषताएं। उदाहरण के लिए, आप किसी भी सेवा कैटलॉग (स्थान के आधार पर समूहीकृत) या सभी उपयोगकर्ता प्रोफ़ाइल पृष्ठों (उद्देश्य से समूहीकृत) की सामग्री को अस्वीकार सूची में शामिल कर सकते हैं।
चरण 3
दूसरे चरण में संकलित सूचियों में निहित प्रत्येक संसाधन के लिए URL चिह्नों का चयन करें। केवल मानक robots.txt निर्देशों और अपरिभाषित रोबोट का उपयोग करने वाले रोबोट के लिए बहिष्करण सूचियों को संसाधित करते समय, अधिकतम लंबाई के अद्वितीय URL भागों को हाइलाइट करें। पतों के शेष सेट के लिए, आप विशिष्ट खोज इंजनों के विनिर्देशों के अनुसार टेम्पलेट बना सकते हैं।
चरण 4
एक robots.txt फ़ाइल बनाएँ। इसमें निर्देशों के समूह जोड़ें, जिनमें से प्रत्येक एक विशिष्ट रोबोट के लिए निषिद्ध नियमों के एक सेट से मेल खाता है, जिसकी सूची पहले चरण में संकलित की गई थी। बाद वाले को अन्य सभी रोबोटों के लिए निर्देशों के एक समूह द्वारा पालन किया जाना चाहिए। नियम समूहों को एक ही रिक्त पंक्ति से अलग करें। प्रत्येक नियम समूह को रोबोट की पहचान करने वाले उपयोगकर्ता-एजेंट निर्देश के साथ शुरू होना चाहिए, उसके बाद एक अस्वीकृत निर्देश होगा, जो URL समूहों को अनुक्रमित करने पर रोक लगाता है। तीसरे चरण में प्राप्त पंक्तियों को अस्वीकृत निर्देशों के मूल्यों के साथ बनाएं। निर्देशों और उनके अर्थों को एक कोलन से अलग करें। निम्नलिखित उदाहरण पर विचार करें: उपयोगकर्ता-एजेंट: यांडेक्सडिस्लो: / अस्थायी / डेटा / छवियां / उपयोगकर्ता-एजेंट: * अस्वीकार करें: / अस्थायी / डेटा / निर्देशों का यह सेट मुख्य रोबोट को निर्देश देता है यांडेक्स सर्च इंजन यूआरएल को इंडेक्स नहीं करेगा जिसमें सबस्ट्रिंग / टेम्प / डेटा / इमेज / शामिल हैं। यह अन्य सभी रोबोटों को / अस्थायी / डेटा / वाले URL को अनुक्रमित करने से भी रोकता है।
चरण 5
विस्तारित मानक निर्देशों या विशिष्ट खोज इंजन निर्देशों के साथ robots.txt को पूरक करें। ऐसे निर्देशों के उदाहरण हैं: होस्ट, साइटमैप, अनुरोध-दर, विज़िट-टाइम, क्रॉल-विलंब।