इंटरनेट, ब्लॉग
Google कसे निर्देशांक एक साइट किंवा त्याच्या तुकड्यांच्या काढण्यासाठी
Google द्वारे दत्तक अनुक्रमणिका संकल्पना मते, शेवट साठी, माहिती आणि परिणाम जारी शोध क्वेरी त्याच्या सारखेपणा उद्दिष्ट. निर्देशांक स्पॅम साठी बेकायदेशीर सामग्री, किंवा संसाधन असलेल्या वेबसाइट येते, तर, या साइटच्या पृष्ठे सामान्य डेटाबेस शोध इंजिन मध्ये केले जाणार नाहीत. आम्हाला जाणून घेणे महत्वाचे आहे एक साइट कशी काढू शोध सर्व्हर परिणाम जारी पासून.
शून्य अनुक्रमणिका Google रूपे
नवीन संसाधने माहिती गोळा करण्यासाठी एक कार्यक्रम - - शोध रोबो एकदा पृष्ठ साइट पृष्ठ स्कॅन करेल, नंतर, निरीक्षण Google धोरणाचे आवश्यकता अंतर्गत, इंडेक्स केले जाईल. निर्देशांक आणि त्याच वेळी स्टॉप येथे शोध - परंतु आम्ही कसे एक robots.txt माध्यमातून शोध इंजिन आपल्या साइट किंवा तुकड्यांच्या काढण्यासाठी आपण दाखवा.
एक संपूर्ण संसाधन जारी वगळण्यासाठी सर्व्हर साइटवर स्थित असेल मूळ फोल्डर मध्ये, एक विशिष्ट मजकूर क्षेत्र निर्माण म्हणाला - robots.txt. हे क्षेत्र वाचा सूचना त्यानुसार शोध इंजिन उपचार आणि कार्य आहे.
Google शोध इंजिन निर्देशांक पृष्ठ, वापरकर्ता प्रवेश आहे जरी बंदी घातली पाहण्यासाठी लक्षात ठेवा. ब्राउझर 401 किंवा 403 सह प्रतिसाद तेव्हा "प्रवेश अवैध आहे", तो फक्त अभ्यागतांना, ऐवजी या गोळा कार्यक्रम पेक्षा लागू शोध इंजिन.
हे समजून घेण्यासाठी कसे काढू शोध इंजिन अनुक्रमणिका साइट, मजकूर पॉईंटर खालील ओळी प्रविष्ट करणे आवश्यक आहे:
वापरकर्ता-एजंट: Googlebot
अनुमती देऊ नका: /
या साइटवरील सर्व सामग्री मनाई निर्देशांक सरपटत जाणारा करण्यासाठी सूचित करते. येथे कसे साइट काढू आढळले नंतरचे यादी संसाधन कॅश नाही, जेणेकरून, Google.
विविध प्रोटोकॉल स्कॅनिंग च्या या प्रश्नाचं उत्तर
आपण हायपरटेक्स्ट वेगवेगळी वैयक्तिक संचार मानके आपण Google अनुक्रमित उदाहरणार्थ, विशेष नियम लागू करू इच्छित असलेल्या यादी, गरज असेल तर, प्रोटोकॉल HTTP / HTTPS, तो खालील प्रकारे (उदाहरणार्थ) मध्ये robots.txt मध्ये नोंदणी आवश्यक आहे.
(Http://yourserver.com/robots.txt) - आपल्या साइटचे एक डोमेन नाव (कोणत्याही)
वापरकर्ता-एजंट: * - कोणत्याही शोध इंजिन
परवानगी द्या: / - संपूर्ण सूची तयार करण्याचा प्रघात परवानगी
समस्या पासून पूर्णपणे https प्रोटोकॉल एक साइट काढू कसे
(Https://yourserver.com/robots.txt):
वापरकर्ता-एजंट: *
अनुमती देऊ नका: अनुक्रमणिका वर / पूर्ण बंदी
Google SERPs पासून जलदपणे काढले URL- संसाधन पत्ते
आपण पुन्हा-सूची तयार करण्याचा प्रघात प्रतीक्षा करू इच्छित नाही, तर, आणि साइट आपण जसे लपवू इच्छित, मी शक्य तितक्या लवकर सेवा http://services.google.com/urlconsole/controller वापर शिफारस करतो. पूर्व robots.txt साइट सर्व्हरवर मूळ निर्देशिका मध्ये स्थीत करणे आहे. हे योग्य सूचना विहित पाहिजे.
काही कारणास्तव पॉईंटर मूळ निर्देशिका संपादित केले जाऊ शकत असेल तर, आपण शोध इंजिन पासून लपवू इच्छित जे लक्ष्य फोल्डरमध्ये पुरेसे तयार करा. आपण आपोआप हायपरटेक्स्ट पत्ते काढून सेवा हे आणि पहा की Google robots.txt मध्ये एक दोष बाहेर शुध्दलेखन की फोल्डर स्कॅन करणार नाही.
या अदृश्य कालावधी 3 महिने सेट आहे. या काळानंतर, समस्या माघार निर्देशिका, पुन्हा Google सर्व्हर करून प्रक्रिया केली जाईल.
अंशतः स्कॅन करण्यासाठी एक साइट काढू एच बहुधा
शोध सांगकाम्या robots.txt सामग्री वाचन केले जाते, तेव्हा काही निर्णय त्याच्या सामग्री आधारावर केले आहेत. आपण anatom म्हणतात संपूर्ण डिरेक्टरी दर्शवित आहे वगळण्यासाठी करू इच्छिता. अशा नियम लिहून पुरेसे आहे:
वापरकर्ता-एजंट: Googlebot
अनुमती देऊ नका: / anatom
किंवा, उदाहरणार्थ, आपण नाही निर्देशांक सर्व प्रतिमा प्रकार .gif इच्छित. हे करण्यासाठी, खालील यादी जोडा:
वापरकर्ता-एजंट: Googlebot
अनुमती देऊ नका: /*.gif$
अजून एक उदाहरण आहे. निर्देशांक नोंद प्रकार जोडताना त्यांना गतिकरित्या व्युत्पन्न केलेली पृष्ठे माहिती विश्लेषण हटविले जाणार, द्या:
वापरकर्ता-एजंट: Googlebot
अनुमती देऊ नका: / *?
त्या बद्दल आहे, आणि शोध इंजिन नियम बाहेर spells. दुसरी गोष्ट ते फक्त या मेटा टॅग वापरत जास्त सोयीस्कर आहे. आणि वेबमास्टर अनेकदा शोध इंजिन ऑपरेशन नियमन फक्त अशा मानक वापरा. पण आम्ही भविष्यात लेख या चर्चा करू.
Similar articles
Trending Now