Home » آموزش ها » مسدود کردن ربات گوگل و سایر ربات ها با کمک Robots.txt و htaccess و متا تگ ها

مسدود کردن ربات گوگل و سایر ربات ها با کمک Robots.txt و htaccess و متا تگ ها

این واقعیت که کاربران اینترنت هرچه را می خواهند باید دریافت کنند قابل انکار نیست، اما شما به عنوان مدیر یک سایت باید بدانید که حذف برخی صفحات از لیست نتایج جستجوی کاربر می تواند کاربر را بهتر به هدف خود برساند. به عبارتی شما می توانید برخی از منابع وب خود را از دسترس کاربران خارج کنید. در این مقاله قرار است باهم نگاهی به تکنیک هایی بیندازیم که می توانید از آنها برای مسدود کردن دسترسی به بخش های خاصی از منبع وب خود استفاده کنید.

مسدود کردن ربات گوگل و سایر ربات ها با کمک Robots.txt و htaccess و متا تگ ها

  • تنظیم پسورد

مسدود کردن دسترسی بر اساس htaccess-password یک راه واقعا مفید برای غیرقابل دسترس کردن برخی از بخش های منبع وب برای افراد غریبه است. با این حال، یک مشکل نگران کننده وجود دارد، اگر از نسخه دمو وب سایت خود استفاده می کنید، هیچ امکانی برای دائمی کردن این پسورد وجود ندارد.

  • Robots.txt

اگر مایل به استفاده از روش قبل نبودید، گوگل جایگزین دیگری به ما ارائه می دهد. روش دوم در واقع استفاده از robots.txt است. این ابزار به موتورهای جستجوگر اطلاع می دهد که برخی از قسمت های وب سایت در نتایج نمایش داده شده به کاربر گنجانده نمی شوند.
برای فعال کردن این ابزار از کد زیر استفاده کنید:

User-agent: * Disallow: / 

متاسفانه حتی این روش همیشه معتبر و قابل اعتماد نیست. مهندس نرم افزار گوگل، مت کاتس، تاکید می کند که موتورهای جستجو همچنان این صفحات را بدون توجه به robots.txt به عنوان نتایج مرتبط با درخواست مشتریان طبقه بندی می کنند.

  • استفاده از دستورات کاربردی .htaccess

اگر می‌خواهید دسترسی Google به منبع وب شما ممنوع شود، می‌توانید از htaccess استفاده کنید و موارد زیر را کدنویسی کنید:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]

RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]

RewriteCond %{HTTP_USER_AGENT} msnbot [OR]

RewriteCond %{HTTP_USER_AGENT} Slurp

RewriteRule ^.*$ "http\:\/\/htmlremix\.com" [R=301,L]

مطمئن شوید که URL پیش فرض را با URL خود جایگزین کرده اید.

  • متا تگ ها

با استفاده از متا تگ noindex در کد HTML می توانید وب سایت خود را از نتایج موتور جستجوی گوگل ناپدید کنید. در حین اسکن، ربات ها منبع وب شما را از موتورهای جستجو حذف می کنند. حتی اگر سایت های دیگر به وب سایت شما ارجاع داشته باشند.
 

به یاد داشته باشید که این ابزار فقط در صورتی درست کار می کند که منبع وب شما با کمک فایلی به نام Robots.txt مسدود شده باشد. در غیر این صورت، اسکنر ابزار شما را شناسایی نمی کند و تمام تلاش شما بیهوده خواهد بود و منبع وب شما همچنان در لیست صفحات نتایج جستجوی کاربر وجود خواهد داشت. به خصوص اگر وب سایت های دیگر به سایت شما ارجاع داشته باشند. جدای از این، متا تگ noindex در صورتی موثر خواهد بود که به منبع وب خود دسترسی روت نداشته باشید.
 

برای جلوگیری از ایندکس شدن صفحه خود از طریق وب اسکنرهای دیگر، باید متا تگ زیر را در قسمتی به نام <head> قرار دهید:

<meta name="robots" content="noindex">

اگر می خواهید دسترسی را فقط برای Google مسدود کنید، کد زیر را امتحان کنید:

<meta name="googlebot" content="noindex">

توجه داشته باشید که برخی از اسکنرها این اقدامات شما (متا تگ noindex) را به شیوه ای خاص تفسیر می کنند و ممکن است حتی پس از این عملیات، صفحه شما همچنان در بسیاری از موتورهای جستجو قابل مشاهده باشد.

 

حتی پس از پیاده سازی کدها، این احتمال وجود دارد که منبع وب شما، در لیست صفحات نتایج جستجوی کاربر باقی بماند. این اتفاق دلایل متعددی دارد، یکی از این دلایل ممکن است سپری نشدن زمان کافی برای تشخیص متا تگ توسط سیستم باشد. در این صورت این روش را با کمک اپلیکیشنی به نام Fetch دوباره انجام دهید. حتی پس از این کار هم ممکن است سیستم همچنان وب سایت شما را شناسایی کند. در این مرحله باید تگ را دوباره بررسی کنید.
 

این احتمال وجود دارد که سیستم فقط تگ شما را نبیند، فایل robots.txt خود را ویرایش کنید. سپس، کل فرآیند را دوباره امتحان کنید اما این بار از برنامه ای به نام Tester استفاده کنید.
 

امیدوارم آموزش بالا بتواند مشکل شما را حل کند.

نوشته مسدود کردن ربات گوگل و سایر ربات ها با کمک Robots.txt و htaccess و متا تگ ها اولین بار در بیست اسکریپت. پدیدار شد.

Add a Comment

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *