نگاه کلی به فایل ربات تکست
پس از این که محتواهای مختلف را در سایت بار گذاری می کنید، ربات های خزنده گوگل وارد کار شده و آن ها را بررسی می کنند. اما برای این کار باید ابتدا محتواها در گوگل کرول شده و سپس اعتبار آن ها، اعتبار لینک ها، و … توسط ربات ها بررسی شود. گوگل برای بررسی ایندکس شدن مطالب سایت از فایل ربات تکست استفاده می کند. robots.txt یک فایل بسیار مهم است که وضعیت ایندکس شدن سایت را بررسی و نظارت می کند. در واقع از طریق این فایل می توانید بررسی کنید که موتورهای جستجوگر از جمله گوگل، به چه قسمت هایی از سایت دسترسی داشته باشند و به چه قسمت هایی دسترسی نداشته باشند. اما استفاده از فایل ربات صرفا به همین تعریف محدود نمی شود. چرا که کوچک ترین اشتباه در این فایل می تواند یک آسیب جدی به سایت وارد کند. به همین جهت توصیه می کنم این مقاله را به صورت کامل و دقیق مطالعه کنید. سپس تغییرات دلخواه را مطابق با حوزه کاری و نیاز سایت روی فایل Robots.txt اعمال کنید.
فایل Robots.txt چیست و چرا مهمه؟
فایل ربات تکست یک فایل متنی است که توسط موتورهای جستجو از جمله گوگل مورد بررسی قرار می گیرد. این فایل توسط وب مستران با نام دیگر پروتکل Robots Exclusion Protocol یا RXP یا پروتکل حذف ربات ها نیز شناخته می شود. این فایل دستور العمل هایی دارد که از طریق آن تعیین می کنید ربات های گوگل مجوز دسترسی به کدام قسمت های سایت را دارند؟ ربات های گوگل از طریق خزیدن و بررسی صفحات مختلف سایت ها، مطالب آن ها را ایندکس می کنند. سپس با استفاده از الگوریتم های مختلف گوگل از جمله الگوریتم مرغ مگس خوار، الگوریتم پنگوئن، الگوریتم پاندا، الگوریتم کبوتر و … به این سایت ها رتبه می دهد. علاوه بر این، موتورهای جستجو لینک های هر صفحه از سایت را بررسی می کنند. اما زمانی که محتوای جدید، محصول جدید یا لینک سازی های جدید در سایت انجام می دهید، ربات ها نمی توانند سایت را به خوبی بررسی کنند. به همین دلیل ربات ها به فایل Robots.txt مراجعه می کنند تا وضعیت مجاز بودن و امکان بررسی صفحات جدید سایت مطلع شوند. موتورهای جستجو معمولا محتویات فایل ربات تکست را در خود ذخیره می کنند تا برای بررسی جدید نیاز به دانلود مجدد آن نداشته باشد. حتی در صورت به روز رسانی های مجدد، موتورهای جستجو می توانند با سرعت می توانند تغییرات اعمال شده در این سایت را منعکس کرده و بررسی کنند.
آیا همیشه کرولر ها به تمامی نکات در این فایل عمل میکنند؟
این موضوع که فایل ربات فایل بسیار مهم و حائز اهمیت است شکی در آن نیست ولی باید این موضوع را در نظر داشت که فقط میتوان گفت راهنمای بسیار خوب و جامعه میتواند برای باید ها یا نباید هایی باشد که ربات ها در وبسایت ما انجام دهد اما اگر شما یک صفحه ای را در این فایل غیر مجاز برای کرول در نظر گرفته اید نباید توقع داشته باشید که حتما این امر ۱۰۰ درصد محقق شود .
فایل ربات تکست در کجا قرار دارد؟
همان طور که در پاراگراف اول اشاره شد، یک اشتباه در وارد کردن اطلاعات به این فایل ممکن است روند سئوی سایت را به طور کلی مختل کند. اما سوال مهم این است که این فایل در مجا قرار دارد؟ فایل robots.txt در پوشه اصلی سایت (public-html) قرار دارد. برای مثال اگر آدرس سایت شما www.example.com باشد، فایل ربات تکست باید در example.com/robots.txt قابل دسترسی باشد. علاوه بر این، باید توجه داشته باشید که زمان نام گذاری به حروف بزرگ و کوچک توجه داشته باشید البته این مورد را باید در نظر بگیرید که ابزار هایی مانند افزونه یواست این فایل را برای سایت شما ایجاد میکنند .
مزایای استفاده از فایل Robots.txt چیست؟
سایت دارای صفحات زیاد و مختلف از جمله صفحه درباه ما، تماس با ما، صفحات محصولات، صفحات محصولات و … است. بدیهی است که بررسی کردن این صفحات توسط ربات ها کاری زمان بر و دشوار است. یکی از بهترین مزایای استفاده از فایل Robots.txt این است که می توانید با بهینه کردن آن به ربات های گوگل دستور دهید که فقط صفحات ضروری را پیمایش کنند. با این کار از ایندکس شدن صفحات غیر ضروری جلوگیری می شود. در نتیجه سرعت پیمایش کردن صفحات مختلف گوگل توسط ربات ها افزایش می یابد. علاوه بر این، رتبه بالاتری در موتورهای جستجو به دست می آورید. یکی از مزایای دیگر استفاده از این فایل این است که اگر سایت پر بازدیدی دارید، ممکن است پهنای باند زیاد و قدرت پردازشی بالایی توسط سرور برای بازدیدهای مجدد ربات های گوگل مصرف شود. به همین جهت کافی است از طریق فایل ربات تکست مشخص کنید که کدام صفحات پیمایش شود. بهترین مزایای استفاده از ROBOTS.TXT به شرح زیر است:
-
حذف محتواهای تکراری
یکی از امکانات ویژه ای که سایت های فروشگاهی دارند، امکان فیلتر کردن جستجو برای کاربران است تا محصول مورد نظرشان را پیدا کنند. اما اعمال شدن این فیلترها باعث ایجاد رشته هایی به صورت Query String می شود. این رشته ها در نهایت باعث گمراه شدن موتورهای جستجو می شوند. به این صفحات faceted Navigation می گویند. آدرس هایی که توسط این فیلترها اعمال می شود، باعث ایجاد محتواهای تکراری می شود. به همین جهت ممکن است باعث آسیب رسیدن به سئو سایت فروشگاهی شود.
-
مدیریت کردن آسان لینک ها
با استفاده از فایل ربات تکست می توانید لینک ها و آدرس صفحات را به راحتی مدیریت کنید. یکی از مسائل مهم در سئو سایت URL Cloacking یا مخفی کردن آدرس سایت است. در وافع آدرس این صفحات از دید کاربران و موتورهای جستجو مخفی می شود. با استفاده از این فایل می توانید این مدل لینک ها را مدیریت کرده و آن ها از دید موتورهای جستجو و کاربران حذف کنید. بیشتر این لینک ها مربوط به لینک های مرتبط به همکاری در فروش (Affiliate Marketing) است. برای مدیریت کردن این لینک ها می توانید آن ها را با عنوان Affiliate Links مدیریت کرده و آدرس ها را مخفی کنید. با این کار کاربر بیشتر برای کلیک کردن روی آن ها ترغیب می شود.
-
بهینه کردن بودجه خزش
به طور کلی ربات های جستجوی گوگل زمان بازدید مجدد از سایت، امکان بررسی کردن تعداد محدودی از صفحات را دارند. در واقع میزان منبع و زمان بررسی در اختیار ربات ها برای بررسی کردن مجدد یک سایت، محدود است. این مقادیر وابسته به اعتبار و صفحات سایت است. کارشناسان سئو به این محدودیت، بودجه خزش می گویند. با بلاک کردن قسمت های کم اهمیت سایت، می توانید از هدر رفتن بودجه خزش سایت جلوگیری کنید. به همین جهت با بهینه کردن فایل ربات تکست می توانید به ربات های گوگل بگویید از صفحات کم اهمیت صرف نظر کرده و به بررسی صفحات مهم بپردازند.
فایل ربات تکست چگونه کار می کند؟
فایل ربات تکست با وجود مزایای ویژه ای که دارد، یک ساختار ساده و آسان دارد. با این وجود نحوه عملکرد آن با استفاده از دستورات پیش فرض و ادغام شدن کلمات کلیدی از پیش تعیین شده صورت می گیرد. این فایل از دستورات ساده اما مهمی استفاده می کند که در ادامه به معرفی تک تک آن ها می پردازیم.
-
User Agent
از این دستور برای مشخص کردن رباتی که دستور برای آن نوشته شده، استفاده می شود. برای کاربران واقعی دستور user agent شامل نوع سیستم عامل و نوع مرورگر است و هیچ اطلاعات شخصی درون آن نیست. اما این اطلاعات به وب سایت ها کمک می کند که اطلاعات سازگار و مناسب با سیستم کاربر نمایش داده شود. user agent ربات های خزنده به ادمین سایت کمک می کند تا بتوانند همه ربات های خزنده که سایت را بررسی می کنند، بشناسند. برای اجرای این دستور می توانید بگویید ربات مورد نظرتان چه کاری انجام دهد. کافی پس پس از دستور user agent، نام ربات را بنویسید.
-
دستور Allow
Allow به معنی اجازه دادن است و به ربات های گوگل اجازه می دهد تا صفحاتی که مشخص کرده را بررسی کنند. صفحاتی که در مورد این دستور نوشته می شود، توسط ربات ها خزش و بررسی می شوند. با این وجود نوشتن این دستور الزامی نیست. چون ربات ها به صورت خودکار تمام صفحات را خزش می کنند. اما برخی از وب مستران برای تاکید بیشتر روی برخی از صفحات از این دستور استفاده می کنند.
-
دستور Disallow
پس از این که ربات های مورد نظر را مشخص کردید، باید دستورات مورد نظر را هم تعیین کنید. دستور disallow به معنی اجازه ندادن است. با استفاده از این دستور به ربات ها می گویید که چه صفحاتی را خزش نکنند. برای اجرای این دستور توجه داشته باشید کهroot domain نباید نوشته شود. فقط بعد از اسلش (/ ) باید شروع به نوشتن دستور کنید. به مثال زیر توجه کنید:
* User-agent:
Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
* Disallow: /page-strength/
* Disallow: /thumbs/
توجه داشته باشید که برای نوشتن دستور انجام ندادن، باید چندین دستور بنویسید.
-
دستور site map
همان طور که در مقاله site map” چیست؟" ذکر شد، این فایل یک فایل xml است که محتواهای موجود در سایت را فهرست می کند. روبروی این دستور، باید آدرس سایت مپ مورد نظرتان را بنویسید. این دستور برخلاف دستورات بالا نیازی به نوشتن *user agent ندارد. این دستور برای اطمینان حاصل کردن از این موضوع است که ربات تمام صفحات را پیمایش کند.
-
دستور crawl – delay
این دستور به صورت مستقیم روی سرعت آپلود شدن سایت تاثیر دارد. زمانی که تعداد ربات های خزنده زیاد باشد، با استفاده از این دستور، روی سرعت سایت تاثیری نمی گذارد. پس از نوشتن این دستور می توانید عدد مورد نظر را نوشته تا ربات به همان میزان صبر کرده و سپس شروع به خزیدن در سایت کند. در واقع هدف این دستور تعیین کردن محدودیت در میزان مصرف منابع سرور با تنظیم کردن میزان تاخیر بین بازدیدهای مختلف ربات های خزنده است.
نحوه ساخت فایل ربات تکست
با استفاده از برنامه note pad که به صورت پیش فرض روی همه ویندوزها وجود دارد، می توانید دستورات ذکر شده در بالا را بنویسید. خروجی این فایل به صورت TXT است و امکان درج آن وجود دارد. فرمت یا انکودینگ فایل حتماً باید UTF-8 باشد. پس از نوشتن دستورات آن را در قسمت سرور سایت آپلود کنید. فایل ربات تکست حتما باید در قسمت ROOT (پوشه اصلی میزبان سایت) آپلود شود. این فایل نباید درون پوشه یا دایرکتوری آپلود شود.
روش تست کردن فایل Robots.txt در سرچ کنسول گوگل
برای بررسی کردن صحت یا عدم درستی دستورات نوشته در این فایل می توانید از ابزار گوگل استفاده کنید. برای این کار از قبل باید سایت خود را در سرچ کنسول ثبت کنید. زمانی که سایت را ثبت کرده باشید، می توانید سایت مورد نظرتان را برای بررسی انتخاب کنید. بعد از انتخاب کردن سایت، به یک صفحه جدید هدایت می شوید. این صفحه حاوی آخرین فایل محتوای ربات تکست است که گوگل آن پیمایش و بررسی کرده است. در صورت وجود خطا می توانید فایل را در همین صفحه ویارایش کرده و مجددا دکمه را submit بزنید. با این کار یک صفحه جدید باز می شود که شامل سه دکمه است.
با انتخاب دکمه اول فایل جدید را می توانید دانلود کنید. سپس آن را به جای فایل قبلی در سرور میزبان آپلود کنید. پس از آپلود، دکمه View uploaded version را بزنید تا نسخه جدید باز شود. در نهایت دکمه submit را بزنید تا گوگل فایل جدید را بررسی کند.
اگر قصد دارید که فقط برخی از صفحات را بررسی کنید، آدرس صفحات را می توانید در نوار پایین صفحه وارد کنید. سپس رباتی که قصد بررسی آن را دارید، انتخاب کرده و دکمه test را بزنید. در همان لحظه می توانید ببینید که اجازه بررسی به ربات ها داده اید یا خیر؟
بررسی تست لایو در سرچ کنسول چه کمکی به تکنیکال ما می کند؟
یکی از بهترین امکانات و قابلیت هایی که جدیدا به ابزار تخصصی سرچ کنسول اضافه شده، بررسی تست لایو است. با استفاده از این قابلیت می توانید به بررسی سورس کد رندر شده در کدهای HTML سایت بپردازید. در قسمت گزارشی که در قسمت See Screenshot وجود دارد، نیز می توانید نسخه رندر شده هر صفحه را به صورت دقیق همراه با تغییرات جدیدی که نمایش می دهد، مشاهده و بررسی کنید. در واقع از طریق کلیک کردن روی بخش crawl می توانید اطلاعات مختلفی از قبیل crawl و ایندکس شدن صفحات مختلف سایت را بررسی کنید. سپس در صورتی که به دلایل مختلف صفحات سایت ایندکس نشده، اقدامات مهم در این زمینه را انجام دهید. سپس با کلیک روی گزینه view HTTP Responsive یک ستون در سمت راست باز می شود. در این ستون می توانید اطلاعات مهمی را با استفاده از ابزار live test سرچ کنسول مشاهده نمایید.
پس از این که خطاهای مهم ایندکس نشدن سایت را در قسمت تست لایو مشاهده کردید، می توانید با رفع آن ها با سرعت بیشتری به روند ایندکس شدن صفحات مختلف کمک کنید. این کار در نهایت تاثیر زیادی در بهبود وضعیت تکنیکال و فنی سایت دارد.
سخن پایانی در آموزش ربات
در این مقاله با فایل ربات تکست، اهمیت استفاده از آن در سایت، و مزایایی که برای سایت های پر بازدید یا سایت های نوپا دارد، آشنا شدید. همچنین به معرفی کامل دستورات مهم این فایل آشنا پرداخته شد. با مطالعه این مقاله به راحتی می توانید این فایل را در سرور سایت خود آپلود کرده و از مزایای آن بهره مند. پس از مطالعه این مقاله نظرات و تجربیات خود را با ما در میان بگذارید.