robots.txt คืออะไร?
หากพูดให้เข้าใจง่ายๆ robots.txt คือไฟล์ข้อความธรรมดาที่มีคำสั่งสำหรับเว็บโรบอท ที่จะแนะนำว่าควรหรือไม่ควรค้นหาเว็บไซต์อย่างไร ไฟล์ robots.txt จะอยู่ที่โฟลเดอร์รูทของโดเมนของคุณ และสามารถเรียกใช้ได้จากลิงค์ https://www.example.com/robots.txt
แพลตฟอร์ม CMS หลักๆ ส่วนใหญ่มีวิธีการแก้ไข robots.txt ไม่ว่าจะผ่านทางแดชบอร์ดของตนเองหรือผ่านการใช้ปลั๊กอินที่ไม่ต้องสร้างไฟล์ robots.txt ใหม่เอง
โดยปกติแล้วคุณจะพบคำสั่งที่อนุญาตหรือจำกัดตัวแทนผู้ใช้ทั้งหมดหรือบางส่วนไม่ให้เข้าชมเว็บไซต์ของคุณหรือพื้นที่บางส่วนของเว็บไซต์ที่คุณไม่ต้องการให้โปรแกรมรวบรวมข้อมูลเข้าถึง
คุณอาจสงสัยว่าทำไมโปรแกรมค้นหาเว็บจึงอยากเยี่ยมชมเว็บไซต์ของคุณ? คำตอบคือ เนื้อหาที่โปรแกรมค้นหาดูจะถูกจัดทำดัชนีและแสดงให้ผู้เยี่ยมชมเห็นเป็นผลลัพธ์การค้นหาในเครื่องมือค้นหาต่างๆ เช่น Google, Bing, Yahoo ฯลฯ
เหตุผลที่คุณจะใช้ robots.txt
- คุณกำลังดำเนินการในหน้าใดหน้าหนึ่งบนเว็บไซต์ของคุณ และคุณต้องการป้องกันไม่ให้บอทสร้างดัชนีหน้าดังกล่าวจนกว่าจะเสร็จสิ้น การมีดัชนีหน้าที่ยังไม่เสร็จสมบูรณ์อาจส่งผลเสียต่อ SEO และการจัดอันดับของคุณในเครื่องมือค้นหา
- บอทอาจรวบรวมข้อมูลไฟล์และ URL บนเว็บไซต์ของคุณ ซึ่งมีข้อมูลที่ละเอียดอ่อนหรือโครงสร้างโค้ดของเว็บไซต์ของคุณ การกระทำดังกล่าวอาจส่งผลกระทบต่อความปลอดภัยของเว็บไซต์ ดังนั้นการไม่อนุญาตให้บอทรวบรวมข้อมูลจากไดเรกทอรีเฉพาะจึงถือเป็นสิ่งที่ดี
- บอทจะโจมตีคุณอยู่เป็นประจำ ทำให้การใช้ทรัพยากรของคุณเพิ่มขึ้น ส่งผลให้ประสิทธิภาพของเว็บไซต์ของคุณลดลง
วิธีการใช้งาน robots.txt
บล็อกบอททั้งหมดจากการเยี่ยมชมโฟลเดอร์ error_logs และ cache บนเว็บไซต์ของคุณ
User-Agent: * Disallow: /cache/ Disallow: /error_logs/
อนุญาตให้บอทที่เฉพาะเจาะจงรวบรวมข้อมูลบนเว็บไซต์ของคุณและป้องกันบอทที่เหลือ
User-Agent: Googlebot
Allow: /
User-Agent: *
Disallow: /
ป้องกันบอทเพียงตัวเดียวไม่ให้รวบรวมข้อมูลทั้งไซต์ของคุณ
User-Agent: BadBotExample Disallow: /
ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ .xls ทั้งหมด
User-agent: Googlebot
Disallow: /*.xls$
หยุด users-agent ทั้งหมดไม่ให้เข้าถึงเว็บไซต์
User-Agent: * Disallow: /
อนุญาตบอททั้งหมดเข้าไปเยี่ยมชมและจัดทำดัชนีเว็บไซต์ของคุณ
User-Agent: * Allow: /