robots.txt คืออะไร และใช้งานอย่างไร?

10 กรกฎาคม 2567
robots.txt คืออะไร และใช้งานอย่างไร?

robots.txt คืออะไร?

หากพูดให้เข้าใจง่ายๆ robots.txt คือไฟล์ข้อความธรรมดาที่มีคำสั่งสำหรับเว็บโรบอท ที่จะแนะนำว่าควรหรือไม่ควรค้นหาเว็บไซต์อย่างไร ไฟล์ robots.txt จะอยู่ที่โฟลเดอร์รูทของโดเมนของคุณ และสามารถเรียกใช้ได้จากลิงค์ https://www.example.com/robots.txt

แพลตฟอร์ม CMS หลักๆ ส่วนใหญ่มีวิธีการแก้ไข robots.txt ไม่ว่าจะผ่านทางแดชบอร์ดของตนเองหรือผ่านการใช้ปลั๊กอินที่ไม่ต้องสร้างไฟล์ robots.txt ใหม่เอง

โดยปกติแล้วคุณจะพบคำสั่งที่อนุญาตหรือจำกัดตัวแทนผู้ใช้ทั้งหมดหรือบางส่วนไม่ให้เข้าชมเว็บไซต์ของคุณหรือพื้นที่บางส่วนของเว็บไซต์ที่คุณไม่ต้องการให้โปรแกรมรวบรวมข้อมูลเข้าถึง

คุณอาจสงสัยว่าทำไมโปรแกรมค้นหาเว็บจึงอยากเยี่ยมชมเว็บไซต์ของคุณ? คำตอบคือ เนื้อหาที่โปรแกรมค้นหาดูจะถูกจัดทำดัชนีและแสดงให้ผู้เยี่ยมชมเห็นเป็นผลลัพธ์การค้นหาในเครื่องมือค้นหาต่างๆ เช่น Google, Bing, Yahoo ฯลฯ

เหตุผลที่คุณจะใช้ robots.txt

  • คุณกำลังดำเนินการในหน้าใดหน้าหนึ่งบนเว็บไซต์ของคุณ และคุณต้องการป้องกันไม่ให้บอทสร้างดัชนีหน้าดังกล่าวจนกว่าจะเสร็จสิ้น การมีดัชนีหน้าที่ยังไม่เสร็จสมบูรณ์อาจส่งผลเสียต่อ SEO และการจัดอันดับของคุณในเครื่องมือค้นหา
  • บอทอาจรวบรวมข้อมูลไฟล์และ URL บนเว็บไซต์ของคุณ ซึ่งมีข้อมูลที่ละเอียดอ่อนหรือโครงสร้างโค้ดของเว็บไซต์ของคุณ การกระทำดังกล่าวอาจส่งผลกระทบต่อความปลอดภัยของเว็บไซต์ ดังนั้นการไม่อนุญาตให้บอทรวบรวมข้อมูลจากไดเรกทอรีเฉพาะจึงถือเป็นสิ่งที่ดี
  • บอทจะโจมตีคุณอยู่เป็นประจำ ทำให้การใช้ทรัพยากรของคุณเพิ่มขึ้น ส่งผลให้ประสิทธิภาพของเว็บไซต์ของคุณลดลง

วิธีการใช้งาน robots.txt

บล็อกบอททั้งหมดจากการเยี่ยมชมโฟลเดอร์ error_logs และ cache บนเว็บไซต์ของคุณ

User-Agent: *
Disallow: /cache/
Disallow: /error_logs/

อนุญาตให้บอทที่เฉพาะเจาะจงรวบรวมข้อมูลบนเว็บไซต์ของคุณและป้องกันบอทที่เหลือ

User-Agent: Googlebot
Allow: /
User-Agent: *
Disallow: /

ป้องกันบอทเพียงตัวเดียวไม่ให้รวบรวมข้อมูลทั้งไซต์ของคุณ

User-Agent: BadBotExample
Disallow: /

ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ .xls ทั้งหมด

User-agent: Googlebot
Disallow: /*.xls$

หยุด users-agent ทั้งหมดไม่ให้เข้าถึงเว็บไซต์

User-Agent: *
Disallow: /

อนุญาตบอททั้งหมดเข้าไปเยี่ยมชมและจัดทำดัชนีเว็บไซต์ของคุณ

User-Agent: *
Allow: /