Home » รับทำ SEO ต้องรู้จัก Robots.txt ช่วยเพิ่มประสิทธิภาพการ Crawl เว็บไซต์
การมี Robots.txt เป็นตัวช่วยหนึ่งในการทำ SEO การรับทำ SEO จำเป็นต้องมีสิ่งนี้คือ Robots.txt เปรียบเสมือนป้ายบอกทางไม่ให้หลงทาง ถ้าไม่มีเจ้าสิ่งนี้เปรียบเสมือนเราเดินทางในท้องถนนอันกว้างขวางอย่างไร้จุดหมายปลายทางไม่มีที่สิ้นสุด ถ้าพูดเชิงเทคนิคจะประมาณว่า Robots.txt เปรียบเสมือนป้ายกำกับและป้ายห้าม เป็นเหมือนการเขียน Robots.txt กำกับวิธีการ Crawl เว็บไซต์ของบอท ซึ่งสำคัญกับเรื่องการจัดการข้อมูล เนื่องจากปกติธรรมชาติของ Search Engine Crawler คือ การเข้ามาค้นเว็บไซต์และจัดทำดัชนีโดยอัตโนมัติอยู่แล้ว หากเราไม่เขียนป้ายห้าม บอทก็จะเข้าไปค้นทุกอย่าง ซึ่งรวมถึงข้อมูลส่วนตัว/ข้อมูลที่ไม่อยากเผยแพร่ เช่น รายชื่อสมาชิก เอกสารภายใน ข้อมูลส่วนตัวของสมาชิกบนเว็บไซต์ ฯลฯ
Robots.txt สำคัญอย่างไรต่อการทำ SEO?
Robots.txt เครื่องมือสำคัญของการทำ SEO คือ ไฟล์ข้อความหรือสคริปต์ (Script) ที่เขียนขึ้นเพื่อบอกให้บอทของ Search Engine รู้ว่า สามารถเข้าไปเก็บข้อมูลหน้าเพจไหน คอนเทนต์ไหน ไฟล์ไหนในเว็บไซต์ได้บ้างหรือจะให้ยกเว้นการเข้าไปเก็บข้อมูล (Crawling) และทำดัชนี (Indexing) ของหน้าเพจหรือคอนเทนต์ไหน หรือกล่าวง่าย ๆ คือ บอกว่าบอทสามารถดูอะไรได้หรือไม่ได้บ้าง
บริการรับทำ SEO: ทำความเข้าใจกระบวนการ Crawl Bot กับการจัดอันดับเว็บไซต์
หากพูดในเชิงการรับทำ SEO การทำ Crawl ก็เปรียบเสมือนกระบวนการที่ Web Crawlers หรือ Bots (เช่น Googlebot, Bingbot) เข้าไปเยี่ยมชมและเก็บข้อมูลจากหน้าเว็บต่างๆ บนอินเทอร์เน็ต เพื่อนำข้อมูลเหล่านั้นไปประมวลผลและจัดทำดัชนี (Indexing) ในฐานข้อมูลของเสิร์ชเอนจิน
ในกรณีที่ใช้บริการรับทำ SEO กับบริษัทรับทำการตลาดหรือเอเจนซี่ จะช่วยเตรียมเว็บไซต์ให้พร้อมสำหรับการเข้ามาของ Crawl Bot โดยจะเน้นการปรับแต่งโครงสร้างพื้นฐานที่เอื้อต่อการทำงานของ Bot เพื่อให้สามารถเก็บข้อมูลได้อย่างมีประสิทธิภาพและนำไปสู่การจัดอันดับที่ดีบนหน้าผลการค้นหา
ทำ SEO อย่างมีประสิทธิภาพ จำเป็นต้องมี Robots.txt หรือไม่?
Robots.txt มีสำคัญต่อการรับทำ SEO อย่างยิ่ง เพราะ Robots.txt สามารถช่วยป้องกันไม่ให้ Search Engine Bot เข้ามาค้นและจัดทำ Index เอาหน้าเพจที่เราไม่ต้องการไปแสดงเป็นผลลัพธ์การค้นหา เช่น หน้าเสิร์ชคอนเทนต์บนเว็บไซต์ หน้าเพจที่สร้างขึ้นมาอัตโนมัติบนเว็บไซต์ ป้องกันการ Index ไฟล์รูปภาพหรือไฟล์เอกสารที่เราไม่ต้องการให้ไปปรากฏบนหน้าเสิร์ช (SERPs)
1.ป้องกันการเข้าถึงหน้าที่ซ้ำซ้อน
ป้องกันการเข้าถึงหน้าที่ไม่ต้องการให้แสดง : Robots.txt ช่วยบล็อกไม่ให้บอทเข้ามาค้นหาหน้าที่ซ้ำซ้อน หน้าที่ไม่ได้ถูกเผยแพร่ หรือหน้าที่ไม่ควรแสดงผลบนการค้นหา เช่น หน้าเข้าสู่ระบบ หรือหน้าสมาชิกที่ไม่จำเป็นต้องแสดง
2.เพิ่มประสิทธิภาพการใช้งาน Crawl Budget เว็บไซต์
Crawl Budget คือ จำนวนหน้าที่เครื่องมือค้นหาสามารถค้นหาได้ในระยะเวลาหนึ่ง Robots.txt จะช่วยลดการเข้าถึงหน้าที่ไม่จำเป็น ทำให้บอทเก็บข้อมูลได้ดีขึ้น มีความเจาะจงมากขึ้น ส่งผลให้เว็บไซต์มีโอกาสถูกจัดอันดับในผลการค้นหาได้มากขึ้น และได้ Web Performance ที่ดีขึ้น
3.ป้องกันบอทไม่ให้ทำ Index ไฟล์บนเว็บไซต์ที่ทำ SEO
การป้องกันบอทจากการทำ Index ไฟล์สำหรับเว็บไซต์ที่ทำ SEO เป็นเรื่องสำคัญที่ผู้ให้บริการรับทำ SEO ต้องให้ความใส่ใจ เนื่องจากในบางครั้งเราจำเป็นต้องควบคุมการเข้าถึงข้อมูลบางส่วนจากเครื่องมือค้นหา โดยเฉพาะไฟล์ประเภทต่างๆ เช่น PDF วิดีโอ หรือรูปภาพที่ต้องการเก็บเป็นความลับหรือจำกัดการเข้าถึง
การใช้ไฟล์ Robots.txt เป็นวิธีที่มีประสิทธิภาพในการควบคุมการเข้าถึงของบอทค้นหา ผู้ให้บริการ SEO จึงควรตกลงร่วมกับเจ้าของเว็บไซต์อย่างละเอียดเกี่ยวกับประเภทของไฟล์ที่ต้องการปกป้อง รวมถึงส่วนไหนของเว็บไซต์ที่ควรให้บอทเข้าถึงได้ และนโยบายความเป็นส่วนตัวในการรักษาความปลอดภัยของข้อมูล การตั้งค่า Robots.txt อย่างเหมาะสมจะช่วยให้เว็บไซต์สามารถทำ SEO ได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาความปลอดภัยของข้อมูลสำคัญไว้ได้
สคริปต์และคำสั่ง Robots.txt ที่ชาว SEO ควรรู้มีอะไรบ้าง?
สคริปต์ Robots.txt คือ ไฟล์ที่ใช้ในการบอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหา และส่วนไหนไม่ควรถูกค้นหา โดยหลัก ๆ สคริปต์สำคัญ ๆ ที่ผู้ให้บริการรับทำ SEO ต้องรู้ ดังนี้
- User-Agent คือ คำสั่งที่ใช้สื่อสารกับบอทโดยตรง ว่า User-agent ต้องการใช้ Robots.txt อย่างไร โดยส่วนใหญ่จะใช้คำสั่ง “User-agent: *” ซึ่งแสดงว่าทุก Search Engine Robots ต้องการใช้ไฟล์ Robots.txt
- Disallow คือ คำสั่งที่ใช้เพื่อบอกบอทว่า URLs ที่มีคำสั่งนี้ไม่ควรถูกเข้าถึง หรือ Crawling โดยสามารถระบุเส้นทางหรือเริ่มต้น URL ที่ต้องการป้องกันได้
- Allow คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหา โดยใช้เครื่องหมาย “/” เพื่อระบุหน้าเว็บไซต์หรือโฟลเดอร์ที่ต้องการให้ค้นหา
- Sitemap คือ คำสั่งที่ใช้บอก Search Engine Robots ว่ามีไฟล์ Sitemap อยู่ที่ไหน เพื่อช่วยให้ Search Engine Robots สามารถเข้าถึงและดาวน์โหลดไฟล์ Sitemap ได้อย่างง่ายดาย
ทำไมผู้ให้บริการรับทำ SEO จึงแนะนำให้มี Robots.txt?
ประโยชน์ของ Robots.txt ที่ทุกเว็บไซต์ควรจะต้องทำไว้ หลัก ๆ คือ การกำกับว่าไฟล์ไหน หน้าเพจไหนที่เราต้องการให้บอทเข้ามาเก็บข้อมูลหรือไม่เข้ามาเก็บข้อมูล (Allow or Disallow) ซึ่งจะช่วยรักษาข้อมูลที่ควรเก็บเป็นความลับและช่วยเพิ่มประสิทธิภาพในบริการรับทำ SEO คือในหลาย ๆ กรณีด้วยกัน
ยกตัวอย่างการใช้ Robots.txt กับเว็บไซต์ที่ทำ SEO เช่น
- ช่วยป้องกัน Duplicate Content ไม่ให้ไปแสดงบนหน้าเสิร์ชเดียวกัน
- ช่วยป้องกันไฟล์หรือข้อมูลที่เป็นความลับหรือข้อมูลภายในของเว็บไซต์ เช่น ข้อมูลสมาชิก ไฟล์เอกสารของสมาชิกเว็บไซต์
- ช่วยป้องกันไม่ให้หน้าที่ถูกสร้างขึ้นโดยอัตโนมัติของปลั๊กอิน (Plug-in) หรือระบบเว็บไซต์ถูก Index แล้วไปแสดงบนหน้า SERPs (ซึ่งจะทำให้ Google มองว่า เว็บเรามีหน้าเพจคุณภาพต่ำหลายหน้า เช่น หน้า Thank You เป็นต้น คะแนน Performance ของเว็บไซต์ก็จะลดต่ำลง)
- ช่วยให้บอทเข้าถึงแผนผังเว็บไซต์ (Sitemap) ได้ง่ายขึ้น เพราะ Robots.txt เป็นสคริปต์แรกที่บอทจะเข้ามาอ่าน หากเขียน Sitemap ไว้ด้วย ก็มั่นใจได้ว่าบอทจะรู้ที่อยู่ Sitemap ของเว็บไซต์เรา
- ช่วยป้องกันไม่ให้บอททำ Index ไฟล์บนเว็บไซต์ที่เราไม่ต้องการบนเว็บไซต์ที่ทำ SEO เช่น ไฟล์รูปภาพต่าง ๆ ไฟล์เอกสาร PDFs หรือไฟล์อื่น ๆ ที่ไม่ต้องการให้คนเข้าถึงผ่านการค้นหา
- ช่วยลดภาระการ Crawl เว็บไซต์ของบอท ทำให้บอทเก็บข้อมูลได้ดีขึ้น มีความเจาะจงมากขึ้น ส่งผลให้เว็บไซต์มีทิศทางและมี Web Performance ที่ดีขึ้น
ข้อควรระวังสำหรับผู้รับทำ SEO:การตั้งค่า Robots.txt ที่อาจส่งผลเสียต่อเว็บไซต์
ข้อควรระวังของการเขียน Robots.txt คือ การเขียนคำสั่งหรือ Script ที่ไม่ถูกต้อง เนื่องจากไฟล์โรบอทเป็นไฟล์แรกที่บอทจะเข้ามาอ่าน ถ้าเขียนไม่ถูกต้อง หรือกำกับคำสั่งผิด ก็จะส่งผลต่อการเก็บข้อมูลและทำ Index ของเว็บไซต์ของเราทั้งหมด เช่น บอทไม่ทำ Index หน้าที่สำคัญหรือหน้าที่เราอยากให้ติดอันดับ SEO หรือไม่ Index เว็บไซต์เราเลย การทำ SEO Checklist ที่ครอบคลุมจะช่วยให้คุณเขียนไฟล์ Robots.txt ได้อย่างถูกต้องและไม่ส่งผลกระทบต่อบริการรับทำ SEO ของเว็บไซต์
ทั้งนี้ ในเรื่องของการเขียนสคริปต์คำสั่งให้ถูกต้อง เราสามารถตรวจสอบได้ง่าย ๆ ผ่าน Google Search Console ด้วยเครื่องมือ Robots Testing Tool ได้ โปรแกรมนี้จะช่วยตรวจโค้ดที่เราเขียนให้ ดูว่าผิดไวยากรณ์หรือมีข้อผิดพลาดในเชิงตรรกะการทำงานอะไรหรือเปล่า
หากมีข้อผิดพลาดหรือน่าสงสัย Robot Testing Tool จะเตือนจำนวน Errors และ Warnings ให้ แต่ถ้าไม่มีข้อผิดพลาด จะขึ้นเป็น “0” (ศูนย์)
สรุป
ไฟล์ robots.txt เป็นไฟล์ข้อความที่ใช้กำหนดว่าบอทของเครื่องมือค้นหา (เช่น Googlebot, Bingbot) สามารถเข้าถึงและรวบรวมข้อมูล (Crawl) ส่วนใดของเว็บไซต์ได้บ้าง
- robots.txt ช่วยควบคุมการเข้าถึงบอท ลดภาระเซิร์ฟเวอร์ และปรับปรุงการทำ SEO
- ควรใช้อย่างระมัดระวัง ไม่ควรบล็อกหน้าที่ต้องการให้ติดอันดับ
- ใช้ร่วมกับ Sitemap เพื่อช่วยให้บอท Crawl ได้มีประสิทธิภาพมากขึ้น
คำถามที่พบบ่อย
Robots.txt คืออะไร และสำคัญต่อการรับทำ SEO อย่างไร?
ไฟล์ข้อความที่ควบคุมการทำงานของ Search Engine Bot ช่วยกำหนดหน้าที่ต้องการให้ค้นหาและไม่ค้นหา เพิ่มประสิทธิภาพการทำ SEO
ทำไมการทำ SEO จำเป็นต้องมี Robots.txt?
ช่วยป้องกัน Duplicate Content จัดการ Crawl Budget ให้บอทค้นหาหน้าสำคัญได้ดีขึ้น และป้องกันข้อมูลส่วนตัวจากการถูก Index
คำสั่งพื้นฐานใดบ้างที่ควรรู้เมื่อใช้ Robots.txt?
User-agent, Disallow, Allow และ Sitemap เป็นคำสั่งสำคัญในการควบคุมการทำงานของ Search Engine Bot
การตั้งค่า Robots.txt ผิดพลาดส่งผลต่อการทำ SEO อย่างไร?
อาจทำให้บอทไม่ Index หน้าสำคัญที่ต้องการให้ติดอันดับ หรือไม่ Index เว็บไซต์เลย ส่งผลเสียต่อการรับทำ SEO
Crawl Budget คืออะไรและสำคัญต่อ SEO อย่างไร?
จำนวนหน้าที่เครื่องมือค้นหาสามารถค้นหาได้ในระยะเวลาหนึ่ง การจัดการที่ดีช่วยให้บอทเก็บข้อมูลได้อย่างมีประสิทธิภาพ