Robot.txt và SEO: Những gì bạn cần biết vào năm 2025

theanh

Administrator
Nhân viên
Giao thức loại trừ robot (REP), thường được gọi là robots.txt, đã là một tiêu chuẩn web kể từ năm 1994 và vẫn là một công cụ quan trọng để tối ưu hóa trang web cho đến ngày nay.

Tệp đơn giản nhưng mạnh mẽ này giúp kiểm soát cách các công cụ tìm kiếm và các bot khác tương tác với một trang web.

Các bản cập nhật gần đây đã khiến việc hiểu những cách tốt nhất để sử dụng nó trở nên quan trọng.

Tại sao robots.txt lại quan trọng​

Robots.txt là một tập hợp các hướng dẫn cho trình thu thập dữ liệu web, cho chúng biết những gì chúng có thể và không thể làm trên trang web của bạn.

Nó giúp bạn giữ riêng tư một số phần nhất định của trang web hoặc tránh thu thập dữ liệu các trang không quan trọng.

Bằng cách này, bạn có thể cải thiện SEO và giữ cho trang web của mình hoạt động trơn tru.

Thiết lập robots.txt của bạn file​

Việc tạo tệp robots.txt rất đơn giản.

Nó sử dụng các lệnh đơn giản để hướng dẫn trình thu thập thông tin về cách tương tác với trang web của bạn.

Các lệnh thiết yếu là:
  • User-agent, lệnh này chỉ định bot mà bạn đang nhắm mục tiêu.
  • Disallow, lệnh này cho bot biết nơi nó không được phép đến.
Sau đây là hai ví dụ cơ bản chứng minh cách robots.txt kiểm soát quyền truy cập của trình thu thập thông tin.

Lệnh này cho phép tất cả các bot thu thập thông tin toàn bộ trang web:

User-agent: * Disallow:

Lệnh này chỉ đạo các bot thu thập thông tin toàn bộ trang web ngoại trừ thư mục "Keep Out":

User-agent: * Disallow: /keep-out/

Bạn cũng có thể chỉ định một số trình thu thập thông tin nhất định để ở lại out:

User-agent: Googlebot Disallow: /

Ví dụ này hướng dẫn Googlebot không thu thập dữ liệu bất kỳ phần nào của trang web. Không khuyến khích, nhưng bạn hiểu ý rồi đấy.

Sử dụng ký tự đại diện​

Như bạn có thể thấy trong các ví dụ trên, ký tự đại diện (*) rất tiện dụng để tạo các tệp robots.txt linh hoạt.

Chúng cho phép bạn áp dụng các quy tắc cho nhiều bot hoặc trang mà không cần liệt kê từng bot hoặc trang.

Kiểm soát cấp trang​

Bạn có thể kiểm soát rất nhiều việc thu thập dữ liệu nếu cần.

Nếu bạn chỉ cần chặn một số trang nhất định thay vì chặn toàn bộ thư mục, bạn có thể chỉ chặn các tệp cụ thể. Điều này giúp bạn linh hoạt và chính xác hơn.

Ví dụ:

User-agent: * Disallow: /keep-out/file1.html Disallow: /keep-out/file2.html

Chỉ những trang cần thiết mới bị hạn chế, do đó nội dung có giá trị của bạn vẫn hiển thị.

Kết hợp các lệnh​

Trước đây, chỉ thị Disallow là chỉ thị duy nhất khả dụng và Google có xu hướng áp dụng chỉ thị hạn chế nhất trong tệp.

Những thay đổi gần đây đã giới thiệu chỉ thị Allow, cung cấp cho chủ sở hữu trang web quyền kiểm soát chi tiết hơn đối với cách thu thập thông tin trang web của họ.

Ví dụ: bạn có thể hướng dẫn bot chỉ thu thập thông tin qua thư mục "Quan trọng" và tránh xa mọi nơi khác:

User-agent: * Disallow: / Allow: /important/

Bạn cũng có thể kết hợp các lệnh để tạo ra các quy tắc phức tạp.

Bạn có thể sử dụng lệnh Allow cùng với lệnh Disallow để tinh chỉnh quyền truy cập.

Ví dụ:

User-agent: * Disallow: /private/ Allow: /private/public-file.html

Điều này cho phép bạn giữ cho một số tệp nhất định có thể truy cập được trong khi bảo vệ những tệp khác.

Vì mặc định của robots.txt là cho phép tất cả, nên việc kết hợp lệnh DisallowAllow thường không cần thiết. Giữ mọi thứ đơn giản thường là tốt nhất.

Tuy nhiên, có những tình huống đòi hỏi cấu hình nâng cao hơn.

Nếu bạn quản lý một trang web sử dụng tham số URL trên liên kết menu để theo dõi lượt nhấp qua trang web và bạn không thể triển khai thẻ chính tắc, bạn có thể tận dụng các lệnh robots.txt để giảm thiểu các sự cố nội dung trùng lặp.

Ví dụ:

User-agent: * Disallow: /*?*

Một tình huống khác mà trong đó có thể cần cấu hình nâng cao là nếu cấu hình sai khiến các URL chất lượng thấp ngẫu nhiên bật lên trong các thư mục được đặt tên ngẫu nhiên.

Trong trường hợp này, bạn có thể sử dụng tệp robots.txt để vô hiệu hóa tất cả các thư mục ngoại trừ những thư mục có nội dung có giá trị.

Ví dụ:

User-agent: * Disallow: / Allow: /essential-content/ Allow: /valuable-content-1/ Allow: /valuable-content-2/

Bình luận​

Bình luận có thể là một cách tiện lợi để phác thảo thông tin theo cách thân thiện hơn với con người.

Bình luận được dẫn đầu bằng dấu thăng (#).

Trên các tệp được cập nhật thủ công, tôi khuyên bạn nên thêm ngày tệp được tạo hoặc cập nhật.

Điều đó có thể giúp khắc phục sự cố nếu phiên bản cũ hơn vô tình được khôi phục từ bản sao lưu.

Ví dụ:

Tệp #robots.txt cho www.example-site.com – cập nhật ngày 22/3/2025 User-agent: * #disallowing low-value content Disallow: /bogus-folder/

Quản lý tốc độ thu thập dữ liệu​

Quản lý tốc độ thu thập dữ liệu là chìa khóa để kiểm soát tải máy chủ của bạn và đảm bảo lập chỉ mục hiệu quả.

Lệnh Crawl-delay cho phép bạn đặt độ trễ giữa các yêu cầu của bot.

Ví dụ:

User-agent: * Crawl-delay: 10

Trong ví dụ này, bạn yêu cầu bot đợi 10 giây giữa các yêu cầu, ngăn ngừa quá tải và giữ mọi thứ diễn ra suôn sẻ.

Các bot nâng cao có thể cảm nhận khi chúng đang quá tải máy chủ và lệnh Crawl-delay không còn cần thiết nhiều như trước đây nữa.

Tìm hiểu sâu hơn: Ngân sách thu thập dữ liệu: Những điều bạn cần biết vào năm 2025

Liên kết sơ đồ trang web XML​

Mặc dù Google và Bing muốn chủ sở hữu trang web gửi sơ đồ trang web XML của họ thông qua Google Search Console và Bing Webmaster Tools, nhưng vẫn một tiêu chuẩn được chấp nhận để thêm liên kết đến sơ đồ trang web XML của trang web ở cuối tệp robots.txt.

Có thể không cần thiết, nhưng việc thêm nó không gây hại và có thể hữu ích.

Ví dụ:

User-agent: * Disallow: Sitemap: https://www.my-site.com/sitemap.xml

Nếu bạn thêm liên kết vào sơ đồ trang web XML của mình, hãy đảm bảo URL đủ điều kiện.

Những cạm bẫy thường gặp với robots.txt​

Cú pháp không chính xác​

Đảm bảo các lệnh của bạn được định dạng chính xác và theo đúng thứ tự.

Sai sót có thể dẫn đến hiểu sai.

Kiểm tra robots.txt của bạn đối với lỗi trong Google Search Console – kiểm tra robots.txt nằm trong Cài đặt.

Hạn chế quá mức quyền truy cập​

Chặn quá nhiều trang có thể gây hại cho quá trình lập chỉ mục của trang web của bạn.

Sử dụng lệnh Không cho phép một cách khôn ngoan và cân nhắc đến tác động đến khả năng hiển thị tìm kiếm.

Điều này có thể áp dụng để chặn các bot cung cấp dữ liệu cho các công cụ tìm kiếm AI mới hơn.

Nếu bạn chặn các bot đó, bạn sẽ không có cơ hội xuất hiện trong các câu trả lời mà các dịch vụ đó tạo ra

Quên rằng các bot không phải lúc nào cũng tuân theo giao thức​

Không phải tất cả các con nhện đều tuân theo Giao thức loại trừ robot.

Nếu bạn cần chặn các bot không "hoạt động" tốt, bạn sẽ cần thực hiện các biện pháp khác để ngăn chặn chúng.

Điều quan trọng cần nhớ là việc chặn các con nhện trong robots.txt không đảm bảo thông tin sẽ không xuất hiện trong chỉ mục.

Ví dụ: Google cảnh báo cụ thể rằng các trang có liên kết đến từ các trang web khác có thể xuất hiện trong chỉ mục của Google.

Nếu bạn muốn đảm bảo các trang không xuất hiện trong chỉ mục, hãy sử dụng thẻ meta noindex.

Kết thúc​

Như đã đề cập ở trên, nhìn chung cách tốt nhất là giữ mọi thứ đơn giản với các tệp robots.txt. Tuy nhiên, những cập nhật về cách diễn giải khiến công cụ này trở nên mạnh mẽ hơn nhiều so với trước đây.

Để biết thêm thông tin chi tiết và ví dụ cụ thể, hãy xem các bài viết sau từ Google Search Central:
 
Back
Bên trên