“Bị robots.txt chặn.”
“Đã lập chỉ mục, mặc dù bị robots.txt chặn.”
Hai phản hồi này từ Google Search Console đã gây chia rẽ các chuyên gia SEO kể từ khi báo cáo lỗi của Google Search Console (GSC) trở nên phổ biến.
Cần phải giải quyết vấn đề này một lần và mãi mãi. Bắt đầu trò chơi.
Có một sự khác biệt chính giữa “Blocked by robots.txt” và “Indexed, though blocked by robots.txt.”
Lập chỉ mục.
“Blocked by robots.txt” có nghĩa là URL của bạn sẽ không xuất hiện trong tìm kiếm của Google.
“Indexed, though blocked by robots.txt” có nghĩa là URL của bạn đã được lập chỉ mục và sẽ xuất hiện trong tìm kiếm của Google ngay cả khi bạn đã cố gắng chặn các URL trong tệp robots.txt.
Câu trả lời: Không.
Không có URL nào bị chặn hoàn toàn khỏi quá trình lập chỉ mục của các công cụ tìm kiếm nếu bạn không cho phép URL đó trong tệp robots.txt.
Vấn đề giữa các chuyên gia SEO và các lỗi Google Search Console này là các công cụ tìm kiếm không hoàn toàn bỏ qua URL của bạn nếu URL đó được liệt kê là không được phép và bị chặn trong robots.txt tệp.
Trong tài liệu trợ giúp của mình, Google tuyên bố rằng không đảm bảo rằng trang sẽ không được lập chỉ mục nếu bị robots.txt chặn.
Tôi đã thấy điều này xảy ra trên các trang web mà tôi quản lý và cả các chuyên gia SEO khác.
Lily Ray chia sẻ cách các trang bị chặn bởi tệp robots.txt đủ điều kiện để xuất hiện trong Tổng quan AI với một đoạn trích.
Xem lại thủ công tất cả các trang được đánh dấu trong báo cáo ‘Bị chặn bởi robots.txt’Đầu tiên, tôi đã xem xét thủ công tất cả các trang được đánh dấu trong báo cáo "Bị chặn bởi robots.txt" của Google Search Console.
Quét tài liệu xuất của bạn để tìm các URL có mức độ ưu tiên cao mà công cụ tìm kiếm muốn nhìn thấy.
Khi bạn thấy lỗi "Bị robots.txt chặn", lỗi này sẽ yêu cầu Google không thu thập URL vì bạn đã triển khai lệnh disallow trong tệp robots.txt cho một mục đích cụ thể.
Hoàn toàn bình thường khi chặn URL khỏi các công cụ tìm kiếm.
Ví dụ: bạn có thể chặn các trang cảm ơn khỏi các công cụ tìm kiếm. Hoặc các trang tạo khách hàng tiềm năng chỉ dành cho nhóm bán hàng.
Mục tiêu của bạn với tư cách là một chuyên gia SEO là xác định xem các URL được liệt kê trong báo cáo có thực sự bị chặn và tránh bởi các công cụ tìm kiếm hay không.
Nếu bạn cố ý thêm disallow vào robots.txt, báo cáo sẽ chính xác và bạn không cần thực hiện bất kỳ hành động nào.
Nếu bạn vô tình thêm disallow vào robots.txt, hãy đọc tiếp.
Nếu bạn vô tình thêm lệnh disallow vào URL, hãy xóa lệnh disallow theo cách thủ công khỏi tệp robots.txt.
Sau khi xóa lệnh disallow khỏi tệp robots.txt, hãy gửi URL đến Kiểm tra Thanh URL ở đầu Google Search Console.
Sau đó, nhấp vào Yêu cầu lập chỉ mục.
Nếu bạn có nhiều URL trong toàn bộ một thư mục, hãy bắt đầu với URL thư mục đầu tiên. Nó sẽ có tác động lớn nhất.
Mục tiêu là để các công cụ tìm kiếm thu thập lại dữ liệu các trang này và lập chỉ mục lại các URL.
Một cách khác để báo hiệu cho Google thu thập dữ liệu các trang bạn vô tình không cho phép là Yêu cầu thu thập lại dữ liệu trong Google Search Console.
Trong Google Search Console, hãy đi tớiCài đặt > robots.txt.
Sau đó, chọn ba dấu chấm bên cạnh tệp robots.txt mà bạn muốn Google thu thập lại dữ liệu và chọn Yêu cầu thu thập lại dữ liệu.
Sau khi bạn đã dọn dẹp các lệnh disallow trong tệp robots.txt và gửi URL của mình để thu thập lại dữ liệu, hãy sử dụng Wayback Machine để kiểm tra thời điểm tệp robots.txt của bạn được cập nhật lần cuối.
Điều này có thể giúp bạn biết được tác động tiềm ẩn của lệnh disallow đối với một URL cụ thể.
Sau đó, báo cáo về hiệu suất trong ít nhất 90 ngày sau khi lập chỉ mục URL.
Một lần nữa, hãy vào và xem lại thủ công tất cả các trang được gắn cờ trong báo cáo “Đã lập chỉ mục, mặc dù bị robots.txt chặn” của Google Search Console.
Để truy cập báo cáo, hãy vào Bảng điều khiển > Trang > của Google Search và xem trong phần Đã lập chỉ mục, mặc dù bị robots.txt chặn.
Xuất dữ liệu để lọc sang Google Trang tính, Excel hoặc CSV.
Hãy tự hỏi:
Nếu URL này không phải là URL bị chặn bởi các công cụ tìm kiếm, hãy tiếp tục đọc.
Nếu bạn vô tình thêm lệnh disallow vào URL, hãy xóa lệnh disallow theo cách thủ công khỏi tệp robots.txt.
Sau khi xóa lệnh disallow khỏi tệp robots.txt, hãy gửi URL đến thanh Kiểm tra URL ở đầu Google Search Console. Sau đó, nhấp vào Yêu cầu lập chỉ mục.
Sau đó, trong Google Search Console, hãy đi tớiCài đặt > robots.txt > Yêu cầu thu thập lại dữ liệu.
Bạn muốn Google thu thập lại dữ liệu các trang này để lập chỉ mục URL và tạo lưu lượng truy cập.
Nếu bạn không muốn lập chỉ mục trang, hãy cân nhắc thêm thẻ noindex thay vì sử dụng lệnh disallow trong robots.txt.
Bạn vẫn cần xóa lệnh disallow khỏi robots.txt.
Nếu bạn giữ cả hai, báo cáo lỗi "Đã lập chỉ mục, mặc dù bị robots.txt chặn" trong Google Search Console sẽ tiếp tục tăng và bạn sẽ không bao giờ giải quyết được vấn đề.
Nếu bạn muốn xóa hoàn toàn URL khỏi công cụ tìm kiếm, bạn phải đưa vào thẻ noindex. Thẻ disallow trong tệp robots.txt không đảm bảo rằng trang sẽ không được lập chỉ mục.
Tệp robots.txt không được sử dụng để kiểm soát việc lập chỉ mục. Tệp robots.txt được sử dụng để kiểm soát việc thu thập thông tin.
Không. Nếu bạn đang sử dụng thẻ noindex trên một URL, đừng từ chối URL đó trong robots.txt.
Bạn cần để các công cụ tìm kiếm thu thập thông tin thẻ noindex để phát hiện ra nó.
Nếu bạn đưa cùng một URL vào lệnh disallow trong tệp robots.txt, các công cụ tìm kiếm sẽ khó thu thập thông tin URL đó để xác định rằng thẻ noindex tồn tại.
Khi bạn thấy bất kỳ báo cáo lỗi robots.txt nào trong Google Search Console tăng đột biến, bạn có thể muốn từ bỏ lập trường của mình về lý do tại sao bạn chọn chặn các công cụ tìm kiếm khỏi một URL cụ thể.
Ý tôi là, không thể URL chỉ bị chặn khỏi công cụ tìm kiếm?
Có, URL nên và có thể bị chặn khỏi công cụ tìm kiếm vì một lý do. Không phải tất cả các URL đều có nội dung chu đáo, hấp dẫn dành cho công cụ tìm kiếm.
Giải pháp tự nhiên, giải pháp cho báo cáo lỗi này trong Google Search Console là luôn kiểm tra các trang của bạn và xác định xem nội dung có dành cho mắt công cụ tìm kiếm hay không.
“Đã lập chỉ mục, mặc dù bị robots.txt chặn.”
Hai phản hồi này từ Google Search Console đã gây chia rẽ các chuyên gia SEO kể từ khi báo cáo lỗi của Google Search Console (GSC) trở nên phổ biến.
Cần phải giải quyết vấn đề này một lần và mãi mãi. Bắt đầu trò chơi.
Sự khác biệt giữa ‘Blocked by robots.txt’ và ‘Indexed, though blocked by robots.txt’ là gì?
Có một sự khác biệt chính giữa “Blocked by robots.txt” và “Indexed, though blocked by robots.txt.”
Lập chỉ mục.
“Blocked by robots.txt” có nghĩa là URL của bạn sẽ không xuất hiện trong tìm kiếm của Google.
“Indexed, though blocked by robots.txt” có nghĩa là URL của bạn đã được lập chỉ mục và sẽ xuất hiện trong tìm kiếm của Google ngay cả khi bạn đã cố gắng chặn các URL trong tệp robots.txt.

URL của tôi có thực sự bị chặn khỏi các công cụ tìm kiếm nếu tôi không cho phép URL đó trong tệp robots.txt không?
Câu trả lời: Không.
Không có URL nào bị chặn hoàn toàn khỏi quá trình lập chỉ mục của các công cụ tìm kiếm nếu bạn không cho phép URL đó trong tệp robots.txt.
Vấn đề giữa các chuyên gia SEO và các lỗi Google Search Console này là các công cụ tìm kiếm không hoàn toàn bỏ qua URL của bạn nếu URL đó được liệt kê là không được phép và bị chặn trong robots.txt tệp.
Trong tài liệu trợ giúp của mình, Google tuyên bố rằng không đảm bảo rằng trang sẽ không được lập chỉ mục nếu bị robots.txt chặn.

Lily Ray chia sẻ cách các trang bị chặn bởi tệp robots.txt đủ điều kiện để xuất hiện trong Tổng quan AI với một đoạn trích.
Ray tiếp tục hiển thị ví dụ từ Goodreads. Hiện tại, một URL đang bị robots.txt chặn.Tin mới nhất: các trang bị robots.txt chặn đủ điều kiện để xuất hiện trong Tổng quan AI. Với một đoạn trích.
Thông thường, khi Google phục vụ các trang bị chặn trong kết quả tìm kiếm của mình, nó sẽ hiển thị "Không có thông tin nào cho trang này" trong phần mô tả.
Nhưng với AIO, rõ ràng Google sẽ hiển thị… pic.twitter.com/JrlSwWGJH9
— Lily Ray(@lilyraynyc) 19 tháng 11 năm 2024
Patrick Stox đã đánh dấu một URL bị robots.txt chặn có thể được lập chỉ mục nếu có liên kết trỏ đến URL.Một điều tôi thấy rất nhiều trong AIO: có vẻ như khi một trang web nào đó được coi là nguồn tài nguyên tốt về chủ đề này, trang web đó có thể nhận được 3-5 liên kết trong AIO.
Trong ví dụ này, Goodreads có 5 URL khác nhau được trích dẫn trong phản hồi (bao gồm một URL hiện đang bị robots.txt chặn) pic.twitter.com/Akilxvrk8v
— Lily Ray(@lilyraynyc) 19 tháng 11 năm 2024
Các trang bị robots.txt chặn có thể được lập chỉ mục và phục vụ trên Google nếu chúng có liên kết trỏ đến.@danielwaisberg bạn có thể làm rõ hơn điều này trong cảnh báo thử nghiệm trực tiếp trong GSC không? pic.twitter.com/6AybwEU8Bf
— Patrick Stox (@patrickstox) Ngày 3 tháng 2 năm 2023
Làm thế nào để sửa lỗi ‘Bị robots.txt chặn’ trong Google Search Console?
Xem lại thủ công tất cả các trang được đánh dấu trong báo cáo ‘Bị chặn bởi robots.txt’Đầu tiên, tôi đã xem xét thủ công tất cả các trang được đánh dấu trong báo cáo "Bị chặn bởi robots.txt" của Google Search Console.
Để truy cập báo cáo, hãy đi tới Google Search Console > Trang > và xem phần Bị robots.txt chặn.
Sau đó, xuất dữ liệu sang Google Trang tính, Excel hoặc CSV để lọc.
Xác định xem bạn có muốn chặn URL khỏi công cụ tìm kiếm hay không

Quét tài liệu xuất của bạn để tìm các URL có mức độ ưu tiên cao mà công cụ tìm kiếm muốn nhìn thấy.
Khi bạn thấy lỗi "Bị robots.txt chặn", lỗi này sẽ yêu cầu Google không thu thập URL vì bạn đã triển khai lệnh disallow trong tệp robots.txt cho một mục đích cụ thể.
Hoàn toàn bình thường khi chặn URL khỏi các công cụ tìm kiếm.
Ví dụ: bạn có thể chặn các trang cảm ơn khỏi các công cụ tìm kiếm. Hoặc các trang tạo khách hàng tiềm năng chỉ dành cho nhóm bán hàng.
Mục tiêu của bạn với tư cách là một chuyên gia SEO là xác định xem các URL được liệt kê trong báo cáo có thực sự bị chặn và tránh bởi các công cụ tìm kiếm hay không.
Nếu bạn cố ý thêm disallow vào robots.txt, báo cáo sẽ chính xác và bạn không cần thực hiện bất kỳ hành động nào.
Nếu bạn vô tình thêm disallow vào robots.txt, hãy đọc tiếp.
Xóa lệnh disallow khỏi robots.txt nếu bạn vô tình thêm lệnh này
Nếu bạn vô tình thêm lệnh disallow vào URL, hãy xóa lệnh disallow theo cách thủ công khỏi tệp robots.txt.
Sau khi xóa lệnh disallow khỏi tệp robots.txt, hãy gửi URL đến Kiểm tra Thanh URL ở đầu Google Search Console.
Sau đó, nhấp vào Yêu cầu lập chỉ mục.

Mục tiêu là để các công cụ tìm kiếm thu thập lại dữ liệu các trang này và lập chỉ mục lại các URL.
Yêu cầu thu thập lại dữ liệu tệp robots.txt của bạn
Một cách khác để báo hiệu cho Google thu thập dữ liệu các trang bạn vô tình không cho phép là Yêu cầu thu thập lại dữ liệu trong Google Search Console.
Trong Google Search Console, hãy đi tớiCài đặt > robots.txt.


Theo dõi hiệu suất trước và sau
Sau khi bạn đã dọn dẹp các lệnh disallow trong tệp robots.txt và gửi URL của mình để thu thập lại dữ liệu, hãy sử dụng Wayback Machine để kiểm tra thời điểm tệp robots.txt của bạn được cập nhật lần cuối.
Điều này có thể giúp bạn biết được tác động tiềm ẩn của lệnh disallow đối với một URL cụ thể.
Sau đó, báo cáo về hiệu suất trong ít nhất 90 ngày sau khi lập chỉ mục URL.
Làm thế nào để sửa lỗi 'Đã lập chỉ mục, mặc dù bị robots.txt chặn' trong Google Search Console?
Xem lại thủ công tất cả các trang được gắn cờ trong báo cáo ‘Đã lập chỉ mục, mặc dù bị robots.txt chặn’
Một lần nữa, hãy vào và xem lại thủ công tất cả các trang được gắn cờ trong báo cáo “Đã lập chỉ mục, mặc dù bị robots.txt chặn” của Google Search Console.
Để truy cập báo cáo, hãy vào Bảng điều khiển > Trang > của Google Search và xem trong phần Đã lập chỉ mục, mặc dù bị robots.txt chặn.
Xuất dữ liệu để lọc sang Google Trang tính, Excel hoặc CSV.

Xác định xem bạn có ý định chặn URL khỏi các công cụ tìm kiếm hay không
Hãy tự hỏi:
- URL này có thực sự nên được lập chỉ mục không?
- Có nội dung nào có giá trị đối với những người tìm kiếm trên các công cụ tìm kiếm không?
Nếu URL này không phải là URL bị chặn bởi các công cụ tìm kiếm, hãy tiếp tục đọc.
Xóa lệnh disallow khỏi robots.txt và yêu cầu thu thập lại dữ liệu nếu bạn muốn lập chỉ mục trang
Nếu bạn vô tình thêm lệnh disallow vào URL, hãy xóa lệnh disallow theo cách thủ công khỏi tệp robots.txt.
Sau khi xóa lệnh disallow khỏi tệp robots.txt, hãy gửi URL đến thanh Kiểm tra URL ở đầu Google Search Console. Sau đó, nhấp vào Yêu cầu lập chỉ mục.
Sau đó, trong Google Search Console, hãy đi tớiCài đặt > robots.txt > Yêu cầu thu thập lại dữ liệu.
Bạn muốn Google thu thập lại dữ liệu các trang này để lập chỉ mục URL và tạo lưu lượng truy cập.
Thêm thẻ noindex nếu bạn muốn xóa hoàn toàn trang khỏi công cụ tìm kiếm
Nếu bạn không muốn lập chỉ mục trang, hãy cân nhắc thêm thẻ noindex thay vì sử dụng lệnh disallow trong robots.txt.
Bạn vẫn cần xóa lệnh disallow khỏi robots.txt.
Nếu bạn giữ cả hai, báo cáo lỗi "Đã lập chỉ mục, mặc dù bị robots.txt chặn" trong Google Search Console sẽ tiếp tục tăng và bạn sẽ không bao giờ giải quyết được vấn đề.
Tại sao tôi nên thêm thẻ noindex thay vì sử dụng lệnh disallow trong robots.txt?
Nếu bạn muốn xóa hoàn toàn URL khỏi công cụ tìm kiếm, bạn phải đưa vào thẻ noindex. Thẻ disallow trong tệp robots.txt không đảm bảo rằng trang sẽ không được lập chỉ mục.
Tệp robots.txt không được sử dụng để kiểm soát việc lập chỉ mục. Tệp robots.txt được sử dụng để kiểm soát việc thu thập thông tin.
Tôi có nên đưa cả thẻ noindex và lệnh disallow vào cùng một URL không?
Không. Nếu bạn đang sử dụng thẻ noindex trên một URL, đừng từ chối URL đó trong robots.txt.
Bạn cần để các công cụ tìm kiếm thu thập thông tin thẻ noindex để phát hiện ra nó.
Nếu bạn đưa cùng một URL vào lệnh disallow trong tệp robots.txt, các công cụ tìm kiếm sẽ khó thu thập thông tin URL đó để xác định rằng thẻ noindex tồn tại.
Tạo một chiến lược thu thập thông tin rõ ràng cho trang web của bạn là cách tránh lỗi robots.txt trong Google Search Console
Khi bạn thấy bất kỳ báo cáo lỗi robots.txt nào trong Google Search Console tăng đột biến, bạn có thể muốn từ bỏ lập trường của mình về lý do tại sao bạn chọn chặn các công cụ tìm kiếm khỏi một URL cụ thể.
Ý tôi là, không thể URL chỉ bị chặn khỏi công cụ tìm kiếm?
Có, URL nên và có thể bị chặn khỏi công cụ tìm kiếm vì một lý do. Không phải tất cả các URL đều có nội dung chu đáo, hấp dẫn dành cho công cụ tìm kiếm.
Giải pháp tự nhiên, giải pháp cho báo cáo lỗi này trong Google Search Console là luôn kiểm tra các trang của bạn và xác định xem nội dung có dành cho mắt công cụ tìm kiếm hay không.