Cách xử lý nhanh lỗi Blocked by robots.txt trong Google Search Console
Google Search Console (GSC) là một công cụ vô giá dành cho quản trị viên web, cung cấp thông tin chi tiết và chẩn đoán để duy trì và tối ưu hóa hiệu suất trong việc thực hiện SEO Website. Một vấn đề phổ biến thường xuất hiện trong GSC là lỗi Blocked by robots.txt. Dưới đây là cách xử lý nhanh lỗi này qua các bước sau:
- Bước 1: Xác định các trang bị ảnh hưởng bởi lỗi Blocked by robots.txt
- Bước 2: Xem lại tệp Robots.txt
- Bước 3: Xác định cố ý và vô ý chặn
- Bước 4: Cập nhật tệp Robots.txt
- Bước 5: Xác thực và yêu cầu thu thập lại dữ liệu
- Bước 6: Giám sát và bảo trì
Việc xử lý lỗi Blocked by robots.txt trong Google Search Console là rất quan trọng để duy trì khả năng hiển thị và đảm bảo rằng nội dung có giá trị trên trang web của bạn được thu thập thông tin và lập chỉ mục chính xác.

Nguyên nhân, ảnh hưởng và hướng dẫn xử lý chi tiết lỗi Blocked by robots.txt
Nguyên nhân xuất hiện lỗi Blocked by robots.txt
Lỗi Blocked by robots.txt trong Google Search Console cho biết rằng một số trang trên trang web của bạn đang bị các bot công cụ tìm kiếm ngăn không cho thu thập dữ liệu do các lệnh được chỉ định trong tệp robots.txt của bạn. Tệp này được sử dụng để hướng dẫn trình thu thập thông tin những trang hoặc phần nào của trang web không được truy cập hoặc lập chỉ mục. Dưới đây là một số nguyên nhân phổ biến khiến lỗi Blocked by robots.txt xuất hiện trong Google Search Console:
Cố ý chặn
- Trang riêng tư hoặc nhạy cảm: Các trang như khu vực quản trị, trang đăng nhập hoặc nội dung dành riêng cho người dùng bị chặn có chủ ý để bảo vệ thông tin nhạy cảm và tránh để lộ các trang không cần thiết cho công cụ tìm kiếm.
- Trang web giai đoạn hoặc phát triển: Các trang web trong môi trường phát triển hoặc dàn dựng thường bị chặn để ngăn chặn việc lập chỉ mục nội dung chưa hoàn chỉnh hoặc thử nghiệm.
- Nội dung trùng lặp: Các trang có nội dung trùng lặp hoặc gần trùng lặp có thể bị chặn để tránh vấn đề trùng lặp nội dung trong kết quả tìm kiếm.
Tệp robots.txt bị sai cấu hình
- Chỉ thị sai: Sai cấu hình trong tệp robots.txt, chẳng hạn như chỉ thị “Disallow” không chính xác, có thể vô tình chặn việc thu thập dữ liệu các trang quan trọng.
- Quy tắc chặn rộng rãi: Các quy tắc rộng rãi áp dụng cho các phần lớn của trang web có thể vô tình chặn các trang quan trọng. Ví dụ: quy tắc như “Disallow: /” sẽ chặn toàn bộ trang web.
Quy tắc kế thừa
- Quy tắc lỗi thời: Các chỉ thị cũ không còn phù hợp nhưng vẫn tồn tại trong tệp robots.txt có thể chặn các trang hiện quan trọng đối với SEO.
- Những quy tắc cũ bị lãng quên: Các quy tắc tạm thời được thêm vào trong quá trình phát triển hoặc cho các dự án cụ thể chưa bao giờ bị xóa có thể dẫn đến các trang bị chặn.

Lỗi kỹ thuật
- Lỗi cú pháp: Lỗi cú pháp của file robots.txt có thể dẫn đến việc chặn ngoài ý muốn. Ví dụ: thiếu dấu gạch chéo hoặc khoảng cách không chính xác có thể làm thay đổi hành vi của lệnh.
- Vấn đề về khả năng truy cập tệp: Nếu không thể truy cập được tệp robots.txt do sự cố máy chủ, công cụ tìm kiếm có thể cho rằng toàn bộ trang web không được phép.
Thay đổi về cấu trúc trang web
- URL hoặc đường dẫn được cập nhật: Những thay đổi trong cấu trúc URL hoặc đường dẫn tệp của trang web không được cập nhật trong tệp robots.txt có thể dẫn đến việc các trang quan trọng mới bị chặn.
- Phần hoặc trang mới: Các phần hoặc trang mới được thêm vào trang web không được xem xét khi thiết lập quy tắc robots.txt có thể vô tình bị chặn.
Sử dụng nhiều tệp Robots.txt
Tên miền phụ và nhiều thư mục: Nếu một trang web sử dụng nhiều tệp robots.txt cho các tên miền phụ hoặc thư mục khác nhau thì sự không nhất quán giữa các tệp này có thể dẫn đến việc chặn ngoài ý muốn.
Những ảnh hưởng đến website bởi lỗi Blocked by robots.txt
Việc quản lý tệp robots.txt đúng cách sẽ giúp tránh việc vô tình chặn các trang quan trọng và đảm bảo sử dụng ngân sách thu thập dữ liệu của bạn một cách hiệu quả nhưng nếu làm sai lỗi này có thể có một số tác động đáng kể đến SEO và hiệu suất tổng thể của trang web của bạn. Dưới đây là những tác động chính:
Giảm khả năng hiển thị khi tìm kiếm
- Các trang chưa được lập chỉ mục: Các trang nằm trong lỗi Blocked by robots.txt sẽ không được công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục. Điều này có nghĩa là chúng sẽ không xuất hiện trong các trang kết quả của công cụ tìm kiếm (SERP), làm giảm khả năng hiển thị tổng thể của trang web của bạn.
- Mất lưu lượng truy cập: Nếu các trang quan trọng như trang đích chính, trang sản phẩm/dịch vụ hoặc những trang nội dung có giá trị bị chặn, điều đó có thể dẫn đến mất lưu lượng truy cập không phải trả tiền đáng kể vì người dùng sẽ không thể truy cập được những trang này qua công cụ tìm kiếm.
Lãng phí ngân sách thu thập dữ liệu
- Thu thập thông tin không hiệu quả: Công cụ tìm kiếm phân bổ ngân sách thu thập dữ liệu cụ thể cho từng trang web, xác định số lượng trang sẽ được thu thập thông tin trong một khung thời gian nhất định. Khi ngân sách thu thập dữ liệu được sử dụng trên các trang bị chặn, nó sẽ lãng phí các tài nguyên có giá trị mà lẽ ra có thể được sử dụng tốt hơn trên các trang cần được lập chỉ mục.
- Lập chỉ mục bị trì hoãn: Việc sử dụng quỹ thu thập dữ liệu không hiệu quả có thể trì hoãn việc lập chỉ mục nội dung mới hoặc cập nhật, nghĩa là những thay đổi quan trọng có thể không được cập nhật kịp thời trong kết quả tìm kiếm.

Trải nghiệm người dùng tiêu cực
- Nội dung không có sẵn: Người dùng tìm kiếm thông tin cụ thể có thể không tìm thấy thông tin đó nếu các trang liên quan bị chặn lập chỉ mục. Điều này có thể dẫn đến sự thất vọng và trải nghiệm tiêu cực cho người dùng vì người dùng không tìm thấy nội dung họ đang tìm kiếm.
- Điều hướng bị hỏng: Nếu các trang điều hướng bị chặn, điều này có thể khiến người dùng khó điều hướng trang web và tìm nội dung liên quan hơn, dẫn đến trải nghiệm người dùng kém.
Bỏ lỡ cơ hội SEO
- Giá trị backlink chưa thực hiện: Các trang có backlink trỏ tới nhưng bị robots.txt chặn sẽ không chuyển giá trị SEO của chúng cho trang đó, vì công cụ tìm kiếm không thể thu thập dữ liệu các trang này để nhận ra backlink.
- Cơ hội xếp hạng từ khóa: Việc chặn các trang có từ khóa mục tiêu cụ thể có thể dẫn đến bỏ lỡ cơ hội xếp hạng cho những từ khóa đó, có khả năng cho phép đối thủ cạnh tranh nắm bắt lưu lượng tìm kiếm đó.
Phân tích và báo cáo không chính xác
- Dữ liệu chưa đầy đủ: Chặn các trang quan trọng có thể dẫn đến lỗ hổng trong dữ liệu phân tích và hiệu suất. Nếu không có dữ liệu chính xác về các trang này hoạt động trong tìm kiếm, bạn sẽ khó đưa ra quyết định sáng suốt về chiến lược SEO của mình.
- Số liệu gây hiểu lầm: Số liệu về lưu lượng truy cập và mức độ tương tác có thể bị sai lệch nếu các phần quan trọng trên trang web của bạn bị chặn, dẫn đến thông tin chi tiết có thể gây hiểu lầm.
Tác động đến tổng thể trang web
Khi nội dung quan trọng bị chặn, nó có thể ảnh hưởng đến thẩm quyền tổng thể và độ tin cậy của trang web của bạn. Công cụ tìm kiếm có thể không hiểu đầy đủ nội dung của bạn, dẫn đến thứ hạng tổng thể thấp hơn.
Hướng dẫn chi tiết cách khắc phục lỗi Blocked by robots.txt
Việc xử lý lỗi Blocked by robots.txt trong Google Search Console một cách nhanh chóng và hiệu quả đòi hỏi một cách tiếp cận có hệ thống để xác định nguyên nhân gốc rễ và khắc phục vấn đề. Hãy làm theo các bước sau để khắc phục lỗi kịp thời:
Xác định các trang bị ảnh hưởng
- Bước 1: Truy cập Google Search Console: Đăng nhập vào tài khoản Google Search Console của bạn.
- Bước 2: Điều hướng đến mục ‘Page’ trong phần ‘Indexing’
- Bước 3: Lọc các trang bị chặn: Tìm trạng thái có nhãn “Blocked by robots.txt” để xem danh sách tất cả các trang bị ảnh hưởng.

Xem lại tệp Robots.txt
- Bước 1: Xác định vị trí tệp robots.txt: Truy cập tệp robots.txt của bạn bằng cách điều hướng đến www.yourdomain.com/robots.txt.
- Bước 2: Phân tích các quy tắc: Xem lại các chỉ thị trong tệp robots.txt. Các lệnh phổ biến bao gồm Disallow (ngăn không cho thu thập thông tin các đường dẫn đã chỉ định) và User-agent (chỉ định các quy tắc áp dụng cho trình thu thập thông tin).
Xác định cố ý chặn và vô ý chặn
- Cố ý chặn: Xác định các trang bị cố ý chặn, chẳng hạn như trang quản trị, trang đăng nhập,.. Những trang này thường bị chặn vì lý do bảo mật hoặc quyền riêng tư.
- Chặn không chủ ý: Tìm kiếm các trang quan trọng, chẳng hạn như trang đích, trang sản phẩm/dịch vụ và trang có nội dung giá trị có thể đã bị chặn ngoài ý muốn.
Cập nhật tệp Robots.txt
- Sửa đổi quy tắc chặn: Đối với bất kỳ trang quan trọng nào được xác định là bị chặn ngoài ý muốn, hãy cập nhật tệp robots.txt để xóa lệnh “Disallow” cho các trang đó.

Xác thực và yêu cầu thu thập lại dữ liệu
- Bước 1: Công cụ kiểm tra URL: Sử dụng công cụ Kiểm tra URL (INSPECT URL) trong Google Search Console để kiểm tra xem các trang còn bị robots.txt chặn nữa hay không.
- Bước 2: Yêu cầu lập chỉ mục: Yêu cầu thu thập lại thông tin và lập chỉ mục lại các trang bị ảnh hưởng. Điều này sẽ nhắc Google thu thập lại thông tin và lập chỉ mục các trang đã cập nhật với lệnh robots.txt đã sửa.

Cập nhật sơ đồ trang web
- Đảm bảo rằng sơ đồ trang web XML của bạn được cập nhật và bao gồm tất cả các trang quan trọng mà bạn muốn lập chỉ mục.
- Gửi lại sơ đồ trang web: Gửi sơ đồ trang web đã cập nhật trong Google Search Console để giúp Google khám phá và thu thập dữ liệu các trang được cập nhật một cách hiệu quả.
Giám sát và bảo trì thường xuyên
- Giám sát thường xuyên: Thường xuyên kiểm tra các báo cáo trong Google Search Console để biết bất kỳ trường hợp trang mới nào bị Blocked by robots.txt.
- Kiểm tra định kỳ: Tiến hành kiểm tra định kỳ tệp robots.txt của bạn để đảm bảo tệp phù hợp với chiến lược SEO của bạn.
Xem video hướng dẫn chi tiết tại:
Kết luận
Việc xử lý lỗi Blocked by robots.txt trong Google Search Console là rất quan trọng để duy trì khả năng hiển thị tìm kiếm tối ưu và đảm bảo rằng nội dung có giá trị trên trang web của bạn được thu thập thông tin và lập chỉ mục chính xác.
Bằng cách làm theo các bước trên, đảm bảo rằng các trang quan trọng của bạn được lập chỉ mục và hiển thị trong kết quả tìm kiếm. Việc giám sát thường xuyên, phối hợp phù hợp và chủ động quản lý tệp robots.txt sẽ giúp duy trì một trang web lành mạnh và được tối ưu hóa, nâng cao khả năng hiển thị, cải thiện hiệu suất SEO trang web và trải nghiệm người dùng tổng thể. Chúc bạn thành công!