Trang chủ Onpage SEO File Robots.txt là gì? Hướng dẫn tạo file Robots.txt chuẩn SEO

File Robots.txt là gì? Hướng dẫn tạo file Robots.txt chuẩn SEO

bởi Nguyễn Thành Tiến
file robots.txt là gì?

Nếu bạn đang sở hữu website Wordpress thì chắc hẳn bạn đã một lần xem qua tệp Robots.txt rồi phải không? Vậy bạn có thắc mắc file Robots.txt là gì không? Bài viết này tôi sẽ giải thích rõ thuật ngữ này cũng như hướng dẫn các cách tạo Robots.txt với Wordpress cực kỳ đơn giản. Hãy đọc hết nội dung bài nhé!

File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng .txt được sử dụng nhiều trong quản trị web. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa các tiêu chuẩn về web để cho robot công cụ tìm kiếm biết những trang nào trên website của bạn mà chúng có thể và không thể thu thập thông tin, truy cập, index và cung cấp nội dung đó đến người dùng.

REP bao gồm các lệnh như meta robot, cũng như Page-Subdirectory, Site-Wide Instructions. Những lệnh này có nhiệm vụ hướng dẫn cách để các công cụ tìm kiếm xử lý các liên kết (chẳng hạn như “Follow” hoặc “nofollow”).

file Robot.txt là gì?

Tìm hiểu file Robot.txt là gì?

File robots.txt được sử dụng để chặn các robot truy cập vào trang web. File robots.txt thường là nơi đầu tiên mà trình thu thập thông tin truy cập khi truy cập một trang web. Ngay cả khi bạn muốn Google bot truy cập vào tất cả trang web, bạn vẫn nên thêm tệp robots.txt.

File robots.txt là gì? Cái nhìn tổng quan về SEO với robots.txt

Cú pháp của file robots.txt

File robots.txt có định dạng cơ bản sau:

  • User-agent:
  • Disallow:
  • Allow:
  • Crawl-delay:
  • Sitemap:

Trong đó:

  • User-agent: Là tên của trình thu thập thông tin hay truy cập dữ liệu web như Googlebot, Bingbot,…
  • Disallow: Phần này có nhiệm vụ thông báo cho các User-agent để không thu thập dữ liệu URL  nào bất kì. Mỗi URL được sử dụng tối đa 1 dòng Disallow.
  • Allow (áp dụng cho Googlebot): Thông báo cho Googlebot truy cập một trang hay một thư mục con. Mặc dù các trang hay thư mục con này có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler thời gian phải đợi để tải và thu thập nội dung trang web. Tuy nhiên, lệnh này không có tác dụng với GoogleBot. Do đó, bạn nên cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Dùng để cung cấp vị trí Sitemap XML  được liên kết với trang web. Lưu ý là lệnh này chỉ được hỗ trợ trên công cụ Google, Ask, Bing và Yahoo.

Theo định dạng cơ bản của robots.txt, bạn có thể lược bỏ bớt phần Crawl-delay và Sitemap. Thực tế, một file robots.txt sẽ chứa nhiều dòng User-agent và nhiều lệnh của người dùng hơn. Mỗi dòng của các lệnh: Disallow, Allow, Crawl-delay,…trong file robots.txt chỉ định cho một con bot khác nhau và viết cách nhau bởi 1 dòng.

Trong file robots.txt, bạn có thể chỉ định các lệnh cho các con bot bằng cách viết liên tục không cách dòng. Trong trường hợp một file robots.txt gồm nhiều lệnh cho 1 loại bot thì bot sẽ thực hiện  theo lệnh mà được viết rõ ràng và đầy đủ nhất.

Các tệp đặc biệt trong robots.txt

File robots.txt có cần thiết không?

Việc tạo file robots.txt cung cấp cho bạn nhiều quyền kiểm soát hơn đối với những khu vực nhất định trên trang web. Điều này rất nguy hiểm nếu bạn làm sai một vài thao tác khiến Google Bot không thể index website của bạn.

Tuy nhiên, việc tạo file robots.txt thật sự rất hữu ích cho website. Những lợi ích có thể kể đến:

  • Ngăn chặn việc thu thập nội dung trùng lặp.
  • Giữ các phần của một trang web ở chế độ riêng tư.
  • Ngăn chặn việc thu thập thông tin của các trang kết quả tìm kiếm nội bộ.
  • Chống quá tải cho máy chủ.
  • Hạn chế tình trạng Google lãng phí  trong “ngân sách thu thập thông tin”.
  • Ngăn hình ảnh , video và các tệp tài nguyên xuất hiện trong kết quả tìm kiếm của Google.

Mặc dù Google không Index các trang web bị chặn trong robots.txt, nhưng không đảm bảo các trang này được loại trừ khỏi kết quả tìm kiếm. Như Google nói rằng nếu nội dung được liên kết đến từ những nơi khác trên website thì nó vẫn có thể xuất hiện trong kết quả tìm kiếm của Google.

Nếu không có khu vực nào trên website bạn muốn kiểm soát quyền truy cập thì có thể không cần tệp robots.txt.

File robots.txt hoạt động như thế nào?

Công cụ tìm kiếm có hai công việc chính:

  • Thu thập thông tin trên website để khám phá nội dung.
  • Index nội dung đó để cung cấp cho người dùng đang tìm kiếm thông tin.
Nhiệm vụ của file robots.txt là thu thập và index nội dung

Công việc chính của file robots.txt là thu thập và Index nội dung

Để thu thập dữ liệu các trang web, công cụ tìm kiếm sẽ đi theo các liên kết để đi từ trang này sang trang khác. Cuối cùng, nó thu thập thông tin qua hàng tỷ liên kết và trang web. Quá trình thu thập thông tin này được gọi là “Spidering”.

Sau khi đến một trang web, trình thu thập thông tin sẽ tìm kiếm file robots.txt. Nếu nó tìm thấy một tệp thì trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang kế tiếp.

Bởi vì file robots.txt chứa thông tin về cách công cụ tìm kiếm thu thập thông tin. Cho nên, thông tin tìm thấy ở đó sẽ hướng dẫn trình thu thập thông tin thêm nhiều nội dung cho các trang web cụ thể này.

Nếu tệp robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của User-agent hoặc nếu trang web không có tệp robots.txt thì nó sẽ tiến hành thu thập thông tin khác trên trang web.

File robots.txt nằm ở đâu trên website?

Khi bạn tạo website trên Wordpress, nó sẽ tự động tạo ra một file robots.txt trong thư mục gốc của tên miền.

Ví dụ: để kiểm soát hành vi thu thập thông tin của tên miền “domain.com” , bạn có thể truy cập tệp robots.txt tại site “domain.com/robots.txt”. Nếu bạn muốn kiểm soát việc thu thập thông tin trên một miền phụ như  “blog.domain.com”, thì có thể truy cập tệp robots.txt  tại “blog.domain.com/robots.txt” .

Nếu bạn đang sử dụng WordPress, tệp robots.txt có thể được tìm thấy trong thư mục public_html của trang web.

Vị trí file robots.txt trên website wordpress

Vị trí file robots.txt trên website wordpress

WordPress bao gồm tệp robots.txt theo mặc định với cài đặt mới sẽ bao gồm những phần:

User-agent: *

Disallow: / wp-admin /

Disallow: / wp-bao gồm /

Ở trên là yêu cầu tất cả các bot thu thập thông tin tất cả các phần của trang web ngoại trừ nội dung trong thư mục / wp-admin / hoặc / wp-include /.

Cách kiểm tra website có file robots.txt hay không

Để kiểm tra xem website của bạn đã có file robots.txt chưa, bạn chỉ cần nhập tên miền gốc, sau đó thêm /robots.txt vào cuối URL.

Ví dụ: domain.com/robots.txt.

Nếu không có trang .txt nào xuất hiện, có nghĩa là bạn không có file robots.txt.

Cách tạo file robots.txt trong WordPress 

Khi bạn đã quyết định những gì sẽ xuất hiện trong tệp robots.txt của mình thì việc còn lại chính là tiến hành các bước tạo lập. Bạn có thể chỉnh sửa robots.txt trong WordPress bằng cách sử dụng plugin hoặc thủ công. Trong phần này, tôi sẽ hướng dẫn 3 cách tạo file robots.txt đơn giản trong Wordpress.

Tạo File robots.txt với plugin Yoast SEO

Để tối ưu hóa trang web WordPress của mình, bạn có thể sử dụng các plugin SEO. Các plugin này đều chứa một trình tạo tệp robots.txt riêng. Trong phần này, tôi sẽ tạo một file robots.txt bằng plugin Yoast SEO. Sử dụng các plugin, bạn sẽ dễ dàng tạo file robots.txt hơn.

Bước 1. Cài đặt Plugin

Click vào Plugins > Add New. Sau đó tìm kiếm, cài đặt và kích hoạt plugin Yoast SEO nếu bạn chưa có.

Cài đặt và kích hoạt Plugin Yoast SEO

Cài đặt và kích hoạt Plugin Yoast SEO

Bước 2. Tạo tệp robots.txt

Khi plugin được kích hoạt, click chọn SEO > Tools > File editor.

Giao diện tạo file robots.txt trong Yoast SEO

Giao diện tạo file robots.txt trong Yoast SEO

Vì đây là lần đầu tiên tôi tạo tệp, hãy nhấp vào Create robots.txt file

Click vào Create robots.txt file để bắt đầu tạo lập

Click vào Create robots.txt file để bắt đầu tạo lập

Bạn sẽ nhận thấy tệp được tạo bằng một số chỉ thị mặc định.

Các chỉ thị mặc định khi tạo robots.txt

Các chỉ thị mặc định khi tạo robots.txt

Trình tạo file robots.txt của Yoast SEO mặc định sẽ có các lệnh sau:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Bạn có thể thêm các lệnh khác vào robots.txt nếu muốn. Sau khi hoàn tất, hãy click vào Save changes to robots.txt.

Hãy tiếp tục và nhập tên miền theo sau là “/robots.txt”. Nếu bạn tìm thấy các lệnh mặc định như hình bên dưới thì có nghĩa bạn đã tạo thành công file robots.txt.

Tạo file robots.txt thành công

Tạo file robots.txt thành công

Một điểm cộng là bạn nên thêm sơ đồ trang web vào tệp robots.txt của mình.

Ví dụ: nếu URL sơ đồ trang web của bạn là https://yourdomain.com/sitemap.xml, thì hãy xem xét đưa Sơ đồ trang: https://yourdomain.com/sitemap.xml vào tệp robots.txt của bạn.

Một ví dụ khác là nếu bạn muốn tạo một chỉ thị để chặn bot thu thập thông tin tất cả các hình ảnh trong trang web của bạn. Trong trường hợp đó, tệp robots.txt sẽ như sau:

User-agent: Googlebot

Disallow: /uploads/

User-agent: *

Allow: /uploads/

>>Xem thêm: Hướng dẫn cài đặt và sử dụng Plugin Yoast SEO

Tạo file robots.txt hông qua Plugin All in One SEO

All in One SEO Pack là một cái tên phổ biến khác khi nói đến WordPress SEO. Nó bao gồm hầu hết các tính năng mà Yoast SEO có, nhưng một số người thích plugin này hơn vì nó là một plugin nhẹ. Đối với  robots.txt, việc tạo tệp bằng plugin này cũng đơn giản như vậy.

Tạo file robots.txt thông qua Plugin All in One SEO

Tạo file robots.txt thông qua Plugin All in One SEO

Khi bạn đã thiết lập xong plugin, bạn hãy điều hướng đến trang All in One SEO > Features Manager > Nhấp Active cho mục robots.txt. Bên trong, bạn sẽ tìm thấy một tùy chọn có tên là  Robots.txt, với nút Kích hoạt  ngay bên dưới. Hãy tiếp tục và nhấp vào đó.

Click vào Active để kích hoạt quá trình tạo file robots.txt

Click vào Active để kích hoạt quá trình tạo file robots.txt

Bây giờ, giao diện sẽ xuất hiện một  tab  Robots.txt  mới hiển thị trong menu All in One SEO. Nếu bạn nhấp vào nó, bạn sẽ thấy các tùy chọn để thêm các quy tắc mới vào tệp của mình, lưu các thay đổi bạn thực hiện hoặc xóa hoàn toàn.

Giao diện Robots.txt mới hiển thị trong menu All in One SEO

Giao diện Robots.txt mới hiển thị trong menu All in One SEO

Lưu ý rằng bạn không thể thực hiện chỉnh sửa đối với  tệp robots.txt trực tiếp bằng cách sử dụng plugin này. Bản thân tệp này sẽ chuyển sang màu xám, không giống như với Yoast SEO, cho phép bạn nhập bất kỳ thứ gì bạn muốn.

Tệp robots.txt chuyển sang màu xám và không cho bạn chỉnh sửa

Tệp robots.txt chuyển sang màu xám và không cho bạn chỉnh sửa

Tuy nhiên, xét về mặt tích cực, Plugin này giúp bạn hạn chế thiệt hại cho website của mình trong trường hợp Malware bots sẽ làm hại website.

Tạo file robots.txt rồi upload qua FTP

Để tạo một file robots.txt, bạn cần phải mở trình soạn thảo văn bản như Notepad hoặc TextEdit và nhập vào nội dung vào. Sau đó, bạn có thể lưu tệp, sử dụng bất kỳ tên nào bạn muốn và loại tệp txt. Thực sự mất vài giây để thực hiện việc này, đây là cách chỉnh sửa file robots.txt trong WordPress mà không cần sử dụng plugin.

Bạn có thể sử dụng trình chỉnh sửa văn bản như Notepad, TextEdit, vi và emacs để tạo tệp robots.txt. Tránh dùng trình xử lý văn bản vì dạng này thường lưu tệp dưới định dạng độc quyền và có thể thêm những ký tự không hợp lệ, khiến trình thu thập dữ liệu gặp vấn đề. Hãy lưu tệp bằng phương thức mã hoá UTF-8 nếu có thông báo trong hộp thoại lưu tệp.

Ví dụ về tạo file robots.txt theo cách thủ công

Ví dụ về tạo file robots.txt theo cách thủ công

Khi bạn đã tạo và lưu tệp nói trên, tiếp theo bạn cần kết nối với website qua FTP và điều hướng đến thư mục public_html. Sau đó, tải  tệp robots.txt  từ máy tính lên máy chủ.

Tải tệp lên thư mục gốc

Tải tệp lên thư mục gốc

Sẽ chỉ mất vài giây để tải tệp lên. Phương pháp này thật sự đơn giản hơn việc sử dụng plugin.

Những sai lầm cần tránh khi tạo file robots.txt

Không chặn nội dung tốt

Điều quan trọng là không chặn bất kỳ nội dung tốt nào mà bạn muốn hiển thị công khai bằng tệp robots.txt hoặc thẻ noindex. Điều này đã làm ảnh hưởng đến kết quả SEO. Do đó, bạn nên kiểm tra kỹ để tìm các thẻ noindex và các quy tắc không hợp lệ.

Tránh trì hoãn thu thập thông tin quá mức

Bạn nên tránh trì hoãn thu thập thông tin thường xuyên vì việc này đang hạn chế các trang được thu thập thông tin bởi bot. Điều này có thể tốt đối với một số trang web, nhưng nếu bạn sở hữu một trang web lớn, có thể việc này sẽ cản trở khả năng xếp hạng tốt cũng như lưu lượng truy cập.

Phân biệt chữ hoa chữ thường

File Robots.txt phân biệt chữ hoa chữ thường, vì vậy bạn phải nhớ tạo file robots.txt theo đúng định dạng của nó. Nếu không đúng định dạng, file robots.txt có thể không hoạt động.

Hướng dẫn cách submit file robots.txt

Bài viết tham khảo

>> SEO là gì? Những lợi ích khi SEO website lên top

>>Top 21 tiêu chuẩn tối ưu SEO Onpage mới nhất không nên bỏ lỡ

>>Tìm hiểu kỹ thuật SEO Offpage giúp ranking hàng ngàn từ khóa

Những câu hỏi thường gặp về File robots.txt

Giới hạn tối đa của file robots.txt là bao nhiêu?

Giới hạn kích thước file robots.txt là 500 kibibyte (KiB). Nội dung sau kích thước tệp tối đa sẽ bị bỏ qua.

Làm thế nào để chỉnh sửa file robots.txt trong WordPress?

Bạn có thể sử dụng cách thủ công hoặc sử dụng các plugin SEO trong WordPress như Yoast để chỉnh sửa robots.txt từ phần phụ trợ WordPress.

Tại sao file robots.txt lại quan trọng đối với SEO?

File robots.txt SEO đóng một vai trò quan trọng trong SEO, vì nó cho phép bạn đưa ra hướng dẫn cho GoogleBot tìm kiếm những trang nào trên website của bạn nên được thu thập thông tin và trang nào không nên.

Trang web của tôi có cần tệp robots.txt không?

Khi Googlebot truy cập một trang web, Google sẽ yêu cầu quyền thu thập dữ liệu bằng cách truy xuất tệp robots.txt. Một trang web thường không có tệp robots.txt, thẻ meta robots hay tiêu đề HTTP X-Robots-Tag vẫn được thu thập dữ liệu và lập chỉ mục bình thường.

Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL thay thế cho một đường dẫn tương đối được không?

Bạn không thể dùng một URL thay thế cho một đường dẫn tương đối. Vì các lệnh có trong file robots.txt (ngoại trừ sitemap:) chỉ hợp lệ với các đường dẫn tương đối.

Tệp robots.txt đặt trong thư mục con được không?

Nên đặt file robots.txt trong thư mục cấp cao nhất của trang web.

Có thể chặn người dùng xem file robots.txt không?

File robots.txt cho phép người dùng có thể xem. Nếu bạn không muốn người dùng xem những thông tin riêng tư thì tốt nhất là không nên đưa nó vào file robots.txt.

Có cần khai báo lệnh allow để cho phép Google thu thập dữ liệu không?

Bạn không cần khai báo lệnh allow với Google trong robots.txt. Tất cả URL đều được cho phép. Lệnh allow chỉ dùng để đè lệnh disallow trong tệp robots.txt.

Tôi nên dùng chương trình nào để tạo tệp robots.txt?

Bạn có thể dùng bất kỳ trình tạo lập văn bản nào có khả năng tạo một tệp văn bản hợp lệ. Những trình soạn thảo dùng để tạo file robots.txt là Notepad, TextEdit, vi hoặc emacs.

Nếu tôi dùng một lệnh disallow trong tệp robots.txt để chặn Google thu thập dữ liệu trên một trang, thì trang đó có biến mất khỏi kết quả tìm kiếm không? 

Việc ngăn chặn Google thu thập dữ liệu trên một trang web có thể làm trang web đó bị xóa hẳn khỏi chỉ mục của Google.

Làm cách nào để tôi có thể tạm ngưng toàn bộ hoạt động thu thập dữ liệu trên trang web của mình?

Bạn có thể trả về một mã trạng thái HTTP 503 (service unavailable) cho mọi URL, trong đó có tệp robots.txt để tạm ngưng toàn bộ hoạt động thu thập dữ liệu. Google sẽ thường xuyên truy cập lại vào tệp robots.txt đó cho đến khi thành công. Bạn không nên thay đổi file robots.txt với mục đích chặn hoạt động thu thập dữ liệu của Google.

Tôi trả về mã trạng thái 403 Forbidden cho mọi URL, bao gồm cả tệp robots.txt. Tại sao trang web của tôi vẫn được thu thập dữ liệu? 

Mã HTTP 403 Forbidden cũng như các mã  HTTP 4xx khácđược cho là file robots.txt không tồn tại. Có nghĩa là trình thu thập dữ liệu thường sẽ mặc định có thể thu thập dữ liệu mọi URL của trang web. Để ngăn chặn hoạt động thu thập dữ liệu trên website, bạn phải trả về file robots.txt bằng một mã HTTP 200 OK và tệp đó phải chứa quy tắc disallow thích hợp.

Kết luận

File robots.txt có thể không quá quan trọng khi bạn bắt đầu xây dựng website . Tuy nhiên, khi website của bạn phát triển và số lượng trang tăng lên, bạn sẽ cần đến file robots.txt. Hy vọng bài viết này sẽ giúp bạn có được một số thông tin chi tiết về file robots.txt là gì và cách tạo file robots.txt cho website của bạn. Chúc bạn sớm thành công!

Bình luận về bài viết
Bạn ơi, bài viết hữu ích với bạn chứ?  
5/5 - (1 bình chọn)

Chưa có bình luận nào

Bài viết liên quan