robots.txt là gì là một trong những từ khóa được search nhiều nhất trên google về chủ đề robots.txt là gì. Trong bài viết này, winerp.com.vn sẽ viết bài Robots.txt là gì? Tác dụng của file robots.txt là gì?
Robots.txt là gì? Tác dụng của file robots.txt là gì?
Robots.txt là gì ?
Robots.txt là dạng tập tin đặc biệt không phải là HTML hay một loại nào không giống. mục đích của việc có file robots.txt là khai báo cho tool search biết rằng những nội dung nào trên website của bạn được cho phép các bot kiếm tìm và lập chỉ mục.
khác với sitemap là kéo hướng các bot search và chỉ mục các content trên website. Thì so với file robots.txt bạn có quyền cho phép hoặc ngăn chặn các bot của các tool kiếm tìm index một nội dung nào đó trên website của mình.
Một gợi ý không khó khăn về file robots.txt:
User-agent:* Disallow: /wp-admin/ Disallow: /wp-includes/
Trong đó:
User-agent:* /*Cho phép all các loại bot tìm kiếm*/
Disallow: /wp-admin/, Disallow: /wp-includes/ : /*Ngăn k cho phép bot tìm kiếm trong 2 thư mục này*/
tác dụng của file Robots.txt
giống như mình có nêu ở phía trên, tác dụng của việc tạo file robots.txt cho web hay blog của mình. Nhằm mục đích cho phép và ngăn chặn bot của các tool search và index các nội dung trên web.
Bạn có thể chặn các bot tìm kiếm dữ liệu trong một thư mục nào đó trên web, hoặc chặn bot index một đường kéo nào đó bằng phương pháp Disallow: “….”
đủ nội lực xét gợi ý bên trên: Chặn các bot của tool tìm kiếm index các content trong thư mục /wp-admin/ và /wp-includes/.
Thì đó là tác dụng chính của file robots.txt này. Và điều này là rất quan trọng.
cách tạo file robots.txt
Để tạo một file robots.txt bạn thực hiện các bước giống như sau:
Tạo file
Bạn tạo một file Text Document
Sau đó save lại với tên là robots.txt
như vậy, việc tạo file hoàn tất. tiếp theo ta cần thêm các lệnh vào trong file này.
Thêm các câu lệnh
Trong phần này, mình sẽ lý giải một số câu lệnh. Bạn có thêm bớt tùy nhu cầu của các bạn. Phía dưới cuối phần này mình sẽ nêu ra một file robots.txt hoàn chỉnh. Bạn đủ sức sử dụng nó cho website của mình.
Chặn bot k cho chỉ mục all website
Bạn có câu lệnh giống như sau:
User-agent:* Disallow: /
Lệnh này có ý nghĩa: “Không cho phép các bot của công cụ tìm kiếm truy cập và đánh chỉ mục trên all tài nguyên có trên web của bạn.”
Chặn bot chỉ mục vào một thư mục nhất định
User-agent:* Disallow: /wp-admin/ Disallow: /wp-includes/
Lệnh này có nghĩa: “Cho phép bot lập chỉ mục all dữ liệu trừ 2 thư mục /wp-admin/ và /wp-includes/ là k cho phép.”
Chặn một trang hay đường kéo đến bài viết nào đó
User-agent:* Disallow: /gioi-thieu.html
Lệnh này có nghĩa: “Cho phép bot đánh chỉ mục tất cả các dữ liệu trừ đường dẫn /gioi-thieu.html”
Chặn một pic nào đó
User-agent:* Disallow: /images/tenhinhanhcanchan.jpg
Lệnh này có nghĩa: “Chặn một pic nào đó từ web của bạn, ngăn không cho các bot search và lập chỉ mục cho pic đó.”
Chặn một loại bot nào đó
User-agent:Spambot Disallow: /
Lệnh này có nghĩa: “Chặn botspam truy cập toàn bộ dữ liệu trên website của bạn”. Trong khi đó các bot không giống thì được quyền truy cập”
Chặn tất cả các dữ liệu trong một thư mục trừ một file nào đó
User-agent:* Disallow: /thumucbichan/ Allow: /thumucbichan/filekhongbichan.html
Lệnh này có nghĩa: “Chặn bot kiếm tìm toàn bộ dữ liệu trong thư mục /thumucbichan/ nhưng cho phép lập chỉ mục file /filekhongbichan.html”
Trên đây là một số lệnh cơ bản khi bạn cần phù hợp file robots.txt. Tùy theo nhu cầu của các bạn mà thích hợp những lệnh cần thiết.
Một số note
Để tránh xảy ra sai sót khi bạn dùng một file robots.txt của mọi người hoặc tự tạo riêng cho website của mình. Bạn cần lưu ý một số điều như sau:
- Phân biệt chữ hoa và chữ thường
- không được viết thừa, thiếu khoảng trắng
- Chỉ nên thêm các lệnh, tuy nhiên không nên chèn thêm kí tự nào khác trong file.
- Nên sử dụng 1 dòng cho 1 câu lệnh. muốn viết lệnh mới nên xuống thể loại sau đó viết tiếp
File robots.txt mẫu
Các bạn có thể sử dụng file robots.txt như của VNTIEN đang dùng dưới đây.
User-agent:* Disallow: /wp-admin/ Disallow: /search?q=* Disallow: *?replytocom Disallow: */attachment/* Allow: /wp-admin/admin-ajax.php Allow: /wp-admin/images/* Sitemap: http://vntien.com/sitemap_index.xml
như vậy thôi, chúc các bạn sự phát triển.
nguồn: vntien.com