Robots.txt là gì? Cách tạo Robots.txt cho Website như thế nào?

Đã bao giờ bạn hình dung làm sao một robot của công cụ tìm kiếm có thể phân tích dữ liệu của một website để index (lập chỉ mục) không? Đôi lúc bạn muốn Googlebot nhanh index trang web của bạn hoặc không index một trang cụ thể nào đó. Vậy thì chính xác Robots.txt là gì? Cách tạo Robots.txt cho Website như thế nào? Hãy cùng Khotenmien.vn tìm hiểu thông qua bài viết dưới đây nhé!

1.Robots.txt là gì?

Robots.txt là một tệp tin văn bản nằm trong Folder gốc của trang Web  cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục.

Robots.txt là gì? Cách tạo Robots.txt cho Website như thế nào?
Robots.txt là gì?

Khi truy cập trang Webđiều đầu tiên công cụ tìm kiếm làm là tìm kiếm  kiểm tra nội dung của tệp robots.txt. Tùy thuộc theo các quy tắc được chỉ định trong file, chúng làm ra một danh sách các URLS có thể thu thập dữ liệu  sau đó lập chỉ mục nhất định cho trang Web.

Điều gì sẽ xảy ra nếu như bạn không có file robots.txt? Nếu tệp robots.txt bị thiếu, trình thu thập thông tin của công cụ tìm kiếm giả sử rằng toàn bộ các trang có sẵn trên trang Website của bạn đều ở chế độ công khai & nó có thể sẽ được thu thập dữ liệu -> thêm vào chỉ mục của nó.

Điều gì sẽ diễn ra nếu robots.txt không được định dạng tốt? Nó dựa vào vấn đề. Nếu các công cụ tìm kiếm không thể hiểu nội dung của file vì nó bị định cấu hình sai, họ vẫn truy tìm vào trang Web  bỏ qua bất cứ điều gì trong robots.txt.

Điều gì sẽ diễn ra nếu tôi vô tình chặn các công cụ tìm kiếm truy xuất trang Web của tôi? Đó là một vấn đề lớn. Đối với người mới bắt đầu, công cụ tìm kiếm sẽ không thu thập thông tin & lập chỉ mục trang từ trang Website của bạn & dần dần họ sẽ xóa bất kỳ trang nào đã có trong chỉ mục của họ.

2. Cú pháp của tệp tin robots.txt.

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn có thể bắt gặp trong một tệp tin robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

3. Vì sao bạn phải cần tạo file robots.txt?

Robots.txt là gì? Cách tạo Robots.txt cho Website như thế nào?
Vì sao bạn phải cần tạo file robots.txt?

Việc tạo robots.txt cho Web giúp cho bạn làm chủ việc truy xuất của các con Bots đến các khu vực cụ thể trên trang Web  việc này có thể vô cùng không an toàn nếu như bạn vô tình sai một số thao tác khiến Googlebot không thể index Web của bạn. Tuy nhiên, việc tạo tệp robots.txt vẫn thật sự có ích bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trong Web (lưu ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này).
  • Giữ một vài phần của trang ở chế độ riêng tư.
  • Giữ các trang kết quả khi tìm kiếm nội bộ không hiển thị trên SERP.
  • Chỉ định vị trí của Sitemap.
  • Ngăn các công cụ của Google Index một số tệp rõ ràng trên trang Website của bạn (hình ảnh, PDF, …)
  • Sử dụng lệnh Crawl-delay để cài đặt thời gian, điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

4. Hướng dẫn cách tạo Robots.txt cho Website.

Bot là một chương trình thu thập dữ liệu của các công cụ tìm kiếm, như googlebot, cococbot, bingbot,… Googlebot sử dụng các thuật toán và quét mọi website tiếp nhận dữ liệu vào cơ sở dữ liệu. Nhờ vậy mà người dùng có thể tìm kiếm những thông tin đó thông qua công cụ tìm kiếm. Tuy nhiên, nếu bạn muốn ngăn chặn điều này thì cần biết cách tạo robots.txt.

Để tạo được file robots.txt thì bạn chỉ cần sử dụng một công cụ soạn thảo văn bản đơn giản như Notepad trong Windows. Tạo một tệp mới, sau đó đặt tên là “robot.txt” rồi lưu lại là đã xong phần khởi tạo.

Trong file này bạn sẽ viết những cú pháp nhất định để thể hiện mục đích của bạn. Một số cú pháp phổ biến được sử dụng bao gồm:

  • User-agent: tên loại bot muốn áp dụng
  • Disallow: không cho phép loại bot có tên trong mục User-Agent truy cập vào website
  • Allow: cho phép bot được truy cập và thu thập dữ liệu
  • Dấu *: áp dụng cho tất cả mọi trường hợp

Ví dụ như:

User-agent: * (Áp dụng với tất các các loại bot)

Disallow: / (Chặn không cho bot được phép truy cập vào toàn bộ website)

Ghi chú: Nếu bạn muốn áp dụng với tất cả thì sử dụng dấu *. Đối với mỗi một loại công cụ thu thập dữ liệu sẽ đều có một cái tên cụ thể. Chẳng hạn như googlebot, bingbot, coccocbot… Nếu muốn chặn bất kỳ một loại bot cụ thể nào thì chúng ta sẽ khai báo tên của loại bot đó.

TẠM KẾT.

Vậy là Khotenmien.vn đã vừa giới thiệu về Robots.txt  cho các bạn rồi đấy. Mong rằng những thông tin trong bài viết dưới đây có thể cung cấp cho bạn những thông tin đầy đủ nhất về Robots.txt  thông qua một số nội dung như Robots.txt là gì? Cách tạo Robots.txt cho Website như thế nào?… từ đó có thể giúp ích cho các công việc của bạn. Hi vọng bài viết sẽ phần nào giúp bạn có thêm nhiều kiến thức về lĩnh vực này!


Thu Uyên – Tổng hợp, chỉnh sửa.

Cám ơn bạn đã quan tâm đến sản phẩm tại Khotenmien.vn

Chúng tôi sẽ liên hệ bạn ngay nhé!