Robots.txt là gì ? Tùy chỉnh robots.txt tối ưu label chuẩn SEO cho Blogspot

Khái niệm Robots.txt là gì ? Cách tùy chỉnh tối ưu chuẩn SEO cho Blogspot

Robot txt
Tìm hiểu về khái niệm và cách tùy chỉnh Robot Txt tối ưu robot txt

Robots.txt là gì?

Robot.txt là một file cài đặt trong thư mục gốc để hướng dẫn cho các công cụ tìm kiếm được phép lấy phần thông tin dữ liệu nào ở bên trong webisite phần nào không được phép lấy.

Ví dụ: https://marketinglagiwiki.blogspot.com/robots.txt

Trong bài viết này tôi tham khảo các blogger nước ngoài trong nước và trên cac forum diễn đàn của google và trong nước tài liệu sẽ được cập nhật nên các bạn nên đăng ký theo dõi thường xuyên
Cập nhật 2019

Nội dung trong bài viết về robots.txt:


  1. Khái niệm về Robots.txt
  2. Ý nghĩa của các dòng lệnh trong robots.txt
  3. Ứng dụng của Robots.txt
  4. Lưu ý khi sử dụng Robots.tx
  5. Tùy chỉnh robots.txt index tối ưu SEO label
  6. Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh 
  7. Kết luận về các phương thức tối ưu SEO thông qua tùy chỉnh robots.txt cho blogspot
  8. Lời khuyên cho các blogger mới bắt đầu và hướng đi cần phát triển

Ý nghĩa các dòng lệnh nhỏ trong robots.txt

  • User-agent: Tên loại bot ví dụ: Googlebot, Bingbot,…
  • Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Disallow: Không cho phép
  • Sitemap: Đường dẫn sơ đồ của trang web.
  • Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.

Ứng dụng tùy chỉnh file robots.txt Blogspot

Việc tùy chỉnh file robots.txt giúp cho việc đưa những thông tin tốt chất lượng có chọn lọc giúp cho website uy tín hơn theo mục tiêu tình huống và giai đoạn phát triển website của bạn.

1. Chặn các liên kết đối thủ có thể tạo ra để chơi xấu bạn
Cú pháp:mặc định của robots.txt blogspot đã có sẵn khi bạn chưa tiến hành chỉnh sửa.
User-agent: *
Disallow: /search
2. Bạn có thể tạm thời chặn index toàn bộ website trong giai đoạn xây dựng còn giang dở tránh google update những thông tin chưa chuẩn ảnh hưởng đến hình ảnh doanh nghiệp

User-agent: *
Disallow: /

3. Bạn có thể chặn những những thư mục hay bài viết kém chất lượng do đi copy về kéo view
Bạn có thể

User-agent: *
Disallow: /phim

Ý nghĩa: chặn toàn bộ những bài viết nào có chứa từ phim sau dấu / 

4. Sử dụng để chặn các công cụ thu thập liên kết như AHREFS
User-agent: AhrefsBot Disallow: / 5. Sử dụng khi giấu đường link dowload có trả phí mà bạn không muốn google index công bố rộng rãi giả sử tôi cần giấu file pdf

User-agent: *
Disallow: *.pdf

9 Điều lưu ý khi sử dụng tùy chỉnh tối ưu robots.txt cho Blogspot:

  1. Phân biệt chữ hoa, chữ thường
  2. Không được viết thừa hoặc thiếu khoảng trắng
  3. Mỗi lệnh viết trên một dòng
  4. Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
  5. Hết sức thận trọng khi sử dụng khi bạn chưa hiểu thường tận
  6. Kiểm tra thường xuyên file robots.txt
  7. Đây thuộc nhóm bài tối ưu chuẩn SEO Blogspot nâng cao bạn xem bài viết tối ưu chuẩn SEO Blogspot căn bản ở đây
  8. Các thành phần chi tiết của công cụ tìm kiếm rất phức tạp bản thân tôi cũng tìm hiểu vừa đủ để phục vụ cho các hoạt động không phải quá chuyên sâu vì điều đó ảnh hưởng đến tổng thể kết quả và bản thân Google cũng có sự điều chỉnh thay đổi nên mục tiêu chia sẻ và nghiên cứu của tôi là vừa đủ để sử dụng không quá đi sâu tiểu tiết
  9. Nếu bạn đầu bạn mới làm đừng can thiệp quá sâu vào vùng vùng này vì bản thân file robots.txt mặc định của Blogspot đã rất rất tốt bạn chỉ cần thực hành các phương pháp tối ưu chuẩn SEO căn bản cho Blogspot đã rất hiệu quả


Thực hiện tùy chỉnh robots.txt tối ưu chuẩn seo cho Blogspot
Do lượng kiến thức nhiều ở đây tôi chia sẻ về cài đặt robots.txt còn kiến thức liên quan đến tùy chỉnh code tôi sẽ chia sẻ ở một bài viết khác
Cài đặt -> Tùy chọn tìm kiếm -> Robots.txt tùy chỉnh -> chọn có

Hiện tại tôi dùng mẫu này theo blog ebookbkmt 


User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=10
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://marketinglagiwiki.blogspot.com/posts/default?orderby=UPDATED
Sitemap: https://marketinglagiwiki.blogspot.com/sitemap.xml Sitemap:
https://marketinglagiwiki.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

Giải thích về chi tiêt


User-agent: Mediapartners-Google
Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / - Tức là cho phép bots có thể index nội dung trên trang web.
Allow: /        >> Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com) 
Disallow: /search* >> Chặn trang tìm kiếm 
Allow: /search  >> Cho phép đọc trang bài viết mới 
Disallow: *archive.html  >> Chặn index trang lưu trữ (ở đây tôi bỏ dòng này và vẫn index lưu trữ)
Disallow: *?m=0  >> chặn index trang có giá trị domain.com?m=0 
Allow: /search/label/   >> Cho phép index trang nhãn 
Allow: *max-results=10 >> Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế) 
Dành cho các site không index các trang *max-results=* Disallow: 
*max-results=*  >> Chặn index đuôi max-results=10, max-results=20, max-results=xxx.  Thường dùng cho code phân trang.

Disallow: *max-results=* - Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
Disallow: *archive.html  - Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
Disallow: *?m=0 – Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
2 mục sitemap – Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner. Vì vậy, để sử dụng được nó, các bạn nhớ tham khảo bài viết tạo RSS/Feedburner này nhé. Nhớ thay đường dẫn lại cho đúng blog của bạn nhé.

RIÊNG ĐỐI VỚI BLOGGER SỬ DỤNG CẤP DỮ LIỆU QUA ATOM VÀ MỖI LẦN CẤP LÀ TỐI ĐA 500 BÀI NÊN TA MỚI KHAI BÁO SITEMAP NHƯ SAU: 

Sitemap: https://marketinglagiwiki.blogspot.com/posts/default?orderby=UPDATED
Sitemap: https://marketinglagiwiki.blogspot.com/sitemap.xml
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=501&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1001&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1501&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com/p/map.html

Trong đó các link sau: 

Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=501&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1001&max-results=500
Sitemap: https://marketinglagiwiki.blogspot.com?redirect=false&start-index=1501&max-results=500
= Được khai báo trong Google Webmaster Tools 

Sitemap: hhttp://marketinglagiwiki.blogspot.com/p/map.html 
Sitemap dành cho người dùng nhưng cũng khai báo link để Google (SE) vào đó đọc link cho nhanh.

Mẫu robots.txt của một số trang blog xem cách họ đặt 
Đôi khi các blog lớn họ cũng dùng những sitemap mặc định mà không cần tùy chỉnh

Như gọi có ngay (họ không sale label)


User-agent: Mediapartners-Google
Disallow: User-agent: *
Disallow: /search
Allow: / Sitemap: https://www.goicongay.xyz/sitemap.xml

Các blog tùy chỉnh cho SEO label
Sổ Tay 24g

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=*
Disallow: /search?updated-max=*
Disallow: /search/label/*?max-results=*
Disallow: /search/label/*?updated-min=*
Disallow: /search/label/*?updated-max=*
Disallow: *archive.html
Allow: /
Sitemap: https://marketinglagiwiki.blogspot.com/feeds/posts/default?orderby=UPDATED

Hành trình Seo Top

User-agent: Mediapartners-Google
Disallow: /
User-agent: *
Allow: /
Allow: /search
Disallow: /*?updated-max=*
Disallow: /*&max-results=*
Disallow: /*archive.html
Sitemap: https://marketinglagiwiki.blogspot.com/feeds/posts/default?orderby=UPDATED

Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh 

Cài đặt -> Tùy chọn tìm kiếm -> thẻ tiêu đề robot tùy chỉnh -> chọn có
các vị trí đánh dấu thực hiện tùy chỉnh
Bạn tích vào các vị trí trên rồi lưu thay đổi
Tag  - Ý nghĩa

  • all - Cho phép công cụ tìm kiếm lập chỉ mục.
  • noindex - Không hiển thị trang này trong kết quả tìm kiếm.
  • nofollow - Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
  • none - Tương tự như nonidex và nofollow.
  • noarchive - Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
  • nosnippet - Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
  • noodp - Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này. - notranslate
  • Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
  • noimageindex - Không lập chỉ mục cho hình ảnh trên trang này.
  • unavailable_after - Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.
Kết luận
Do việc tùy chỉnh robots.txt và kết hợp với chỉnh code là rất mất thời gian nhưng khổ cái chữa được một số bệnh ngắn hạn hay vừa con mắt thì lại gặp cách bệnh dài hạn 
Ví dụ khi bạn tối ưu SEO Lalbe Blogspot thì lại gặp nguy cơ tiềm tàng về bạn sẽ tạo ra các nội dung mỏng và trùng lặp nội dung cụ thể là 1 mô tả ngắn của bài nếu được đặt 10 nhãn nó sẽ sinh ra 10 bài + bài chủ được index nhưng 10 bài kia sẽ cùng 1 nội dung khác nhau mỗi một đoạn nhãn như vậy sẽ làm yếu tổng thể website của bạn nên cũng tùy tình hống để bạn lựa chọn ở đây tôi có liệt kê một số phương pháp của các tác giả khác nhau để bạn tham khảo:

lời khuyên:
Bạn để nguyên không đụng gì đến nó cũng rất tốt và đỡ tốn thời gian trừ khi có một kế hoạch rất dài hạn hãy đào sâu rồi lựa chọn
Để bắt đầu có thành quả nhanh bạn hãy bắt đầu sử dụng weebly là sự lựa chọn tốt nhất cho bạn nếu bạn là người mới bắt đầu học SEO

Comments

Post a Comment