Robots.txt chuẩn cho Blogger/Blogspot 2018

Robots.txt chuẩn cho Blogger/Blogspot 2018

Start Tiến IT đã đăng
Hiện có lượt xem và 0 bình luận
Chi tiết Liên quan Nhận xét Tác giả Hướng dẫn
  • Xem toàn trang
  • Robots.txt là một tài liệu cho các con bọ (SE: Search Engine) đọc trang này (index) dữ liệu website ở trang nào, và không cho đọc trang nào lên các máy chủ tìm kiếm.

    Các con bọ tìm kiếm đều phải tuân thủ nội dung trong Robots.txt trước khi lập chỉ mục các nội dung trong website.

    Việc thiết lập Robots.txt chuẩn cho công cụ lập chỉ mục (index) nhanh chóng hoặc index các nội dung không muốn cho lập chỉ mục.
    Robot.txt chuẩn cho Blogspot 2018
    Robots.txt chuẩn cho Blogspot 2018

    Robots.txt mà Toilaquantri.com đang dùng

    Bạn thay link https://www.toilaquantri.com/ ở các code bên dưới nhé!
    Hoặc tham khảo robots.txt mà toilaquantri đang dùng tại https://toilaquantri.com/robots.txt

    User-agent: Mediapartners-Google
    Disallow:
    User-agent: *
    Allow: /search
    Disallow: /search*
    Allow: /
    Allow: *max-results=10
    Allow: /search/label/
    Disallow: *archive.html
    Disallow: *?updated-max*
    Disallow: *?m=0
    Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
    Sitemap: https://www.toilaquantri.com/sitemap.xml
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500

    Giải thích cách hoạt động của Robot.txt

    • User-agent: Mediapartners-Google
    • Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
    • User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
    • Allow: /        //Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com)
    • Disallow: /search* //Chặn trang tìm kiếm
    • Allow: /search  //Cho phép đọc trang bài viết mới
    • Disallow: *archive.html //Chặn index trang lưu trữ
    • Disallow: *?m=0 // chặn index trang có giá trị domain.com?m=0
    • Allow: /search/label/   //Cho phép index trang nhãn
    • Allow: *max-results=10 //Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế)
    Dành cho các site không index các trang *max-results=*
    Disallow: *max-results=*  // Chặn index đuôi max-results=10, max-results=20, max-results=xxx. Thường dùng cho code phân trang.

    Riêng đối với Blogger sử dụng cấp dữ liệu qua atom và mỗi lần cấp là tối đa 500 bài nên ta mới khai báo sitemap: như sau

    Sitemap: https://www.toilaquantri.com/posts/default?orderby=UPDATED
    Sitemap: https://www.toilaquantri.com/sitemap.xml
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500
    Sitemap: https://www.toilaquantri.com/p/map.html

    Trong đó các link sau:

    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=501&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1001&max-results=500
    Sitemap: https://www.toilaquantri.com/atom.xml?redirect=false&start-index=1501&max-results=500

    = Được khai báo trong Google Webmaster Tools

    Sitemap: https://www.toilaquantri.com/p/map.html
    Sitemap dành cho người dùng nhưng cũng khai báo link để Google (SE) vào đó đọc link cho nhanh.

    Cách khai báo Robots.Txt

    1. Cho phép dò và index toàn bộ trang và các thư mục, các file

    Allow: /

    2. Chặn không cho phép tất cả bot (SE) truy cập và index toàn bộ

    Disallow: /

    3. Chặn toàn bộ một thư mục và các file, thư mục con trong nó

    Disallow: /abc/

    4. Chặn một trang cố định

    Disallow: /abc.html

    5. Chặn một loại file cố định từ một bot của công cụ tìm kiếm

    User-agent: Googlebot
    Disallow: /*.doc$ (thay doc bằng jpg hoặc bất kì file nào muốn chặn)

    6. Chặn một hình không cho Googlebot-Image index

    User-agent: Googlebot-Image
    Disallow: /abc/def.jpg

    7. Chặn không cho một bot bất kì truy cập:

    User-agent: Googlebot
    Disallow: /

    Lưu ý khi sử dụng và tạo file Robots.txt

    1. Phân biệt chữ hoa, chữ thường
    2. Không được viết thừa hoặc thiếu khoảng trắng
    3. Mỗi lệnh viết trên một dòng
    4. Không tự ý thêm các ký tự đặc biệt dễ gây nhầm lẫn cho bot
    5. Hết sức thận trọng khi sử dụng khi bạn chưa hiểu thường tận
    6. Kiểm tra thường xuyên file robots.txt
    Mục Lục Nội Dung

      Minh Tiến IT

      Pass giải nén mặc định: truongblogger
      Chắc bạn cũng đã nhiều lần gặp những link của 123link dạng 123link.co tại những trang web chia sẻ nội dung số. Nhưng bạn không biết cách nào để truy cập vào đúng link gốc của nội dung mà mình muốn truy cập. Bài viết này sẽ giúp bạn làm điều đó.
      Đầu tiên bạn truy cập vào một link 123link. Khi bạn truy cập xong thì nội dung bạn thấy sẽ tựa như hình ở dưới.
      Trang 123link
      Trang 123link
      Đánh dấu check vào vô “I’m not a robot”. Sau đó sẽ có một bảng captcha hiện ra. Bạn trả lời theo câu hỏi của captcha rồi bấm Verify để xác nhận.
      I’m not a robot
      I’m not a robot
      Verify
      Verify
      Sau khi xác nhận captcha thành công thì bấm chọn nút “Click here to continue” để sang bước tiếp theo.
      Click here to continue
      Click here to continue
      Ở trang tiếp theo, bạn sẽ thấy một đồng hồ đếm ngược, thường thì nhiều nhất sẽ là 7 giây. Bạn đợi cho thời gian đếm ngược chạy hết.
      Bạn đợi cho thời gian đếm ngược chạy hết
      Bạn đợi cho thời gian đếm ngược chạy hết
      Khi thời gian đếm ngược chạy hết, bạn sẽ thấy nút Get Link hiện ra. Bạn bấm vào nút đó để truy cập đến đường link đã được rút gọn bởi 123link.
      Get Link
      Get Link
      Bạn cứ yên tâm là link từ 123link sẽ không có ẩn chứa những mối nguy hiểm như virus, các pop-up quảng cáo không lành mạnh và phiền toái khi bạn đang thao tác các bước để tới link đích.
      HIỆN CÓ 0 BÌNH LUẬN