Tài liệu về Phân tích hiện trạng website, nội dung về SITE MAP & ROBOTS.TXT do team Marketing của Công ty Cổ phần Phát triển Nguồn mở Việt Nam (VINADES) đúc kết lại qua quá trình học tập và làm việc.
1 of 34
Download to read offline
More Related Content
SITE MAP & ROBOTS.TXT - PHÂN TÍCH HIỆN TRẠNG WEBSITE
3. THÔNG TIN
Sơ đồ trang web là một tệp trong đó bạn cung cấp thông tin
về các trang, video và các tệp khác trên trang web của mình
cũng như mối quan hệ giữa những dữ liệu đó. Các công cụ
tìm kiếm như Google đọc tệp này để thu thập dữ liệu trên
trang web của bạn một cách hiệu quả hơn. Sơ đồ trang web
cho Google biết những trang và tệp mà bạn nghĩ là quan
trọng trên trang web của mình, đồng thời cung cấp thông tin
hữu ích về những tệp này. Ví dụ: thông tin về lần cập nhật
trang gần nhất và mọi phiên bản ngôn ngữ thay thế của
trang.
4. Thường thì chỉ cần các trang trên trang
web của bạn được liên kết đúng cách,
Google có thể phát hiện phần lớn nội
dung trên trang web đó. Liên kết đúng
cách nghĩa là tất cả các trang mà bạn
cho là quan trọng đều có thể truy cập
được qua một hình thức điều hướng nào
đó (có thể qua trình đơn của trang web
hoặc đường liên kết bạn đặt trên trang).
Dù vậy, sơ đồ trang web có thể cải thiện
hoạt động thu thập dữ liệu trên những
trang web lớn hơn hoặc phức tạp hơn,
hoặc trên những tệp có mức độ chuyên
biệt cao hơn.
6. Trang web
của bạn thực
sự lớn
Trang web mới
hoạt động gần
đây và có ít
đường liên kết
ngoài đến trang
đó
Trang web của bạn
có một kho lưu trữ
lớn gồm các trang
nội dung bị tách
riêng hoặc không
liên kết với nhau.
Trang web có
nhiều nội dung đa
phương tiện
(video, hình ảnh)
hoặc đang hiển
thị trong Google
Tin tức
8. Google hỗ trợ nhiều định dạng sơ đồ trang web
XML
RSS
mRSS
Atom1.0
VĂN
BẢN
9. Đối với mọi định
dạng, một sơ đồ
trang web chỉ được
phép có kích thước
tối đa là 50 MB (khi
chưa nén)
1 Sơ đồ trang web
tối đa 50.000 URL
LƯU Ý
10. Sơ đồ trang web giúp bạn cho công cụ tìm kiếm biết những URL nào bạn
muốn ưu tiên xuất hiện trong các kết quả tìm kiếm. Đó là các URL chính
tắc. Nếu bạn có nhiều URL cùng dẫn tới nội dung giống nhau, hãy chọn
URL mà bạn ưu tiên và đưa URL đó vào sơ đồ trang web thay vì đưa tất
cả URL dẫn tới cùng nội dung.
11. Xác định URL
đưa vào sơ đồ
trang web
Để CMS tạo sơ
đồ trang web
giúp bạn
Tạo thủ công
(đối với sơ đồ
không quá
nhiều URL)
Tạo tự động
(đối với sơ đồ
nhiều URL)
Xác định
phương pháp
tạo sơ đồ trang
web
13. Dùng các URL nhất quán và đủ điều kiện
Có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của
mình, nhưng sơ đồ trang web chỉ tác động đến các thư mục con
thuộc thư mục mẹ
Không đưa mã nhận dạng phiên trong URL
Thông báo cho Google về các phiên bản ngôn ngữ thay thế nhau
của một URL bằng thẻ chú thích hreflang.
Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8
và dùng mã thoát dành cho URL một cách thích hợp.
14. Chia nhỏ sơ đồ trang web lớn thành các sơ đồ trang web nhỏ
Chỉ liệt kê các URL chính tắc trong sơ đồ trang web của bạn
Nếu một trang có các URL riêng cho phiên bản dành cho thiết bị di
động và phiên bản dành cho máy tính, thì sơ đồ trang web chỉ nên
trỏ đến một phiên bản
Dùng phần mở rộng của sơ đồ trang web để trỏ đến các loại nội
dung đa phương tiện khác như video, hình ảnh và tin tức.
Nếu có các trang thay thế nhau cho từng ngôn ngữ hoặc khu vực, bạn có thể sử
dụng hreflang trong sơ đồ trang web hoặc trong thẻ html để chỉ rõ các URL thay thế.
15. Ký tự không phải chữ/số và ký tự không thuộc hệ chữ Latinh
17. Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu trên một
trang web. Chúng tôi chỉ kiểm tra sơ đồ trang web khi lần đầu tiên phát
hiện sơ đồ đó và chỉ kiểm tra lại khi bạn thông báo cho chúng tôi rằng sơ
đồ đó đã thay đổi. Bạn chỉ nên thông báo cho Google về một sơ đồ trang
web khi bạn tạo sơ đồ mới hoặc cập nhật sơ đồ hiện có. Đừng gửi hoặc
thông báo cho Google nhiều lần về một sơ đồ trang web không có thay đổi.
“Nếu bạn đã cập nhật một số trang trong sơ đồ trang web, hãy đánh dấu
những trang đó bằng thuộc tính <lastmod>. Các tệp XML khác cũng có
trường tương tự, chẳng hạn như <updated> đối với Atom XML. Bạn cũng
có thể tìm hiểu cách tính ngày này”
18. CHI TIẾT
Gửi bằng báo cáo sơ
đồ trang web - Google
Search Console
PHỔ BIẾN NHẤT
19. CÁCH KIỂM TRA
Xem Phạm vi lập chỉ mục trong Google Search Console
Sử dụng đường link trên trình duyệt: site:https://domain
21. THÔNG TIN
Tệp robots.txt giúp cho trình thu thập dữ liệu của các công
cụ tìm kiếm biết được là không thể yêu cầu thu thập dữ liệu
từ những trang hoặc tệp nào trên trang web của bạn. Tệp này
chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều
yêu cầu cho trang web của bạn; đây không phải là một cơ
chế để ẩn một trang web khỏi Google. Để ẩn một trang web
khỏi Google, bạn nên dùng lệnh noindex hoặc bảo vệ trang
của bạn bằng mật khẩu.
22. Nghe có vẻ giống lệnh noindex nhỉ?
CÙNG LÀM SÁNG TỎ
2 LỆNH NÀY NHÉ!
23. Mục đích chính
Robots.txt
Quản lý lưu lượng thu thập dữ liệu nếu cho rằng
máy chủ của bạn sẽ quá tải do số lượng yêu cầu
từ trình thu thập dữ liệu của Google
Ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên
Google. (Xin lưu ý rằng Robots.txt sẽ không ngăn các trang hoặc người dùng khác
liên kết đến tệp hình ảnh/video/âm thanh của bạn. Cân nhắc mục đích này)
Tệp này cũng có thể dùng để tránh thu thập dữ
liệu các trang không quan trọng hoặc tương tự
nhau trên trang web.
24. TRANG WEB CỦA BẠN
VẪN SẼ HIỂN THỊ
Trên công cụ tìm kiếm
25. Lý do
Google vẫn có thể lập chỉ mục trang của bạn
mà không cần truy cập trang nếu có các
trang khác liên kết (trỏ) đến trang web của bạn.
BACKLINKS & INTERNAL LINK
26. Các tệp hình ảnh, tệp video, tệp PDF
và các tệp không phải HTML khác sẽ
bị loại trừ khỏi công cụ tìm kiếm.
Chặn Google tạo nội dung mô tả trang,
nhưng không thực sự ẩn trang trên
Google.
27. ROBOTS.TXT KHÔNG DÙNG CHO
100% CÔNG CỤ TÌM KIẾM
100% Google sẽ hiểu lệnh Robots.txt nhưng không phải các công cụ
tìm kiếm khác cũng thế!
28. CÁCH KIỂM TRA TỆP ROBOTS.TXT TRÊN
TRANG WEB
Sử dụng Google Search Console
https://www.google.com/webmasters/tools/robots-testing-tool
32. Xóa toàn bộ trang. Nếu thông tin đó đã xuất hiện trên Google rồi
thì có thể bạn phải thực hiện thêm một số bước để xóa vĩnh viễn
thông tin đó.
Sử dụng mật khẩu trên máy chủ.
(Người dùng trình độ nâng cao: Nếu đang dùng máy chủ web
Apache, bạn có thể chỉnh sửa tệp .htaccess để bảo vệ thư mục
trên máy chủ bằng mật khẩu. Có nhiều công cụ trên web có thể
giúp bạn thực hiện việc này.)
Dùng thẻ meta noindex. Nhiệm vụ của thẻ này là để chặn Google
Index. Yêu cầu Google không đọc nội dung trang và không hiển
thị khi người dùng tìm kiếm.
33. Chọn không tham gia hiển thị trên Google Địa phương và các sản
phẩm khác của Google.
Thẻ meta nosnippet để ngăn Google hiển thị đoạn trích cho trang của
bạn trong kết quả tìm kiếm hoặc dùng thẻ meta max-snippet:[number]
để chỉ định độ dài tối đa cho đoạn trích trong kết quả. Bạn cũng có thể
ngăn không cho một số phần nhất định trong nội dung văn bản trên
trang hiển thị trong một đoạn trích bằng cách dùng thẻ data-nosnippet.
Công cụ tham số URL để chặn hoạt động thu thập dữ liệu trên một số URL
với những tham số cụ thể. Chỉ nên dùng phương pháp này khi rất thành
thạo, do phương pháp này có thể chặn một phần lớn không gian URL của
trang web và nếu có sai sót sẽ rất khó gỡ lỗi.
#12: CMS: Content Management System là hệ quản trị nội dung của trang web
https://developers.google.com/search/docs/advanced/sitemaps/build-sitemap?hl=vi#createsitemap
#24: https://developers.google.com/search/docs/advanced/robots/intro?hl=vi#what-is-a-robots.txt-file-used-for
Bạn có thể dùng tệp robots.txt để chặn các tệp tài nguyên (chẳng hạn như hình ảnh, tập lệnh hoặc các tệp định kiểu không quan trọng) nếu bạn cho rằng lệnh chặn này sẽ không ảnh hưởng đáng kể đến những trang có thể tải mà không cần những tài nguyên này. Tuy nhiên, nếu trình thu thập dữ liệu của Google khó có thể hiểu được trang của bạn khi thiếu những tài nguyên này, thì bạn không nên chặn. Nếu không, Google sẽ không thể phân tích chính xác những trang cần đến những tài nguyên đó.
#26: https://developers.google.com/search/docs/advanced/robots/intro?hl=vi#what-is-a-robots.txt-file-used-for
Trong tệp robots.txt* của trang web có một quy tắc ngăn Google đọc trang này (Google phải đọc được trang thì mới có thể tạo phần mô tả trong kết quả tìm kiếm). Tuy nhiên, quy tắc này không ngăn Google hiển thị trang trong kết quả Tìm kiếm. Vì vậy, trang vẫn xuất hiện trong các kết quả của Tìm kiếm nhưng không có nội dung mô tả.
Tệp robots.txt* là một tệp tiêu chuẩn mà trang web sử dụng để ngăn không cho công cụ tìm kiếm thu thập dữ liệu một số trang cụ thể trên trang web đó. Một số dịch vụ lưu trữ trang web sẽ tự động tạo tệp này cho khách hàng của họ. Phần tiếp theo trình bày cách xác nhận rằng trang web có chứa tệp robots.txt và tệp này là nguyên nhân gây ra vấn đề.
https://support.google.com/webmasters/answer/7489871?hl=vi#zippy=%2Cn%E1%BA%BFu-b%E1%BA%A1n-s%E1%BB%9F-h%E1%BB%AFu-trang-web-n%C3%A0y%2Cn%E1%BA%BFu-b%E1%BA%A1n-kh%C3%B4ng-s%E1%BB%9F-h%E1%BB%AFu-trang-web-n%C3%A0y%2Cm%E1%BB%99t-quy-t%E1%BA%AFc-trong-t%E1%BB%87p-robotstxt-%C4%91%C3%A3-ch%E1%BA%B7n-trang
#27: https://developers.google.com/search/docs/advanced/robots/intro?hl=vi#what-is-a-robots.txt-file-used-for
Trong tệp robots.txt* của trang web có một quy tắc ngăn Google đọc trang này (Google phải đọc được trang thì mới có thể tạo phần mô tả trong kết quả tìm kiếm). Tuy nhiên, quy tắc này không ngăn Google hiển thị trang trong kết quả Tìm kiếm. Vì vậy, trang vẫn xuất hiện trong các kết quả của Tìm kiếm nhưng không có nội dung mô tả.
Tệp robots.txt* là một tệp tiêu chuẩn mà trang web sử dụng để ngăn không cho công cụ tìm kiếm thu thập dữ liệu một số trang cụ thể trên trang web đó. Một số dịch vụ lưu trữ trang web sẽ tự động tạo tệp này cho khách hàng của họ. Phần tiếp theo trình bày cách xác nhận rằng trang web có chứa tệp robots.txt và tệp này là nguyên nhân gây ra vấn đề.
https://support.google.com/webmasters/answer/7489871?hl=vi#zippy=%2Cn%E1%BA%BFu-b%E1%BA%A1n-s%E1%BB%9F-h%E1%BB%AFu-trang-web-n%C3%A0y%2Cn%E1%BA%BFu-b%E1%BA%A1n-kh%C3%B4ng-s%E1%BB%9F-h%E1%BB%AFu-trang-web-n%C3%A0y%2Cm%E1%BB%99t-quy-t%E1%BA%AFc-trong-t%E1%BB%87p-robotstxt-%C4%91%C3%A3-ch%E1%BA%B7n-trang
#31: https://support.google.com/webmasters/answer/6062598?hl=vi
Kiểm tra tệp robots.txt của bạn
Mở công cụ kiểm tra cho trang web của bạn rồi đọc qua toàn bộ mã trong tệp robots.txt để xác định vị trí của những cảnh báo về cú pháp và lỗi logic được đánh dấu. Số lượng cảnh báo về cú pháp và lỗi logic sẽ hiển thị ngay lập tức bên dưới trình chỉnh sửa.
Nhập URL của một trang trên trang web của bạn vào hộp văn bản ở cuối trang.
Chọn tác nhân người dùng mà bạn muốn mô phỏng trong danh sách thả xuống ở bên phải hộp văn bản.
Nhấp vào nút KIỂM TRA để kiểm tra quyền truy cập.
Kiểm tra xem nút KIỂM TRA giờ hiển thị ĐƯỢC CHẤP NHẬN hay BỊ CHẶN để tìm hiểu xem URL bạn nhập vào có bị chặn khỏi trình thu thập dữ liệu web của Google hay không.
Chỉnh sửa tệp trên trang và kiểm tra lại nếu cần thiết. Hãy lưu ý rằng những nội dung bạn chỉnh sửa trên trang này sẽ không được lưu vào trang web của bạn! Xem bước tiếp theo.
Sao chép nội dung chỉnh sửa của bạn vào tệp robots.txt trên trang web của bạn. Công cụ này không làm thay đổi tệp thực tế trên trang web của bạn, nó chỉ kiểm tra bản sao được lưu trữ trong công cụ.