�ݺ�ߣ

PHÂN TÍCH
HIỆN TRẠNG
WEBSITE

THÔNG TIN
Sơ đồ trang web là một tệp trong đó bạn cung cấp thông tin
về các trang, video và các tệp khác trên trang web của mình
cũng như mối quan hệ giữa những dữ liệu đó. Các công cụ
tìm kiếm như Google đọc tệp này để thu thập dữ liệu trên
trang web của bạn một cách hiệu quả hơn. Sơ đồ trang web
cho Google biết những trang và tệp mà bạn nghĩ là quan
trọng trên trang web của mình, đồng thời cung cấp thông tin
hữu ích về những tệp này. Ví dụ: thông tin về lần cập nhật
trang gần nhất và mọi phiên bản ngôn ngữ thay thế của
trang.

Thường thì chỉ cần các trang trên trang
web của bạn được liên kết đúng cách,
Google có thể phát hiện phần lớn nội
dung trên trang web đó. Liên kết đúng
cách nghĩa là tất cả các trang mà bạn
cho là quan trọng đều có thể truy cập
được qua một hình thức điều hướng nào
đó (có thể qua trình đơn của trang web
hoặc đường liên kết bạn đặt trên trang).
Dù vậy, sơ đồ trang web có thể cải thiện
hoạt động thu thập dữ liệu trên những
trang web lớn hơn hoặc phức tạp hơn,
hoặc trên những tệp có mức độ chuyên
biệt cao hơn.

KHI NÀO CHÚNG TA CẦN
TẠO SƠ ĐỒ TRANG WEB?

Trang web
của bạn thực
sự lớn
Trang web mới
hoạt động gần
đây và có ít
đường liên kết
ngoài đến trang
đó
Trang web của bạn
có một kho lưu trữ
lớn gồm các trang
nội dung bị tách
riêng hoặc không
liên kết với nhau.
Trang web có
nhiều nội dung đa
phương tiện
(video, hình ảnh)
hoặc đang hiển
thị trong Google
Tin tức

TẠO SƠ ĐỒ TRANG WEB
NHƯ THẾ NÀO?

Google hỗ trợ nhiều định dạng sơ đồ trang web
XML
RSS
mRSS
Atom1.0
VĂN
BẢN

Đối với mọi định
dạng, một sơ đồ
trang web chỉ được
phép có kích thước
tối đa là 50 MB (khi
chưa nén)
1 Sơ đồ trang web
tối đa 50.000 URL
LƯU Ý

Sơ đồ trang web giúp bạn cho công cụ tìm kiếm biết những URL nào bạn
muốn ưu tiên xuất hiện trong các kết quả tìm kiếm. Đó là các URL chính
tắc. Nếu bạn có nhiều URL cùng dẫn tới nội dung giống nhau, hãy chọn
URL mà bạn ưu tiên và đưa URL đó vào sơ đồ trang web thay vì đưa tất
cả URL dẫn tới cùng nội dung.

Xác định URL
đưa vào sơ đồ
trang web
Để CMS tạo sơ
đồ trang web
giúp bạn
Tạo thủ công
(đối với sơ đồ
không quá
nhiều URL)
Tạo tự động
(đối với sơ đồ
nhiều URL)
Xác định
phương pháp
tạo sơ đồ trang
web

NGUYÊN TẮC TẠO SƠ ĐỒ
TRANG WEB?

Dùng các URL nhất quán và đủ điều kiện
Có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của
mình, nhưng sơ đồ trang web chỉ tác động đến các thư mục con
thuộc thư mục mẹ
Không đưa mã nhận dạng phiên trong URL
Thông báo cho Google về các phiên bản ngôn ngữ thay thế nhau
của một URL bằng thẻ chú thích hreflang.
Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8
và dùng mã thoát dành cho URL một cách thích hợp.

Chia nhỏ sơ đồ trang web lớn thành các sơ đồ trang web nhỏ
Chỉ liệt kê các URL chính tắc trong sơ đồ trang web của bạn
Nếu một trang có các URL riêng cho phiên bản dành cho thiết bị di
động và phiên bản dành cho máy tính, thì sơ đồ trang web chỉ nên
trỏ đến một phiên bản
Dùng phần mở rộng của sơ đồ trang web để trỏ đến các loại nội
dung đa phương tiện khác như video, hình ảnh và tin tức.
Nếu có các trang thay thế nhau cho từng ngôn ngữ hoặc khu vực, bạn có thể sử
dụng hreflang trong sơ đồ trang web hoặc trong thẻ html để chỉ rõ các URL thay thế.

Ký tự không phải chữ/số và ký tự không thuộc hệ chữ Latinh

GỬI SƠ ĐỒ TRANG WEB
CHO GOOGLE NHƯ THẾ
NÀO?

Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu trên một
trang web. Chúng tôi chỉ kiểm tra sơ đồ trang web khi lần đầu tiên phát
hiện sơ đồ đó và chỉ kiểm tra lại khi bạn thông báo cho chúng tôi rằng sơ
đồ đó đã thay đổi. Bạn chỉ nên thông báo cho Google về một sơ đồ trang
web khi bạn tạo sơ đồ mới hoặc cập nhật sơ đồ hiện có. Đừng gửi hoặc
thông báo cho Google nhiều lần về một sơ đồ trang web không có thay đổi.
“Nếu bạn đã cập nhật một số trang trong sơ đồ trang web, hãy đánh dấu
những trang đó bằng thuộc tính <lastmod>. Các tệp XML khác cũng có
trường tương tự, chẳng hạn như <updated> đối với Atom XML. Bạn cũng
có thể tìm hiểu cách tính ngày này”

CHI TIẾT
Gửi bằng báo cáo sơ
đồ trang web - Google
Search Console
PHỔ BIẾN NHẤT

CÁCH KIỂM TRA
Xem Phạm vi lập chỉ mục trong Google Search Console
Sử dụng đường link trên trình duyệt: site:https://domain

THÔNG TIN
Tệp robots.txt giúp cho trình thu thập dữ liệu của các công
cụ tìm kiếm biết được là không thể yêu cầu thu thập dữ liệu
từ những trang hoặc tệp nào trên trang web của bạn. Tệp này
chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều
yêu cầu cho trang web của bạn; đây không phải là một cơ
chế để ẩn một trang web khỏi Google. Để ẩn một trang web
khỏi Google, bạn nên dùng lệnh noindex hoặc bảo vệ trang
của bạn bằng mật khẩu.

Nghe có vẻ giống lệnh noindex nhỉ?
CÙNG LÀM SÁNG TỎ
2 LỆNH NÀY NHÉ!

Mục đích chính
Robots.txt
Quản lý lưu lượng thu thập dữ liệu nếu cho rằng
máy chủ của bạn sẽ quá tải do số lượng yêu cầu
từ trình thu thập dữ liệu của Google
Ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên
Google. (Xin lưu ý rằng Robots.txt sẽ không ngăn các trang hoặc người dùng khác
liên kết đến tệp hình ảnh/video/âm thanh của bạn. Cân nhắc mục đích này)
Tệp này cũng có thể dùng để tránh thu thập dữ
liệu các trang không quan trọng hoặc tương tự
nhau trên trang web.

TRANG WEB CỦA BẠN
VẪN SẼ HIỂN THỊ
Trên công cụ tìm kiếm

Lý do
Google vẫn có thể lập chỉ mục trang của bạn
mà không cần truy cập trang nếu có các
trang khác liên kết (trỏ) đến trang web của bạn.
BACKLINKS & INTERNAL LINK

Các tệp hình ảnh, tệp video, tệp PDF
và các tệp không phải HTML khác sẽ
bị loại trừ khỏi công cụ tìm kiếm.
Chặn Google tạo nội dung mô tả trang,
nhưng không thực sự ẩn trang trên
Google.

ROBOTS.TXT KHÔNG DÙNG CHO
100% CÔNG CỤ TÌM KIẾM
100% Google sẽ hiểu lệnh Robots.txt nhưng không phải các công cụ
tìm kiếm khác cũng thế!

CÁCH KIỂM TRA TỆP ROBOTS.TXT TRÊN
TRANG WEB
Sử dụng Google Search Console
https://www.google.com/webmasters/tools/robots-testing-tool

Tệp Robots.txt
đang sử dụng
trên 1 website

Hoặc kiểm tra 1 URL cụ thể xem có bị chặn bởi Robots.txt hay không!

CÁCH CHẶN URL XUẤT
HIỆN TRÊN GOOGLE?

Xóa toàn bộ trang. Nếu thông tin đó đã xuất hiện trên Google rồi
thì có thể bạn phải thực hiện thêm một số bước để xóa vĩnh viễn
thông tin đó.
Sử dụng mật khẩu trên máy chủ.
(Người dùng trình độ nâng cao: Nếu đang dùng máy chủ web
Apache, bạn có thể chỉnh sửa tệp .htaccess để bảo vệ thư mục
trên máy chủ bằng mật khẩu. Có nhiều công cụ trên web có thể
giúp bạn thực hiện việc này.)
Dùng thẻ meta noindex. Nhiệm vụ của thẻ này là để chặn Google
Index. Yêu cầu Google không đọc nội dung trang và không hiển
thị khi người dùng tìm kiếm.

Chọn không tham gia hiển thị trên Google Địa phương và các sản
phẩm khác của Google.
Thẻ meta nosnippet để ngăn Google hiển thị đoạn trích cho trang của
bạn trong kết quả tìm kiếm hoặc dùng thẻ meta max-snippet:[number]
để chỉ định độ dài tối đa cho đoạn trích trong kết quả. Bạn cũng có thể
ngăn không cho một số phần nhất định trong nội dung văn bản trên
trang hiển thị trong một đoạn trích bằng cách dùng thẻ data-nosnippet.
Công cụ tham số URL để chặn hoạt động thu thập dữ liệu trên một số URL
với những tham số cụ thể. Chỉ nên dùng phương pháp này khi rất thành
thạo, do phương pháp này có thể chặn một phần lớn không gian URL của
trang web và nếu có sai sót sẽ rất khó gỡ lỗi.

�ݺ�ߣ

SITE MAP & ROBOTS.TXT - PHÂN TÍCH HIỆN TRẠNG WEBSITE

More Related Content

SITE MAP & ROBOTS.TXT - PHÂN TÍCH HIỆN TRẠNG WEBSITE

Editor's Notes