Công việc đang tuyển dụng Xem thêm

[HCM – Đà Nẵng] SEO Leader

Mức lương: Hấp Dẫn | Thưởng cuối năm trên 2 tháng | BHXH 100%

Hạn nộp hồ sơ: 31/07/2024

Hạn nộp hồ sơ: 31/07/2024

Hạn nộp hồ sơ: 31/05/2024

Giải mã việc rò rỉ tài liệu tìm kiếm lớn của Google

Tác giả : Phương Hà   Kiểm tra bởi HieuND
5/5 - (1 bình chọn)
Ngày đăng: 03/06/2024

Phân tích này tiết lộ các yếu tố tiềm năng trong việc xếp hạng của Google Search, bao gồm thông tin về các biến thể của PageRank, các chỉ số uy tín trang web và nhiều điều khác.

Tổng quan về vụ rò rỉ tài liệu tìm kiếm

Việc rò rỉ tài liệu xếp hạng nội bộ của Google Search với quy mô lớn đã gây ra làn sóng sốc trong cộng đồng SEO. Sự rò rỉ này, tiết lộ hơn 14,000 yếu tố tiềm năng có thể ảnh hưởng đến việc xếp hạng, cung cấp một cái nhìn chưa từng có dưới mái nhà của hệ thốnsiteg xếp hạng tìm kiếm của Google được bảo mật chặt chẽ.

Một người tên là Erfan Azimi đã chia sẻ một thông tin rò rỉ tài liệu API của Google với Rand Fishkin từ SparkToro. Rand Fishkin sau đó đã mời Michael King của iPullRank để nhờ anh ấy giúp đỡ trong việc phân phối câu chuyện này.

Các tập tin bị rò rỉ xuất phát từ một phiên bản cập nhật (commit) của tài liệu API của Google, được ghi lại với tiêu đề “yoshi-code-bot/elixer-google-api.” Điều này ngụ ý rằng thông tin đã bị rò rỉ không phải là kết quả của một hành động gây hại từ bên ngoài, mà có thể là do một lỗi trong quá trình quản lý tài liệu hoặc cập nhật từ phía bên trong của Google.

Cộng đồng SEO được phân làm 3 nhóm chính:

  • Những người trong lĩnh vực SEO (tối ưu hóa công cụ tìm kiếm) có xu hướng tin tưởng hoàn toàn vào những gì Google nói và coi đó như là sự thật tuyệt đối. Họ hiểu rằng những gì Google khuyên là đúng và nên tuân thủ mọi chỉ dẫn đó như là một tôn chỉ hoặc nguyên tắc thánh thiêng. tôi gọi họ là “những người cổ vũ cho Google” để chỉ sự mù quáng trong việc tôn trọng và tin tưởng vào mọi điều Google nói.
  • Google thường nói dối và không nên tin vào bất kỳ điều gì mà Google nói. ” tức là những người thực hiện các chiến lược SEO không đạo đức hoặc vi phạm các nguyên tắc của Google (blackhat SEOs)
  • Google đôi khi nói sự thật, nhưng cần kiểm tra nếu bạn có thể tìm thấy sự thật. tôi gọi đây là “lập luận của Bill Slawski” vì ông Bill Slawski là người đã thuyết phục họ về quan điểm này)

Tôi nghĩ rằng có nhiều người sẽ thay đổi phân khúc của họ sau việc rò rỉ này.

Bạn có thể tìm thấy tất cả tại đây here, nhưng bạn nên biết rằng có hơn 14,000 tín hiệu hoặc đặc điểm có thể ảnh hưởng đến việc xếp hạng trên công cụ tìm kiếm, và bạn sẽ mất một ngày (hoặc trong trường hợp của tôi, là một đêm) để khám phá mọi thứ.

Tôi đã đọc toàn bộ nội dung và rút gọn nó thành một tài liệu PDF dài 40 trang, và hiện đang chuyển đổi nó thành một bản tóm tắt cho Search Engine Land.

Trong khi đưa ra những suy nghĩ và ý kiến của mình, tôi cũng chia sẻ tên của các tính năng xếp hạng cụ thể để bạn có thể tự mình tìm kiếm cơ sở dữ liệu. Tôi khuyến khích mọi người đưa ra kết luận của riêng mình..

Xem thêm: 200+ yếu tố SEO: Bản cập nhật mới 2024

Những điểm chính từ việc rò rỉ tài liệu về Google Search

  • Một biến thể của thuật toán PageRank được sửa đổi và gọi là “Nearest seed”. Thuật toán này được gọi là pageRank_NS, được liên kết với việc hiểu văn bản trong quá trình xác định xếp hạng trang web trên công cụ tìm kiếm của Google.
  • Google từng đề cập 7 loại PageRank khác nhau, nổi tiếng một trong số đó là ToolBarPageRank. Tức là Google sử dụng nhiều phương pháp khác nhau để đo lường sự uy tín và tầm quan trọng của các trang web, trong đó có một phương pháp cụ thể được gọi là ToolBarPageRank.
  • Google có một phương pháp cụ thể để xác định các mô hình kinh doanh sau: tin tức, YMYL (Your Money or Your Life), blog cá nhân (blog nhỏ), thương mại điện tử và trang web video. Nhưng không rõ lý do về việc tại sao họ đang tập trung đặc biệt vào việc lọc các blog cá nhân.
  • navBoost, NSR và chardScores là những thành phần quan trọng nhất của thuật toán của Google.
  • Google đánh giá mức độ uy tín của một trang web không chỉ dựa trên các chỉ số cụ thể của từng trang mà còn dựa trên sự uy tín của toàn bộ trang web, bao gồm lưu lượng truy cập từ người dùng sử dụng trình duyệt Chrome.
  • Google sử dụng nhúng trang (page embeddings), nhúng trang web (site embeddings), tập trung của trang web (site focus) và bán kính của trang web (site radius) trong hàm điểm của nó. 
  • Google theo dõi và đo lường các loại click khác nhau, bao gồm bad clicks (clicks xấu), good clicks (clicks tốt), clicks (clicks), last longest clicks (clicks kéo dài cuối cùng) và site-wide impressions (ấn tượng trên toàn trang web) để hiểu cách người dùng tương tác với các kết quả tìm kiếm và đánh giá chất lượng của trang web.

Tại sao Google lại lọc riêng các blog cá nhân/trang web nhỏ? Tại sao Google nhiều lần công khai nói rằng họ không có thước đo về độ uy tín của tên miền hoặc trang web?

Tại sao Google nói dối về việc sử dụng dữ liệu click chuột của họ? Tại sao Google có 7 loại PageRank? Có sự nghi ngờ về tính chính xác của thông tin mà Google cung cấp, và câu hỏi về tại sao họ sử dụng nhiều biến thể của thuật toán PageRank.

Những câu hỏi này là những vấn đề quan trọng mà người làm SEO quan tâm và muốn tìm hiểu.

Xem thêm: SEO Onpage: Top 16 Checklist quan trọng tối ưu

Điểm nổi bật: Những khám phá ưa thích

Google có một thứ gọi là pageQuality (PQ). Một trong những phần thú vị nhất là Google đang dùng một mô hình ngôn ngữ LLM để ước tính “nỗ lực”, nghĩa là ước tính mức độ nỗ lực và chuyên môn cần thiết cho những trang bài viết có chất lượng cao. Giá trị này có ích cho Google trong việc xác định liệu một trang có thể được sao chép dễ dàng hay không (tức là đánh giá trang web chỉ sao chép nội dung từ các nguồn khác hoặc có nội dung chất lượng thấp)

Kết luận: Công cụ, hình ảnh, video, thông tin độc đáo và sâu sắc là những cách nổi bật để đạt điểm cao trong việc tính toán “nỗ lực”. Trùng hợp, những điều này cũng đã được chứng minh là làm hài lòng người dùng.

Xem thêm: Kỹ thuật SEO hình ảnh hiệu quả theo hướng dẫn của Google

Sự phân chia rõ ràng giữa các chủ đề và độ tin cậy của các chủ đề là quan trọng

Topical authority là một khái niệm dựa trên nghiên cứu bằng sáng chế của Google. Nếu bạn đã đọc các tài liệu này của Google, bạn sẽ thấy rằng nhiều thông tin từ những nghiên cứu này được các chuyên gia SEO sử dụng và áp dụng cho công việc tối ưu hóa website của họ.

Trong thông tin rò rỉ về thuật toán, siteFocusScore, siteRadius, siteEmbeddings và pageEmbeddings được sử dụng để xếp hạng.

Những điều này là gì?

  • siteFocusScore: chỉ ra mức độ mà một trang web tập trung vào một chủ đề cụ thể.
  • siteRadius: đo lường sự sai khác của nhúng trang so với nhúng trang web. Nói đơn giản, Google tạo ra một bản định danh chủ đề cho trang web của bạn, và mỗi trang được đo lường so với bản định danh đó.
  • siteEmbeddings: là nhúng trang/web được nén.

Source: Topic embeddings data module

Tại sao điều này thú vị?

  • Nếu bạn biết cách hoạt động của tính năng nhúng, bạn có thể tối ưu hóa trang web của mình để cung cấp nội dung theo cách dễ hiểu hơn cho Google.
  • Tập trung vào chủ đề của một trang web là một điểm quan trọng. Chúng tôi biết rằng có một điểm số cụ thể được gán cho mỗi trang web dựa trên mức độ tập trung vào chủ đề của trang đó. Tức là Google quan tâm đến việc một trang web tập trung vào chủ đề cụ thể và có khả năng đánh giá điều này khi xếp hạng các trang trong kết quả tìm kiếm.
  • Về việc đánh giá mức độ lạc đề. Nghĩa là, Google có thể đo được một đoạn văn có đi chệch hướng khỏi chủ đề chính hay không. 
  • Google đang rất quan tâm đến việc xác định chủ đề của nội dung và đo lường mức độ liên quan đến chủ đề đó.

Thuật toán PageRank cũ đã không còn được sử dụng chính để xếp hạng trang web. Kỹ thuật mới gọi là “nearest seed” có thể hữu ích trong việc đánh giá mức độ uy tín của trang web trong một lĩnh vực cụ thể.

NS là một kỹ thuật đánh giá mức độ uy tín của trang web bằng cách phân tích các nhóm trang web liên quan chặt chẽ với nhau (chủ đề cụ thể). NS ưu tiên các trang web gần nhau về mặt chủ đề và có nội dung liên quan trực tiếp, đồng thời có thể điều chỉnh kết quả tìm kiếm cá nhân hóa dựa trên sở thích của người dùng. Cách tiếp cận này giúp xác định thứ hạng của trang web dựa trên sự liên quan trong một chủ đề cụ thể, thay vì thứ hạng toàn cục trên toàn bộ web như PageRank.

Một cách tiếp cận khác để đánh giá thứ hạng trang web, đó là kết hợp “nearest seed” (NS) với “page quality” (PQ – chất lượng trang)

Cải thiện thuật toán PageRank cũ của Google bằng cách tận dụng điểm chất lượng trang (PQ) để chọn các trang web “seed nodes” (nút hạt giống) tốt hơn trong phương pháp “nearest seed” (NS). (Có nghĩa là Thuật toán PageRank cũ chỉ tập trung vào mức độ phổ biến của một trang web dựa trên các liên kết đến nó. Tuy nhiên, điều này không đảm bảo chất lượng nội dung của trang web đó. Bằng cách sử dụng điểm chất lượng trang (PQ) để chọn các “seed nodes” chất lượng, phương pháp NS kết hợp với PQ có thể giúp Google xác định thứ hạng trang web chính xác hơn. Các trang web được chọn làm “seed nodes” không chỉ liên quan đến chủ đề tìm kiếm mà còn có nội dung chất lượng cao, từ đó giúp cải thiện chất lượng kết quả tìm kiếm tổng thể.)

Việc sử dụng điểm chất lượng trang (PQ) để chọn “seed node” có thể cải thiện thứ hạng cho các trang web chất lượng cao, nhưng nó cũng có thể có tác động tiêu cực. Nếu một trang web chất lượng thấp được chọn làm “seed node”, nó có thể ảnh hưởng xấu đến các trang web khác được đánh giá dựa trên “seed node” này. Điều này có nghĩa là nội dung của các trang web khác có thể bị “làm ô nhiễm” về mặt uy tín do liên kết với một trang web chất lượng thấp. NS có thể sử dụng cả trang web chất lượng cao và thấp làm “seed node”.

Khi chúng tôi áp dụng site2Vec và kiến ​​thức về siteEmbeddings , tôi nghĩ lý thuyết này đúng. NS có thể được sử dụng tương tự như thuật toán Panda để xác định các trang web chất lượng thấp.

Điều gì sẽ xảy ra nếu NS có thể hoạt động cùng với OnsiteProminence (giá trị điểm từ vụ rò rỉ)?

Kết hợp NS với “OnsiteProminence” có thể giúp đánh giá chính xác hơn mức độ liên quan của một trang web với các trang web “seed node” có lưu lượng truy cập cao.

Xem thêm: Cập nhật mới nhất về Google Broad Core

Chất lượng hình ảnh

Google có thể đang sử dụng hành vi click chuột của người dùng để đánh giá chất lượng hình ảnh trong kết quả tìm kiếm. Các yếu tố được xem xét có thể bao gồm tính hữu ích, trình bày, mức độ hấp dẫn và thu hút của hình ảnh. Những tín hiệu này được coi là Dữ liệu cá nhân CPS của Tìm kiếm. Mặc dù một số từ ngữ được sử dụng có thể không chính thức, nhưng đây là một cách tiếp cận thú vị để đánh giá chất lượng hình ảnh và có thể ảnh hưởng đến thứ hạng của chúng trong tương lai. 

Nguồn: Image quality data module

Host NSR

Giả thuyết: NSR là viết tắt của “Normalized Site Rank” (Xếp hạng Trang được Chuẩn hóa).

NSR máy chủ là thứ hạng trang web được tính cho các khối trang web cấp máy chủ (trang web). Giá trị NSR có thể bao gồm ba yếu tố: nsr , site_pr và new_nsr. nsr_data_proto có thể là định dạng lưu trữ dữ liệu mới nhất cho NSR, nhưng hiện tại chưa có nhiều thông tin về nó.

Hệ thống NSR có thể hoạt động bằng cách chia nhỏ website thành các “sitechunk” để thăm dò các điểm số chỉ số chất lượng ngẫu nhiên bắt nguồn từ tổng hợp. 

NavBoost

Tôi sẽ thảo luận nhiều hơn về vấn đề này, nhưng đó là một phần xếp hạng được đề cập nhiều trong trong vụ rò rỉ. NavBoost là tính năng xếp hạng lại dựa trên nhật ký click của hành vi người dùng. Mặc dù Google đã nhiều lần phủ nhận điều này, nhưng một vụ kiện gần đây buộc Google phải tiết lộ rằng họ thực sự dựa khá nhiều vào dữ liệu click. 

Google sử dụng dữ liệu duyệt web của người dùng thông qua Chrome để xếp hạng trang web. Điều này có thể ảnh hưởng đến thứ hạng của một trang web trong kết quả tìm kiếm và có thể xảy ra trên cả máy tính và thiết bị Android.

Chúng ta bàn về điểm chất lượng của trang web (site quality score). Liên kết trên trang web thường có mối liên kết với số lượt click, và từ các tài liệu rò rỉ, chúng ta thấy rõ rằng các chủ đề, liên kết và lượt nhấp có một mối quan hệ chặt chẽ với nhau.

“Dù tôi không thể kết luận ở đây, nhưng tôi biết những gì Google đã chia sẻ về thuật toán Panda và những gì bằng sáng chế nói. Tôi cũng biết rằng Panda, Baby Panda và Baby Panda V2 được đề cập trong tài liệu rò rỉ.”

“Nếu tôi phải đoán, tôi sẽ nói rằng Google sử dụng tên miền tham chiếu và tỉ lệ clicks để xác định việc giảm điểm số.”

Tuổi của tên miền (HostAge)

Tuổi của trang web (thời gian hoạt động) không được tính đến trong điểm xếp hạng của Google. Tuy nhiên, tài liệu có đề cập đến “hostAge” (thời gian hoạt động của hosting) liên quan đến “sandbox”. Dữ liệu về hostAge được sử dụng trong “Twiddler” để xác định các website spam mới và đưa chúng vào “sandbox” tại thời điểm hiển thị kết quả tìm kiếm. “Sandbox” ở đây có nghĩa là hạn chế hiển thị các website mới nghi ngờ là spam.

Thông tin này thú vị vì nhiều chuyên gia SEO (Search Engine Optimization – tối ưu hóa công cụ tìm kiếm) vẫn tranh luận về “sandbox” và tầm quan trọng của tuổi miền (domain age).

Google không trực tiếp sử dụng tuổi miền để xếp hạng trang web, nhưng có thể sử dụng nó để xác định website spam mới trong giai đoạn đầu hoạt động.

Dựa trên những gì được tiết lộ trong tài liệu bị rò rỉ (leak), Google sử dụng “sandbox” để kiểm soát các website mới có khả năng là spam và HostAge không ảnh hưởng đến việc website có bị đưa vào “sandbox” hay không.

ScaledIndyRank có thể là một phương pháp xếp hạng các trang web, được điều chỉnh dựa trên các yếu tố độc lập.  Tài liệu bị rò rỉ không cung cấp chi tiết chính xác về cách tính toán ScaledIndyRank. Bên cạnh đó, Google có thể đang thử nghiệm một phiên bản khác của hệ thống xếp hạng này là ExptIndyRank3. Nếu phải đoán, có thể liên quan đến việc đánh giá thông tin trên toàn bộ trang web (nội dung gốc). 

Lưu ý rằng chúng ta không biết Google sử dụng các yếu tố xếp hạng này như thế nào. Phần lớn thuật toán của họ là bí mật. Quan điểm của tôi dựa trên những gì tôi thấy trong tài liệu rò rỉ này và những gì tôi đã đọc từ các bằng sáng chế của Google trong ba năm qua.  

Xem thêm: Google cập nhật thuật toán mới nhất năm 2024

Cách xóa bộ nhớ của Google về phiên bản cũ của một tài liệu

Dựa trên thông tin bị rò rỉ, Google lưu trữ lại tất cả các phiên bản trước đây của một trang web, điều này có nghĩa Google có một kho lưu trữ web nội bộ (internal web archive). (Google’s own version of the Wayback Machine). 

Điểm mấu chốt là Google chỉ sử dụng khoảng 20 phiên bản gần đây nhất của một tài liệu (hoặc trang web). Đây là quá trình Google gửi các “con bot” (robot) đến thu thập dữ liệu và lập chỉ mục các trang web.  Nếu bạn cập nhật trang web, đợi Google “thu thập dữ liệu” trang đó và lặp lại quá trình này 20 lần. Bằng cách cập nhật liên tục, bạn có thể “loại bỏ” (push out) một số phiên bản cũ của trang web khỏi hệ thống của Google.

Thông tin này có thể hữu ích. Việc “xoá bỏ” các phiên bản cũ của trang web có thể hữu ích vì các phiên bản cũ có thể được gắn với các điểm và trọng số ảnh hưởng đến thứ hạng. Tuy nhiên, tài liệu bị rò rỉ đề cập đến hai loại cập nhật: cập nhật đáng kể và cập nhật thông thường. Họ không chắc liệu bạn có cần phải cập nhật nội dung trang web một cách đáng kể (thay đổi nhiều) để “xóa bỏ” các phiên bản cũ khỏi hệ thống lưu trữ của Google..

Hệ thống xếp hạng Google Search

Mặc dù chỉ là phỏng đoán nhưng một trong những điều thú vị nhất tôi tìm thấy là thuật ngữ trọng lượng (kích thước chữ). Điều này có nghĩa là in đậm từ hoặc kích thước của các từ, nói chung, có ảnh hưởng đến điểm số của tài liệu một cách nào đó.

Hệ thống xếp hạng Google Search

Các cơ chế lưu trữ chỉ mục

  • Đĩa flash: Được sử dụng cho các nội dung quan trọng nhất và thường xuyên được cập nhật.
  • Ổ đĩa cứng: Được sử dụng cho các nội dung ít quan trọng hơn.
  • Ổ cứng tiêu chuẩn: Được sử dụng cho các nội dung được cập nhật không đều.

Đáng chú ý là, ổ cứng tiêu chuẩn được sử dụng cho các nội dung được cập nhật không đều.


Người lập chỉ mục của Google hiện có tên: Alexandria

Thật khó hiểu. Google lại đặt tên cho cơ sở dữ liệu lớn nhất của mình theo tên của thư viện nổi tiếng nhất. Hy vọng rằng số phận tương tự sẽ không gặp phải với Google.

Hai chỉ mục khác cũng phổ biến trong tài liệu: SegIndexer và TeraGoogle. 

  • SegIndexer là một hệ thống tổ chức tài liệu theo các cấp (tiers) bên trong thư mục (index) của nó. SegIndexer sắp xếp tài liệu theo một cách thức cụ thể, giúp bạn dễ dàng tìm thấy tài liệu bạn cần.
  • TeraGoogle là bộ nhớ lưu trữ dài hạn
lập chỉ mục của Google hiện có tên: Alexandria

Xem thêm: Index là gì? 6 Cách giúp Google Index Website nhanh nhất

Chúng ta đã xác nhận độ uy tín của các trang web nguồn hay toàn trang web?

Phần có tiêu đề “GoogleApi.ContentWarehouse.V1.Model.QualityNsrNsrData” đề cập đến một yếu tố có tên là isElectionAuthority . Thông tin rò rỉ cho biết: “Bit để xác định xem trang web có tín hiệu của cơ quan bầu cử hay không”.

Điều này thật thú vị vì nó có thể là thứ mà mọi người gọi là “trang web hạt giống”. Đó cũng có thể là các cơ quan có thẩm quyền hoặc các trang web có Xếp hạng trang là 9/10 (Lưu ý: thanh công cụ PageRank được tham chiếu trong vụ rò rỉ).

Điều quan trọng cần lưu ý là nsrIsElectionAuthority (một yếu tố hơi khác) được coi là không được dùng nữa, vì vậy ai biết chúng ta nên giải thích điều này như thế nào.

Phần cụ thể này là một trong những phần có mật độ dày đặc nhất trong toàn bộ vụ rò rỉ. 

Nội dung ngắn có thể có thứ hạng cao

Thông tin rò rỉ đã xác nhận nội dung ngắn không đồng nghĩa với việc nội dung chất lượng thấp, thiếu chiều sâu. Nội dung ngắn được áp dụng một hệ thống tính điểm khác biệt (không hoàn toàn độc đáo nhưng khác biệt đến một mức độ nào đó). Nội dung ngắn có thể xếp hạng cao nếu chất lượng tốt và đáp ứng nhu cầu người dùng.

Xem thêm: Google Search Operators: 32 toán tử tìm kiếm nâng cao

Dường như các liên kết mới hơn vượt qua các liên kết hiện có.

Theo Freshdocs, một bộ nhân giá trị liên kết, liên kết từ các trang web mới hơn sẽ tốt hơn liên kết được chèn vào nội dung cũ.

Rõ ràng, chúng ta vẫn cần sử dụng kiến thức của mình về một trang web có giá trị cao (được đề cập trong suốt bài thuyết trình này). Điều này nhấn mạnh rằng trang web được liên kết đến vẫn là yếu tố quan trọng.

Tuy nhiên, trước đây tôi đã hiểu sai về điều này. Tôi nghĩ tuổi của trang web là một điều tốt, nhưng thực tế, không phải độ tuổi thực sự mang lại giá trị chỉnh sửa thích hợp, mà chính là lưu lượng truy cập hoặc các liên kết nội bộ đến trang (nếu bạn đi theo con đường chỉnh sửa thích hợp). Tuổi của trang web không quan trọng bằng lưu lượng truy cập hoặc các liên kết nội bộ đến trang đó.

Cuối cùng, tôi khẳng định chỉnh sửa theo ngách (niche edit) vẫn là phương pháp hữu hiệu, nhưng các liên kết từ các trang web mới hơn có thể được Google đánh giá cao hơn.

Dữ liệu NsrNsr chất lượng

Đây là một danh sách một số yếu tố điểm nổi bật nhất từ tài liệu NsrNsrData.

  • titlematchScore: Điểm khớp tiêu đề toàn trang web là một chỉ số đánh giá mức độ phù hợp giữa tiêu đề của tất cả các trang trên trang web với các truy vấn tìm kiếm của người dùng.
  • site2vecEmbedding: Giống như word2vec, đây là một vector toàn trang web, và thật thú vị khi thấy nó được đưa vào đây.
  • pnavClicks: Tôi không chắc pnav là gì, nhưng tôi cho rằng nó đề cập đến thông tin điều hướng thu được từ dữ liệu nhấp chuột của người dùng. (Tức là pnavClicks có thể liên quan đến cách người dùng điều hướng trên trang web của bạn, chẳng hạn như họ thường nhấp vào các liên kết điều hướng nào.)
  • chromeInTotal: Có thể Google đang sử dụng dữ liệu duyệt web của người dùng Chrome để đánh giá mức độ phổ biến của toàn bộ trang web.
  • chardVariance and chardScoreVariance: Các yếu tố này có thể liên quan đến mức độ thống nhất của nội dung trên trang web của bạn. Google có thể thích các trang web có nội dung chất lượng cao và nhất quán trên tất cả các trang.

NSR and Qstar

Có thể coi Qstar là một điểm số tổng hợp được Google sử dụng để đánh giá thứ hạng của một trang web. Điểm Qstar này có thể được tính toán bằng cách kết hợp thẩm quyền trang web với một loạt các yếu tố xếp hạng khác được biểu thị bằng các điểm liên quan đến NSR (chưa được tiết lộ). 

Đánh giá khi không có phép đo

nsrdataFromFallbackPatternKey. Nếu dữ liệu NSR chưa được tính toán cho một phần (chunk) của trang web, dữ liệu sẽ được lấy từ giá trị trung bình của các phần khác trong trang web. Về cơ bản, trang web của bạn được chia thành các phần (chunk), mỗi phần có các giá trị riêng. Nếu một phần cụ thể bị thiếu dữ liệu NSR, Google sẽ ước tính giá trị bằng cách sử dụng giá trị trung bình từ các phần khác.

Google đang tính điểm dựa trên các chủ đề, liên kết nội bộ, tên miền giới thiệu, tỷ lệ, số lần nhấp chuột và tất cả những thứ khác. Nếu xếp hạng trang web chuẩn hóa chưa được tính cho một đoạn (Google đã sử dụng các đoạn trên trang web và các trang của bạn cho mục đích tính điểm), thì điểm số hiện có liên quan đến các đoạn khác sẽ được tính trung bình và áp dụng cho đoạn chưa được tính điểm. 

tôi không nghĩ bạn có thể tối ưu hóa trực tiếp cho điều này, nhưng có một điều đã được làm rõ: “Cần thực sự tập trung vào chất lượng nhất quán (chủ đề của website), nếu không bạn sẽ làm giảm điểm SEO tổng thể của mình bằng cách hạ thấp điểm trung bình hoặc tính chủ đề.)

Xem thêm: Cập nhật cách Google ranking đoạn văn

Những dấu hiệu cảnh báo tiềm ẩn về việc bị giảm thứ hạng

Nhiều nội dung bị rò rỉ tập trung vào các biện pháp giảm thứ hạng mà Google sử dụng. tôi thấy điều này hữu ích (có lẽ còn hữu ích hơn) so với các yếu tố tích cực để đạt điểm cao.

Những dấu hiệu cảnh báo tiềm ẩn về việc bị giảm thứ hạng

NHỮNG YẾU TỐ CÓ THỂ LÀM GIẢM ĐIỂM SEO:

  • Trải nghiệm điều hướng kém ảnh hưởng điểm xếp hạng website của bạn. Tức là bạn nên cải thiện website sao cho người dùng dễ dàng điều hướng và tìm thấy thông tin họ cần trên trang web của bạn. Điều hướng kém có thể khiến người dùng rời khỏi trang web của bạn nhanh chóng, đây là một tín hiệu không tốt cho Google.
  • Nhận diện vị trí làm giảm điểm cho các trang cố gắng xếp hạng cho một vị trí không nhất thiết được liên kết với nhận diện vị trí của bạn. Google ưu tiên hiển thị các kết quả tìm kiếm địa phương có liên quan đến vị trí của người dùng. Nếu bạn đang cố gắng xếp hạng cho một vị trí khác với vị trí được liên kết với trang web của bạn, điều đó có thể ảnh hưởng đến điểm SEO của bạn.
  • Liên kết không khớp với trang web đích sẽ làm giảm điểm của bạn. 
  • Sự không hài lòng về nhấp chuột của người dùng làm giảm điểm của bạn. Người dùng nhấp vào trang web của bạn trong kết quả tìm kiếm nhưng sau đó nhanh chóng rời khỏi trang web. Tỷ lệ thoát trang cao (số người dùng rời khỏi trang web ngay lập tức) là một tín hiệu không tốt cho Google và có thể làm giảm điểm SEO của bạn.

Điểm hài lòng về nhấp chuột không chỉ được đo lường đơn giản bằng thời gian người dùng ở lại trên trang web (dwell time). Có thể Google sử dụng các yếu tố khác để đánh giá mức độ hài lòng của người dùng. 

Nếu bạn nhấp vào một trang web trong kết quả tìm kiếm nhưng sau đó quay lại trang tìm kiếm và tiếp tục tìm kiếm thông tin tương tự, điều đó có thể được coi là tín hiệu cho thấy trang web đầu tiên không đáp ứng được nhu cầu của bạn. Hành động này có thể dẫn đến việc trang web đó bị giảm điểm bởi thuật toán NavBoost (nếu nó tồn tại).

NavBoost có một chức năng độc đáo là nhóm các truy vấn dựa trên ý nghĩa được diễn giải. NavBoost không chỉ đơn giản là khớp các từ khóa trong truy vấn tìm kiếm của người dùng với các trang web, mà còn cố gắng hiểu ý nghĩa thực sự đằng sau truy vấn đó. NavBoost có thể nhóm các truy vấn tìm kiếm khác nhau nhưng có cùng ý nghĩa lại với nhau.

NavBoost có thể nhóm các truy vấn tìm kiếm khác nhau nhưng có cùng ý nghĩa lại với nhau.

Xem thêm: Cách SEO top Google đưa website lên top 1 nhanh nhất

Spam

  • gibberishScores (Điểm vô nghĩa): Thuật ngữ này có thể đề cập đến nội dung được tạo tự động bằng cách thay đổi các từ ngữ trong nội dung hiện có, nội dung viết bằng AI, nội dung không có nghĩa/ không liên quan đến chủ đề trang web. Một vài người nói rằng Google không thực sự hiểu nội dung. Google có thể đã từng tuyên bố rằng họ không thể “hiểu” nội dung theo nghĩa con người hiểu. tôi cho rằng dù Google không hiểu nội dung hoàn toàn, nhưng ít nhất họ có thể “giả vờ hiểu” bằng cách sử dụng các thuật toán và yếu tố xếp hạng. 
  • phraseAnchorSpamPenalty (Hình phạt spam từ khóa cụm từ neo): Điều này cho thấy hình phạt phraseAnchorSpamPenalty không nhất thiết dẫn đến việc hạ thấp toàn bộ liên kết hoặc website, mà chỉ ảnh hưởng đến điểm số liên quan đến anchor text cụ thể đó, không ảnh hưởng đến toàn bộ liên kết hoặc thứ hạng tổng thể của trang web. Hình phạt này làm giảm giá trị của anchor text trong việc cải thiện thứ hạng của trang web.
  • trendSpam (Spam xu hướng): Theo quan điểm của tôi, việc nhồi nhét các từ khóa hoặc chủ đề đang thịnh hàng vào nội dung trang web là hành vi thao túng CTR, làm tăng tỷ lệ nhấp chuột vào trang web ngay cả khi nội dung của web không đáp ứng được nhu cầu tìm kiếm của người dùng. 
  • keywordStuffingScore (Điểm nhồi nhét từ khóa): Đúng như tên gọi, đây là điểm đánh giá về mức độ nhồi nhét từ khóa trong nội dung.
  • spamBrainTotalDocSpamScore (Điểm spam toàn văn bản do trí tuệ nhân tạo phát hiện): Điểm Spam được xác định bằng thang điểm 0-1 (tức là 0: không có spam, 1: hoàn toàn spam)
  • spamRank (Xếp hạng mức độ spam): Đo lường khả năng một tài liệu (trang web) liên kết đến các trang web spam đã biết. Giá trị của spamRank là 0 và 65535 (không rõ lý do tại sao chỉ có hai giá trị này).
  • spamWordScore (Điểm từ ngữ spam):  Theo như hiểu biết, một số từ ngữ nhất định bị coi là spam. Tôi chủ yếu thấy điểm này liên quan đến anchor text (văn bản neo) của liên kết.

Anchor text

Làm sao mà không ai nói về điều này? Cả một trang web dành riêng cho việc quan sát, đo lường, tính toán và đánh giá anchor text (văn bản neo của liên kết).

Source: Anchor spam info data module

  • Thời gian để phát hiện 80% các cụm từ này là một điều thú vị. 
  • Tỷ lệ cụm từ spam trong tất cả anchor text của tài liệu (có thể là chiến thuật phát hiện liên kết – bán ít liên kết hơn trên mỗi trang). Tức là tỷ lệ phần trăm anchor text chứa các cụm từ spam cao so với tổng số anchor text trên trang web. 
  • Tỷ lệ phát hiện anchor text spam trung bình hàng ngày
  • Có bao nhiêu cụm từ spam được tìm thấy trong các liên kết giữa các tên miền duy nhất.
  • Tổng số nguồn đáng tin cậy cho URL này. 
  • Số lượng các liên kết đáng tin cậy có văn bản liên kết phù hợp với các cụm từ spam. Số lượng liên kết đến từ các trang web đáng tin cậy nhưng lại sử dụng anchor text chứa các cụm từ spam. Điều này có thể đáng ngờ nhưng không nhất thiết là xấu.
  • Các ví dụ đáng tin cậy chỉ đơn giản là một danh sách các nguồn đáng tin cậy.

Sau khi phân tích anchor text, hệ thống sẽ đưa ra một tỷ lệ phần trăm khả năng trang web là spam và hình phạt tương ứng nếu vượt quá ngưỡng nhất định.

Đây là một phần lớn sự bất công và nó không gây ngạc nhiên cho bất kỳ chuyên gia SEO kỳ cựu nào. 

trustedTarget là một số liệu liên quan đến anchor text spam, và nó trả về “Đúng” nếu URL này nằm trên một nguồn đáng tin cậy. Yếu tố trustedTarget kiểm tra xem trang web được liên kết đến có nằm trong danh sách các nguồn đáng tin cậy hay không. Nếu có, anchor text có thể được đánh giá ít nghiêm ngặt hơn.

Khi bạn trở thành “nguồn đáng tin cậy”, bạn có thể “lách luật” nhiều hơn. Tức là các trang web được Google đánh giá là nguồn đáng tin cậy có thể sử dụng anchor text chứa các cụm từ spam nhiều hơn mà không bị phạt nặng. Và nếu bạn đã nghiên cứu những “nguồn đáng tin cậy” này, bạn sẽ thấy rằng họ “lách luật” khá nhiều. tôi gợi ý rằng danh sách các nguồn đáng tin cậy có thể không hoàn toàn chính xác. Ngay cả các trang web được coi là đáng tin cậy đôi khi cũng có thể sử dụng các chiến thuật SEO không hoàn hảo, chẳng hạn như anchor text chứa một số cụm từ spam.

Trên một khía cạnh tích cực, Google có chính sách “Trawler” nhằm xác định và đánh dấu các trang web spam đã biết và hầu hết các lần thu thập dữ liệu tự động, Google sẽ tự động bỏ qua địa chỉ IP của các trang web spam.

Xem thêm: Anchor Text là gì? Các loại Anchor Text cho SEO hiệu quả

9 lời khuyên thực tế đáng để cân nhắc

  • Bạn nên đầu tư vào thiết kế trang web tốt với cấu trúc trực quan, dễ sử dụng để bạn có thể tối ưu hóa cho NavBoost. Bằng cách này, bạn có thể cải thiện khả năng trang web của bạn xuất hiện trong kết quả tìm kiếm cho các truy vấn điều hướng.
  • Nếu bạn có một trang web mà SEO (Tối ưu hóa công cụ tìm kiếm) đóng vai trò quan trọng, bạn nên loại bỏ / chặn các trang không liên quan đến chủ đề chính. Bạn có thể bắc cầu theo ngữ cảnh giữa hai chủ đề để củng cố mối liên quan theo chủ đề. Tuy nhiên, trước tiên, bạn cần xác định chủ đề mục tiêu của mình và đảm bảo mỗi trang web đạt điểm cao bằng cách tối ưu hóa cho tất cả những gì tôi chia sẻ ở cuối tài liệu này.
  • Vì các embedding được sử dụng trên từng trang và toàn bộ trang web, chúng ta cần tối ưu hóa các tiêu đề phụ theo các truy vấn tìm kiếm và đảm bảo các đoạn văn dưới tiêu đề trả lời các truy vấn đó một cách rõ ràng và ngắn gọn (viết các đoạn văn trả lời trực tiếp cho các câu hỏi mà người dùng có thể có liên quan đến tiêu đề phụ)
  • Lượt nhấp và hiển thị được tổng hợp và áp dụng theo chủ đề của trang web, vì vậy bạn nên viết thêm nội dung có thể kiếm được nhiều lượt hiển thị và nhấp hơn. Theo tài liệu bị rò rỉ, ngay cả khi bạn chỉ cải thiện dần dần số lần hiển thị và nhấp chuột, bạn cũng sẽ bắt đầu thành công nếu cung cấp trải nghiệm tốt và nhất quán với việc mở rộng chủ đề của mình. (Bởi vì Google tính tổng số lần hiển thị và nhấp chuột theo chủ đề, việc có nhiều nội dung hơn có thể giúp bạn thu hút nhiều lưu lượng truy cập hơn theo thời gian.)
  • Nội dung được cập nhật không thường xuyên có mức độ ưu tiên lưu trữ thấp nhất đối với Google và chắc chắn sẽ không hiển thị trong các kết quả tìm kiếm theo tính mới. Việc cập nhật nội dung của bạn là rất quan trọng. Hãy tìm cách cập nhật nội dung bằng cách thêm thông tin độc đáo, hình ảnh mới và nội dung video. Hãy nhắm đến mục tiêu “bắt một mũi tên trúng hai đích” bằng cách đạt điểm cao trong tiêu chí “tính toán nỗ lực”. =>  Nhấn mạnh tầm quan trọng của việc cập nhật nội dung trên trang web của bạn. Nội dung cũ kỹ có thể không được Google lưu trữ và hiển thị trong kết quả tìm kiếm. Bằng cách cập nhật nội dung thường xuyên với thông tin mới, hình ảnh và video, bạn có thể cải thiện thứ hạng tìm kiếm của mình và thu hút nhiều khách truy cập hơn. Thêm vào đó, việc cập nhật nội dung chất lượng cao cũng có thể được coi là một nỗ lực đáng khen ngợi của Google.
  • Mặc dù việc duy trì nội dung chất lượng cao và tần suất xuất bản thường xuyên là một thách thức, nhưng nó sẽ được đền đáp. Google đang áp dụng điểm chất lượng cấp độ trang web, dự đoán chất lượng của trang web/trang dựa trên nội dung của bạn. Google đo lường các biến thể theo mọi cách bạn có thể tưởng tượng, vì vậy tính nhất quán là chìa khóa.
  • Lượt hiển thị cho toàn bộ trang web là một phần của dữ liệu NSR chất lượng. Điều này có nghĩa là bạn thực sự nên coi trọng sự gia tăng lượt hiển thị vì đây là một dấu hiệu tích cực.  Lượt hiển thị cao hơn có thể cho thấy nội dung của bạn đang được Google coi là phù hợp hơn với các truy vấn tìm kiếm của người dùng.
  • “Thực thể” là yếu tố quan trọng trong NLP. Điểm nổi bật cho biết mức độ quan trọng của Thực thể trong một văn bản cụ thể, và “nhận dạng Thực thể hàng đầu”, giúp xác định Thực thể quan trọng nhất trong văn bản.
  • Loại bỏ các trang web hoạt động kém. Nếu chỉ số người dùng thấp, không có liên kết nào trỏ đến trang đó và trang đó đã có nhiều cơ hội để phát triển nhưng không đạt được, thì trang đó nên bị loại bỏ. Điểm số toàn trang web và điểm trung bình được đề cập trong suốt các tài liệu bị rò rỉ, và việc xóa các liên kết yếu nhất cũng có giá trị tương đương với việc tối ưu hóa bài viết mới của bạn (với một số lưu ý).

Xem thêm: Google hướng dẫn cách xây dựng liên kết 2024

Lý thuyết xếp hạng thống nhất: Chỉ sử dụng yếu tố rò rỉ

Công thức được đề cập không hoàn toàn chính xác thể hiện cách thức hoạt động của thuật toán xếp hạng của Google. Đây không phải là một mô tả hoàn hảo về thuật toán của Google nhưng nó là một cách hữu ích để tổng hợp các yếu tố bị rò rỉ được cho là ảnh hưởng đến thứ hạng tìm kiếm của Google (trừ các trọng số chính xác). 

Định nghĩa và số liệu 

R : Điểm xếp hạng chung

UIS (Điểm tương tác của người dùng)

  • UgcScore : Điểm dựa trên mức độ tương tác với nội dung do người dùng tạo
  • TitleMatchScore : Điểm cho mức độ liên quan của tiêu đề và khớp với truy vấn của người dùng.
  • ChromeInTotal : Tổng số lượt tương tác được theo dõi qua dữ liệu Chrome.
  • SiteImpressions : Tổng số lần hiển thị cho trang web.
  • TopicImpressions : Số lần hiển thị trên các trang theo chủ đề cụ thể
  • SiteClicks : Tỷ lệ nhấp chuột cho trang web.
  • TopicClicks : Tỷ lệ nhấp chuột cho các trang theo chủ đề cụ thể.

CQS (Điểm chất lượng nội dung)

  • ImageQualityClickSignals : Tín hiệu chất lượng từ các lần nhấp vào hình ảnh
  • VideoScore : Điểm dựa trên chất lượng video và mức độ tương tác
  • ShopScore : Điểm cho nội dung liên quan đến mua sắm
  • PageEmbedding : Nhúng ngữ nghĩa của nội dung trang
  • SiteEmbedding : Nhúng ngữ nghĩa của nội dung trang web
  • SiteRadius : Đo độ lệch trong quá trình nhúng trang web
  • SiteFocus : Số liệu biểu thị trọng tâm chủ đề
  • TextConfidence : Sự tự tin về tính liên quan và chất lượng của văn bản
  • EffortScore : Nỗ lực và chất lượng trong sáng tạo nội dung

LS (Điểm liên kết)

  • TrustedAnchors : Chất lượng và độ tin cậy của các liên kết inbound
  • SiteLinkIn : Giá trị trung bình của các liên kết đến
  • PageRank : Điểm PageRank xem xét các yếu tố khác nhau (0,1,2, ToolBar, NR)

RB (Tăng cường mức độ liên quan): Tăng mức độ liên quan dựa trên kết quả truy vấn và nội dung phù hợp

  • TopicEmbedding : Mức độ liên quan theo giá trị thời gian
  • QnA (Chất lượng trước khi điều chỉnh): Đo lường chất lượng cơ bản
  • STS (Điểm văn bản ngữ nghĩa): Điểm tổng hợp dựa trên mức độ hiểu văn bản, mức độ nổi bật và thực thể

QB (Tăng cường chất lượng): Tăng cường dựa trên nội dung tổng thể và chất lượng trang web

  • SAS (Site Authority Score): Tổng điểm liên quan đến độ tin cậy, độ tin cậy và quyền liên kết
  • EFTS (Điểm nỗ lực): Nỗ lực của trang kết hợp văn bản, đa phương tiện và nhận xét
  • FS (Điểm mới): Trình theo dõi cập nhật và trình theo dõi ngày đăng bài gốc

CSA (Điều chỉnh cụ thể theo nội dung): Điều chỉnh dựa trên các tính năng nội dung cụ thể trên SERP và trên trang.

  • CDS (Điểm dữ liệu Chrome): Điểm dựa trên dữ liệu Chrome, tập trung vào số lần hiển thị và số lần nhấp chuột trên trang web
  • SDS (Điểm xếp hạng Serp): Mức giảm dựa trên điểm đo lường trải nghiệm SERP
  • EQSS (Điểm Q Sao Thử nghiệm): Điểm tổng hợp cho các biến thử nghiệm được kiểm tra hàng ngày

 Công thức đầy đủ

R=((w1​⋅UgcScore+w2​⋅TitleMatchScore+w3​⋅ChromeInTotal+w4​⋅SiteImpressions+w5​⋅TopicImpressions+w6​⋅SiteClicks+w7​⋅TopicClicks)+(v1​⋅ImageQualityClickSignals+v2​⋅VideoScore +v3​⋅ShoppingScore+v4​⋅PageEmbedding+v5​⋅SiteEmbedding+v6​⋅SiteRadius+v7​⋅SiteFocus+v8​⋅TextConfidence+v9​⋅EffortScore)+(x1​⋅TrustedAnchors+x2​⋅SiteLinkIn+x3​ ⋅PageRank))×(TopicEmbedding+QnA+STS+SAS+EFTS+FS)+(y1​⋅CDS+y2​⋅SDS+y3​⋅EQSS)

Kết luận

  • Mức độ tương tác của người dùng = UgcScore, TitleMatchScore, ChromeInTotal, Số lần hiển thị trang web, Số lần hiển thị chủ đề, Số lần nhấp vào trang web, Số lần nhấp vào chủ đề
  • Điểm đa phương tiện = ImageQualityClickSignals, VideoScore, ShopScore
  • Liên kết = TrustedAnchors, SiteLinkIn (giá trị trung bình của các liên kết đến), PageRank(0,1,2,ToolBar và NR)
    Hiểu nội dung = PageEmbedding, SiteEmbedding, SiteRadius, SiteFocus, TextConfidence, EffortScore

Công thức tổng quát: [(Điểm tương tác của người dùng + Điểm chất lượng nội dung + Điểm liên kết) x (Tăng mức độ liên quan + Tăng chất lượng) + X (điều chỉnh điểm theo nội dung cụ thể)] – (Tổng hợp điểm giáng cấp)

Thông tin tác giả

Là SEO Content, tôi chú trọng không chỉ vào việc tối ưu hóa nội dung để nổi bật trên Google mà còn vào việc tạo ra thông điệp chất lượng và hấp dẫn. Tôi tin rằng kết hợp SEO và nội dung chất lượng sẽ mang lại hiệu quả tốt và ảnh hưởng rộng lớn.

Bài viết liên quan

Nhận báo giá SEO

Cần dịch vụ SEO?

 Tư vấn chiến lược SEO

Liên hệ

 Viết Content SEO

 Viết Content SEO

Liên hệ

KIẾN THỨC SEO NỔI BẬT

Celeb là gì? Nghệ thuật sử dụng Celeb trong truyền thông – Marketing

Đối với các chiến lược gia trong doanh nghiệp, việc lên kế hoạch để quảng bá sản phẩm luôn là ...

30/05/2023

Lê Thị Kim Thoa
Key visual là gì? “Bí kíp” tạo key visual thu hút khách hàng

Trong bất cứ chiến dịch Marketing nào thì doanh nghiệp cũng mong muốn những hình ảnh quảng cáo sản phẩm ...

24/05/2023

Thảo Phạm
Mức lương của nhân viên QA hiện nay và cơ hội nghề nghiệp

Bạn đã xem qua bài viết tháng 12 cung gì và biết được sự phù hợp trong tính cách của ...

03/02/2023

Thảo Phạm

KIẾN THỨC SEO MỚI NHẤT

Google Search Console bị lỗi cập nhật chậm dữ liệu báo cáo hiệu suất

Bạn đang gặp phải tình trạng Google Search Console bị lỗi chậm cập nhật dữ liệu báo cáo hiệu suất? ...

03/07/2024

Chu Hải Thuận
Dịch vụ SEO TPHCM uy tín: Đưa website lên Top Google nhanh chóng | TOS

Bạn đang cần đến một phương pháp hiệu quả để đưa website lên top Google, thu hút khách hàng tiềm ...

21/06/2024

Mỹ Khanh
Dịch Vụ Tối Ưu Website: Tăng Tốc Hiệu quả cho Website

Dịch vụ tối ưu website là một lĩnh vực đang ngày càng được các doanh nghiệp quan tâm. Bởi với ...

19/06/2024

Ngọc Hiền