這是中文google的結果

google給自己的pr不是10嗎?為什麼排名這樣靠後?


引一篇搜索引擎排序的科普文章:

http://stblog.baidu-tech.com/?p=121

用一個概率模型來看搜索引擎, 決定排序的是兩方面的因素共同決定的(可以粗略理解為乘法關係)

  • query和doc(網頁)之間的相關性匹配程度
  • doc(網頁)自身的質量

對於Pagerank屬於doc自身的質量指標, 是和query無關的. 對於doc和query之間的相關性匹配, 主要考慮幾個特徵

  • doc網頁中包含的文字信息: 比如標題, 正文等
  • 指向doc網頁超鏈接的anchortext文字描述

對於"搜索引擎"這個例子, google首頁中不包括"搜索引擎"這樣的文字信息, 同時可能由於google本身已經成了搜索引擎的同義詞, 沒有人用"google搜索引擎"這樣的方式去描述google首頁, 導致anchortext當中也沒有足夠數量的"搜索引擎"相關的文本描述.

google首頁和"搜索引擎"這個query的相關性匹配程度很低, 由於是近似乘法關係, 即使是Pagerank再高, 綜合計算出來的結果也不足以排到靠前的位置(這種情況在國內的B公司上也差不多). 有一種看法是, "google"這樣的文本信息, 已經包括了"搜索引擎"這樣的概念. 可以利用"搜索引擎" &< - &> "google"之間的詞語上下位關係, 來擴充結果可能匹配的文本相關性範圍. 但目前搜索引擎還是盡量忠於用戶的輸入, 同位的替換是可能的, 但上下位詞之間由於語義關係比較遠, 在目前的非語義搜索引擎層面還沒找到合適的應用方式.
用google搜索google 會讓整個互聯網癱瘓


Google自己不就是搜索引擎嗎?


推薦閱讀:
相关文章