當前位置:學問君>人在職場>電腦培訓>

如何判斷頁面的價值

學問君 人氣:3.09W

搜尋引擎每天處理着數以億計的查詢請求,每個查詢請求都代表了一個用戶對於某種資源的特定需求。那麼,對於搜尋引擎而言,頁面的價值是指什麼?我們爲什麼要研究頁面價值,技術上怎樣判斷頁面的價值呢?下面小編帶來的文章將逐一回答這些問題。

如何判斷頁面的價值

一、 什麼頁面價值。

前面我們說了,某個頁面滿足了某一用戶的特定需求,就體現了這個頁面對用戶的價值。那麼對搜尋引擎而言,價值體現在哪些方面呢?一個簡單的推論,所有可能會對用戶產生價值的頁面都是對搜尋引擎有價值的,將這些頁面建入搜尋引擎的索引中能夠滿足最終檢索到它們用戶的需求,我們稱這種價值爲檢索價值。只要是能解決某個用戶資訊需求的,並且是可以透過某些正常檢索需求到達的,那麼就是有檢索價值的。

小學生張三喜歡在qzone上寫日記,寫他前天吃了什麼,今天玩了什麼。這些內容,是有價值的。它們對張三的家長、同學、老師,以及其他小學生,和對小學生日記感興趣的人來說,都是有價值的。對於這個資訊體來說,“張三”這個名字是檢索的“key”。

有一些資訊單元,只有“瀏覽”價值,而沒有到達該資訊的檢索途徑,那麼該資源可能是有價值的,但檢索價值就很低。比如一張百度大廈附近的地圖,從瀏覽角度,是有價值的;但是如果沒有任何周邊文字說明(或者link的anchor text),只有一張光禿禿的地圖,就沒有檢索價值。當然,如果圖片的內容識別技術,有朝一日能自動識別出這個是“百度大廈附近地圖”,或者能夠自動分析出地圖內的各種大廈、街道、餐館等的名稱,那麼這張圖一樣變得有檢索價值了。所以一個頁面是否有檢索價值,應該取決於兩點:

1) 是否能解決某個特定的需求(價值)

2) 是否可以透過某個常規的搜尋方式獲得該資訊(檢索)

那麼,沒有檢索價值的頁面,是否對搜尋引擎就沒有價值了呢?仔細想想,答案是否定的。索引只是搜尋引擎的一個環節,對於其他環節而言,沒有檢索價值的頁面有可能對我們更好的收錄那些檢索價值高的頁面有幫助。比如對負責抓取互聯網資源的spider而言,有一些頁面,本身沒有檢索價值,但透過這些頁面的抓取和分析,能夠更快的幫助我們掌握這一類頁面沒有檢索價值這一重要資訊,從而節省更多的流量進行更加有效的抓取。

考慮到這種價值可以算作一種“間接的”檢索價值,最終還是立足於索引價值的,在本文中就不再展開論述,我們只關注“檢索價值”這一根本問題。下文中提到的“頁面價值”特指頁面的“檢索價值”。

二、 爲什麼要研究頁面價值

首先,互聯網上的頁面是無窮盡的,而搜尋引擎的硬件資源是有限的,想用有限的資源去覆蓋無窮盡的互聯網,我們就需要對頁面價值做出判斷,不收錄那些無檢索價值的頁面,少收錄那些檢索價值低的頁面。這是頁面價值在收錄控制方面的應用。

第二,搜尋引擎spider的抓取能力是有限的,出於訪問友好性的考慮,對於一個網站或一個IP抓取速率需要有一個抓取速率的上限。在這一限制下,抓取或頁面更新就需要有一個先後順序,而這一排序的主要參考依據就是頁面價值,或者說對頁面價值的預測(未抓取時)。這是頁面價值在spider調度方面的應用。

第三,對於某些頁面,頁面內容發生變化,導致它的檢索價值從有到無,典型的就是變爲“死鏈”,或者“被黑”。對於這些頁面,好的搜尋引擎會在第一時間將其排除出索引,或在檢索時對其進行屏蔽,以保證返回給用戶的結果是更多檢索價值高的“好頁面”。對於另一些頁面,它不僅具有很高的檢索價值,而且有很強的“時效性”,能夠第一時間讓用戶檢索到這些頁面對搜尋體驗有很大的提升。對搜尋引擎而言,越快的收錄和索引頁面意味着越多的額外資源開銷,以多快的速度收錄和以多短的週期更新索引,需要透過頁面價值的分析來指導。這兩方面是頁面價值在死鏈率和時效性兩大搜尋引擎指標提升上的應用。

最後,普遍意義上的頁面價值高低對搜尋引擎返回給用戶的結果排序上也存在着指導意義。理想情況下搜尋引擎的結果是按照與查詢請求的相關性進行排序的,在相關性大體相當的情況下,用戶更傾向與瀏覽普遍意義上頁面價值高的網頁。這是頁面價值在ranking方面的應用。

可以說,頁面檢索價值的研究是搜尋引擎中的一項較爲基礎的工作,對頁面價值的認識和判斷的準確程度直接影響着搜尋引擎的覆蓋率、死鏈率、時效性等幾大主要指標。

三、 如何判斷頁面價值

前文中提到過一個小學生張三qzone日記的例子。我們認爲這個頁面是有價值的,對張三的同學,朋友,家人都有價值。與此類似的,百度CEO李彥宏在i貼吧上發表一條十幾個字的i貼,也是有價值的,對李彥宏的上千萬粉絲都有價值。雖然李彥宏的i貼長度可能遠小於張三的日記,但就這兩個頁面的價值來說,我們都會有一個共同的認識,即從普遍意義上講,李彥宏的i貼價值遠大於張三的日記。(當然,對於張三的媽媽來說很可能這個價值的.關係是相反的)

再舉個例子,搜尋某個人的手機號碼,搜尋引擎返回了一個結果,是這個人在某個論壇上的一個回覆。雖然這個手機號碼關心的人不多,但因爲資源是絕對稀缺的,對於關心這個手機號碼的查詢需求,這個頁面是完全不可替代的,因此具有極高的價值。

另外,頁面檢索價值,還受到頁面質量的影響。相似的頁面,對於滿足用戶需求來說,往往會有很大差異,比如資源下載速度,頁面的佈局,廣告的多寡。這類差異,姑且稱之爲頁面質量。

最後,有些頁面具有明顯的公衆話題性質,且這些資源往往在剛剛產生時有非常高的關注度,隨着時間的推移熱度顯著下降,有着“新聞”的特徵。典型的像各種“門”事件,地震、火災等大型的自然災害。我們認爲這類資源具有“時效性”特徵。

所以,一個頁面的檢索價值,大致受以下四個要素的影響:

感興趣的受衆羣大小

該頁面的稀缺程度(可替代性)

該頁面的質量高低

該頁面的時效性特徵強弱

這四種要素,簡稱受衆,稀缺,質量和時效性。

1. 受衆

受衆羣體的大小,即代表了用戶檢索需求的大小。評價受衆的大小主要依據資訊發佈源的受衆和資訊內容本身受衆兩大方面。具體因素包括且不限於:

網站忠實用戶羣大小

一般來說,擁有自己忠實用戶羣的知名網站,他們的成功,在於他們的內容和服務,比別人更能吸引和滿足用戶。從這個角度來說,我們可以推論,擁有更多忠實用戶羣的網站上的內容,會比忠實用戶羣較少的網站上的內容,有更多的既有和潛在受衆羣。這樣的話,忠實用戶羣大小,就可以變成對站點內資源檢索價值的一種衡量指標。忠實用戶羣的好處在於,它是變動的。如果一個網站變差了,那麼用戶就會用腳投票。超鏈有過期問題,作弊問題,而虛假用戶羣作弊很難。一般所謂的網站知名度,會和忠實用戶羣數量密切相關。

資源分佈規律

我們再考慮一個網站內部的資源分佈所體現的受衆羣大小問題。比如新浪新聞首頁的那些推介內容。新浪編輯爲什麼要推這些內容?因爲他們認爲這些是用戶最感興趣的。那麼從索引價值角度而言,相當於有一個龐大的編輯團隊,已經對這些內容打上了“符合大衆口味”的標籤。搜尋引擎只需要樂享其成就行了。這樣的話,資源相對於某些結構性關鍵頁面(首頁、頻道頁等)的連結深度,也可以成爲衡量一個資源受衆羣大小的指標了。

訪問熱門度

我們再從訪問熱門度角度來考慮受衆羣大小問題。這個是最直接的,當然,它需要第三方的工具來獲取關鍵數據。透過這個途徑,獲取的不應僅僅是需要入庫的頁面,還有用戶訪問一個網站的訪問模式。

TAGS:頁面 價值