在很長一段時間里,對于一個搜索引擎優化師而言,我們每天都會討論網站質量評估對于搜索引擎自然排名的積極作用,但很長一段時間里,我們并沒有得到有效的答案,下面的內容是整理百度早期的研究文章,分享給大家交流與學習:

互聯網的迅速發展,海量Web數據的撲面而來,給搜索引擎技術帶來了嚴峻的挑戰,但同時也帶來了新的機遇。從網頁抓取的角度來看,同一站點往往包含質量相似的資源,對一個優質網站進行爬取,往往可以找到更多的優質資源。因此,我們希望對網站的質量進行評級,來反映資源的質量水平,從而影響spider的調度和收錄。在以往的實踐中,大體思路是根據人工調研出的經驗構造出規則和閾值。發現問題后逐個打補丁、調閾值,來適應變化。這種方式最大的問題在于擴展性不強、維護代價高,而且不利于國際化多語言的支持。因此,我們希望采用更智能的方法,在站點數據中自動發現規律,來完成質量的評級。
圖1:站點質量智能評級體系
在任務層面上,首先,我們先將站點劃分為優質站點和劣質站點。區分優質站點和劣質站點就是要挖掘一批質量優異的站點,將其作為我們系統的基本集合,減少反垃圾反作弊的代價,提高系統檢索結果的穩定性和權威性,減少用戶的不良反應;同時使整個互聯網生態趨于正常,鼓勵為互聯網創造有價值的資源。我們的目標是使優質的資源在整個系統中占絕對優勢,而劣質的資源排斥在外,僅作為系統策略不完善時的必要補充。其次,我們分別在優質站點和劣質站點內部再細分成若干等級。用這些級別區分出站點質量的差距,從而會影響百度蜘蛛的調度和收錄控制,同時也會影響低質網頁的篩選。
在策略層面上,我們采用了一系列機器學習方法,對人工標注的樣本進行學習,建立模型,并將學習到的知識應用到未知站點數據中,來完成質量評級的任務。
以下以優質/劣質站點二分問題作為例子,介紹一下智能算法在站點質量評級系統中的應用。在優質/劣質站點二分問題中,我們采用了支持向量機(SVM)模型。SVM是一種基于判別式的機器學習模型。它的原理很簡單:對于一個二分類問題,例如優質站點和劣質站點,SVM的目標就是尋找到一個多維空間中的超平面,使得不同類別的實例盡可能被這個超平面正確地分開,并且超平面到它兩側最近實例的距離(稱作邊緣)盡可能大(圖2)。
SVM的目標函數可以轉化成一個凸二次優化問題,通過數值優化方法加以解決。
SVM的優點包括:
(1)和其他機器學習方法相比,分類性能卓越;
(2)模型復雜性對維度大小不敏感。這使得它在優質/劣質站點二分問題中取得了良好的效果。
圖2:支持向量機SVM
在使用SVM進行站點質量智能評級過程中,有兩個地方是特別需要注意的:一個是特征的預處理。在連續數值特征中,有些特征的數值差異過大,優質站點和劣質站點在數值上可能相差幾百萬、上千萬。我們對這些特征采用求log的方式使數值變化變平緩,以利于機器學習。
對于離散特征,我們根據它的取值個數,把它拆分成若干個變量,比如x=1,2,3,我們拆成(0,0,1),(0,1,0)和(1,0,0)。另外一個是特征選擇。在站點特征中,并不是所有都有用,有些是無關的,有些甚至有負面作用,應與剔除。在實踐中我們采用了統計方法(信息增益、檢驗)與分類正確率提升(降低)量相結合的方法,從中提取到了若干有用特征,使得對優質站點識別的準確率和召回率提升至95%以上,效果顯著。

以上以優質/劣質站點二分任務為例,簡單介紹了智能算法在站點質量評級體系中的應用。理論上的機器學習模型SVM和站點質量評級的實際應用完美結合,顯著提高了系統性能。這給了我們一些啟示:當我們面對復雜問題時,與其自己埋頭在雜亂的數據中找規律,不如先去看看理論上有沒有解決類似問題的模型。理論知識與實際問題相結合,往往可以產生意想不到的效果。
培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/media/74930.html