在HITS算法中,第一步是將結果集檢索到搜索查詢。計算僅在此結果集上執行,而不是在所有網頁上執行。
權限和中心值在相互遞歸中相互定義。權限值計算為指向該頁面的縮放中心值的總和。集線器值是它指向的頁面的縮放權限值的總和。一些實現還考慮鏈接頁面的相關性。
該算法執行一系列迭代,每個迭代包含兩個基本步驟:權限更新:將每個節點的權限分數更新為等于指向它的每個節點的中心分數之和。也就是說,通過被識別為用于信息的集線器的頁面鏈接,節點被賦予高權限分數。
集線器更新:將每個節點的集線器分數更新為等于其指向的每個節點的權限分數之和。也就是說,通過連接到被認為是主題上的權限的節點,給予節點高的中心分數。
使用以下算法計算節點的中心分數和權限分數:
從具有中心分數和權限分數為1的每個節點開始。運行Authority Update Rule運行集線器更新規則通過將每個Hub得分除以所有Hub得分的平方和,并將每個權威得分除以所有權限得分的平方和,來標準化值。必要時從第二步開始重復。
HITS,如Page和Brin的PageRank,是一種基于Web上文檔鏈接的迭代算法。但它確實有一些重大差異:
它在查詢時執行,而不是在索引時執行,并伴隨查詢時處理的相關性能命中。因此,分配給頁面的中心和權限分數是特定于查詢的。它并不常用于搜索引擎。(雖然據說Teoma [1]使用了類似的算法,但Ask.com已將其收購。)它計算每個文檔,中心和權限兩個分數,而不是單個分數。
它是在一小部分“相關”文檔上處理的,而不是像PageRank那樣的所有文檔。HITS算法在提出的時候運行良好,已經提出了幾種基于HITS的算法。然而原始的HITS算法和基于HITS的算法不再適用
今天的網絡由于垃圾郵件鏈接的增加。幾種查找垃圾郵件的方法。最近已經開發了鏈接但它們需要太大的數據使用PC按需執行的頁面。例如,提出的方法需要頁面內容的數據,這些數據很多大于HITS算法使用的頁面鏈接數據。在本文中,我們首先提出了三種使用網絡查找鏈接規則的方法信息;
linkfarm是一組垃圾鏈接,形成Web圖的密集連接的子圖; Web圖是一個有向圖,其頂點集是一組網頁,其邊緣集是頁面之間的一組鏈接。我們的方法找到比吳和戴維森[14]提出的方法更多的鏈接法。然后,我們提出了一種信任評分算法,以便為不是垃圾郵件頁面的頁面提供高分通過擴展TrustRank算法使用的思想,概率很高。然后我們構建四個評分算法;第一個是通過我們的信任評分算法與Bharat和Barerat提出的BHITS算法相結合得到的Henzinger ;剩下的三個是通過組合我們三個中的每一個獲得的使用trust-score算法和BHITS查找linkfarms的方法。我們最終通過實驗評估我們的算法和幾個基于HITS的算法。
為了評估各種評分算法,我們使用“前十名的質量”當局“通過算法找到給定主題;十大權威機構是算法給出的十大高分的頁面,十大權威的質量是通過與主題相關的頁面數量來衡量的十個當局,因此十大權威的質量最多為十個。我們通過計算實驗檢驗十大權威的質量十四個主題。對于幾乎所有主題,我們的算法找到十大權威質量高于現有算法的質量。特別是其中之一我們的算法,稱為TaN + BHITS,采用信任得分算法和a使用名稱服務器查找linkfarm的方法,找到了前十個權限最佳平均質量8.79,而現有算法找到前十名平均質量最多3.07
培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/video/63.html