• 模板建站
    培戀網博客
    企業動態 技術分享 行業動態

    東莞網絡公司seo預處理相關知識點(二)

    seo2023-04-20模板建站分享網站建設網站建設培戀網博客 模板網站優化 seo網站建設 培戀網博客
    東莞網絡公司seo預處理相關知識點(二)
     
    seo中的去停止詞,無論是英文還是中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“地”、“的”、“得”、“之”等助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。
     
    搜索引擎在索引頁面之前回去掉這些停止詞,使索引數據主題更為突出,減少無所謂的計算量。
     
    消除噪聲,絕大部分頁面上還有一部分內容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現文章分類、歷史存檔等導航內容,但是這些頁面本身與分類、歷史這些詞都沒有任何關系。用戶搜索歷史、分類這些關鍵詞時僅僅因為頁面有這些詞出現而返回博客帖子是毫無意義的,完全不相關。所以這些區塊都是屬于噪聲,對頁面主題只能起到分散作用。
     
    搜索引擎需要識別并消除這些噪聲,排名時不適用噪聲內容。消噪的基本方法是根據html標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面鏡像消噪后,剩下的才是頁面主題內容。
    東莞seo
     
    seo中的去重
     
    搜索引擎還需要對頁面進行去重處理。
    同一篇文章經過會重復出現在不同網站及同一個網站的不同網址上,搜索引擎并喜歡這種重復性的內容。用戶搜索時,如果在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了,雖然都是內容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就稱為“去重”。
     
    “去重”的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取最有代表性的一部分關鍵詞(經常是出現頻率最高的關鍵詞),然后計算這些關鍵詞的數字指紋。這里的關鍵詞選取是在分詞、去停止詞、消噪之后。實驗表明。通常選取10個特征關鍵詞就可以達到比較高的計算準確性,在選取更多詞對去重準去性提高的貢獻也就不大了。
     
    典型的指紋計算方法如MD5算法。這類指紋算法的特點是,輸入有任何微小的變化,都會導致計算出的指紋有很大差距。 了解了搜索引擎的去重算法,seo人員就應該知道簡單地增加“的”、“地”、“得”調換段落順序這種所謂偽原創,并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵,也就無法改變指紋。而且搜索引擎的去重算法很有可能不止于頁面級別,而是鏡像到段落級別,混合不同文章、交叉調換段落順序也不能是轉載和抄襲變成原創。
     
    什么是正向索引
    正向索引也可以簡稱為索引。
    經過文字提取、分詞、消遣、去重后,搜索引擎得到的就是獨特的、能反映頁面主題內容的、以詞為單位的字符串。搜索引擎程序將頁面及關鍵詞形成詞表結構存儲進索引庫。每個文件都對應一個文件ID,文件內容被表示為一串關鍵詞的集合。實際上在搜索引擎索引庫中,關鍵詞也已經轉換為關鍵詞ID。這樣的數據結構就成為正向索引。
     
    倒排索引;正向索引還不能直接用于排名。所以搜索引擎會將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射。在倒排索引中關鍵詞是主鍵,每個關鍵詞都對應著一系列文件,這些文件中都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞時,排序程序在排索引中定位到這個關鍵詞,就可以馬上找出所有包含這個關鍵詞的文件。
     
     
    通過以上的介紹應該掌握做seo優化時對預處理知識有了幾分了解,大致可以從幾個方面來入手了。以上內容均來源于東莞網絡公司,由東莞培戀網科技整合。東莞市培戀網科技為企業網頁建設排名優化,提供企業、個人模板網站制作,國外域名注冊和服務器提供商。

    培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/media/49.html

    培戀網網站模板 培戀網 網站模板
    培戀網咨詢在線咨詢
    Copyright © 2002-2019 培戀網 版權所有 東莞網站地圖 網站相關鏈接:|SEO優化技巧|成都seo優化| 粵ICP備17138810號
  • 东京热网址