seo中搜索詞處理、文件匹配、初始子集選擇是什么?
如何理解
seo中搜索詞處理、文件匹配、初始子集選擇是什么,經過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入查詢詞后,排名程序調用索引程序數據,計算排名顯示給用戶,排名過程是直接跟用戶互動的。
搜索詞處理
搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞做一些處理,才能進入排名過程。搜索詞處理在下面幾個方面:
1、中文分詞,與頁面索引一樣,搜索詞也必須進行中文分詞,將查詢字符串轉換為以詞為基礎的關鍵詞組合。分詞原理與頁面分詞相同。
2、去停止詞。和索引一樣,搜索引擎也需要把搜索詞中的停止詞去掉,最大限度地提高排名相關性及效率。
3、指令處理。查詢詞完成分詞后,搜索引擎的默認處理方式在關鍵詞之間使用“與”邏輯。
另外用戶輸入的查詢詞還可能包含一些高級搜索指令,如加號、減號等,搜索引擎都是需要作出識別和相應處理。有關高級搜索指令,后面還有詳細說明。
4、拼寫錯誤矯正。用戶如果輸入了明顯錯誤的字或英文單詞拼錯,搜索引擎會提示用戶正確的用字或拼法。
5、整合搜索觸發,某些搜索詞會觸發整合搜索。
6、搜索框提示,用戶在搜索框填寫過程中,搜索引擎就根據熱門搜索數據結合給出多組可能的查詢詞,減少用戶輸入時間。
文件匹配
搜索詞經過處理后,搜索引擎得到的是以詞為基礎的關鍵詞集合。文件匹配階段就是找出含有所有搜索關鍵詞的所有文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。
初始子集的選擇,找到包含所有關鍵詞的匹配文件后,還不能進行相關性計算,因為找到的文件經常會有幾十萬幾百萬,甚至上千萬個。要對這么多文件實時進行相關性計算,須要的時間還是太長。
實際上用戶并不需要知道所匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁,也就是前20個結果。搜索引擎也并不需要計算這么多頁面的相關性,而只是計算出最重要的一部分頁面就可以了。搜索引擎結果頁面通常最多顯示100個。用戶點擊搜索結果頁面底部的下一頁鏈接,最多看到第100頁,也就是1000個結果。
以上內容均來源于東莞網絡公司,由東莞培戀網科技整合。東莞市培戀網科技為企業網頁建設排名優化,提供企業、個人
模板網站制作,國外域名注冊和服務器提供商。
培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/dontai/59.html