【摘要】:
圖片搜索由於在搜索目標上的特殊性,往往依賴於圖片所在網頁的文本來判斷圖片的內容(我們成為圖片周邊文本)。而周邊文本往往不能很好的表達圖片的內容,並且一張圖片往往在多個網頁中被引用,圖片周邊文本也不太一致,甚至於很多圖片並沒有周邊文本,因此給圖片搜索算法提出瞭更高挑戰。
通過“眾包”的方式(的準確性和召回率往往是一個比較有效的方法,並且標註的數據可以作為圖片機器學習的樣本數據,對於提高圖片機器學習的準確率也有很大的效果;但是在圖片標註的過程中也有很多問題需要解決,例如:
(1)用戶作弊問題:在“眾包”平臺中,有因為興趣愛好參與標註的,也有因為平臺激勵機制而參與標註的,因此會存在部分用戶為瞭獲取獎勵而進行作弊的行為,這些作弊行為會給標註數據的準確率帶來很大的影響;
(2)如何對用戶的標註進行引導,使得標註的信息更為準確,讓用戶的標註成本更低,標註過程更為有趣味性,從而提高標註的效率;
本文所提到的就是一種帶有防作弊功能的,能夠對用戶的標註信息進行細分引導,從而使得標註數據越來越精確的圖片標註方法。
在本文所描述的圖片標註遊戲中,用戶被區分為兩種類型:
(1)描述者:對系統展現的一張圖片用一段文字或者幾組關鍵字進行描述,表達出圖片的內容和特點;
(2)判斷者:系統向其展現多張圖片(一般情況下為4張)以及一段描述文字,這段描述文字所對應的圖片也包含在所展現的圖片當中,判斷者根據“描述文字”挑選出對應的圖片;
用戶可以隨時在“描述者”和“判斷者”之間切換身份,但是不會出現用戶自己判斷自己所描述的圖片的情況。系統將“描述者”描述的圖片分配給“判斷者”的時候有一套算法確保不會分配給“原描述者”,並且也不會分配給距離“描述者”較近或者可能認識的“判斷者”。我們在文章後面會描述這個分配算法。
一、“描述者”描述圖片的過程
圖1: 圖片標註系統
如圖1,當用戶點擊“圖片標註系統”的“描述圖片”按鈕之後,系統會從圖片數據集(圖片URL集合)中隨機挑選出100個圖片URL,然後逐個給用戶展示圖片(如圖2和3)。
圖2:描述圖片(甲殼蟲昆蟲)
圖3:描述圖片(甲殼蟲汽車)
圖4:描述圖片(甲殼蟲樂隊)
二、“判斷者”判斷圖片的過程
圖5:判斷圖片
當用戶選擇“判斷圖片”的時候,系統也會選擇隨機選擇100個已經有標註(就是有用戶描述)的圖片,每次展示一段標註文字以及相應的4張圖片(可以是更多張,系統可以配置)。如圖5,最上面藍色框裡面是已有用戶標註“甲殼蟲汽車”,中間是系統挑選出來的4張圖片,挑選的算法後面會有詳細介紹。挑選的圖片當中包含用戶標註對應的圖片,例如圖5中就是對應中間的紅色甲殼蟲汽車。
當用戶判斷出圖片之後,隻要用鼠標點擊相應的圖片就會在圖片周邊有紅色的方框將圖片圈住,用戶點擊繼續判斷即可提交判斷結果並進入到下一個標註文字的判斷。
三、“判斷者”的選取方法
為瞭防止作弊,系統有一套“判斷者”選取方法,主要避免如下的作弊行為:
(1)“描述者”判斷自己所標註的圖片;
(2)“描述者”和“判斷者”之間協同作弊;
系統的處理方法如下:
(1)“描述者”在標註圖片的時候,系統會記錄描述者的賬號和IP地址;
(2)系統在挑選“判斷者”的時候會選擇不同的賬號,並且對IP地址進行位置轉換,選擇一個距離“描述者”較遠的“判斷者”;
(3)系統會記錄“標註文字”的分配歷史記錄,不會將同一個“標註文字”重復分配給同一個“判斷者”,“描述者”和“判斷者”之間的持續作弊成本很高;
四、相關圖片的選取方法
系統在挑選“相關圖片”給“判斷者”的時候,需要解決如下問題:
(1)不能出現極度相似甚至重復的圖片;
(2)圖片之間要對標註文字有區分度和標註引導作用;
對於第1點不難理解,因為出現極度相似甚至重復圖片的時候,那麼“判斷者”就沒法選擇圖片。對於第2點我們舉個例子說明一下,例如下面這張圖片(甲殼蟲汽車):
圖6:甲殼蟲汽車
“描述者”在一開始的時候很可能僅僅標註“甲殼蟲”,“甲殼蟲”這個信息雖然沒有錯,但是在應用到圖片檢索的時候會存在歧義,因為“甲殼蟲”可能對應“甲殼蟲汽車”、“甲殼蟲昆蟲”和“甲殼蟲樂隊”,為瞭引導“描述者”進一步標註出有區分度的標註信息,系統會根據“甲殼蟲”這個關鍵字選取出如下三張圖片:
培戀網絡原創版權,轉載請註明出處:
培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/49831.html
在線咨詢
企業關鍵詞排名優化是指通過提高企業在搜索引擎中的排名,來……
隨著互聯網的不斷發展,越來越多的企業開始意識到,擁有一個……
在網絡推廣優化中,不同類型的網站有不同的優化方法和策略。……
搜索引擎優化是一項長期的工作,很多站長經常遇到這樣一個問……
2023年,抖音小店出了一堆新政策,包括0元可以入駐抖店,個人……
你的小店體驗分是不是下降了,但是自己不知道提升是不是?小……