人民網
人民網>>IT

今日頭條內容安全機制曝光:人工審核+技術識別

2018年01月16日15:04 | 來源:環球網
小字號
原標題:今日頭條內容安全機制曝光:人工審核+技術識別

  日前,今日頭條召開了“讓算法公開透明”分享交流會。資深算法架構師、中國科學技術大學計算機博士曹歡歡在會上重點講解了今日頭條的內容安全機制及相關舉措,首次公開了風險內容識別技術以及泛低質內容識別技術。

  曹歡歡指出,“頭條現在擁有健全的內容安全機制。除了人工審核團隊,我們還有技術識別。包括風險內容識別技術,構建千萬張圖片樣本集的鑒黃模型,超過百萬樣本庫的低俗模型和謾罵模型等,以及泛低質內容識別技術。”

  具體而言,頭條的內容來自兩部分,一部分是PGC平台,另外一部分UGC內容比如問答、用戶評論、微頭條,這兩部分內容是用共同的審核機制,這一套機制在國內也很完善。

  “如果PGC內容相對比較靠譜會有一個風險模型的過濾,如果這裡面有可能有問題,會做色情謾罵、非法信息的識別,先審核,沒問題先小范圍推廣,搜集用戶反饋,比如舉報,用戶分享數閱讀數比較大,我們會再次進入二次推薦審核,如果不是的話,我們就會直接進入很嚴格的分級審核,審核之后再大范圍推廣。”曹歡歡表示。

  他進一步提到,“大范圍推廣還有一道把關,如果用戶閱讀數再大特別熱或者有一些評論有問題,我們也會進入最后一道質量復審,直接下架。整個機制比較健全,但是整個內容增長和業務發展非常快,還有各種評論UGC內容也要做內容安全的控制,這個團隊壓力比較大。“

  對於運用的技術手段,曹歡歡解釋說,有鑒黃模型,低俗模型,謾罵模型,用頭條和競品會發現,頭條做了很多干預工作,如果用戶經常出言不諱或者不當的評論,我們有一些懲罰機制。

  “泛低質識別這部分的情況非常多,比如編造的內容、假新聞、黑稿、題文不符、有頭無尾,看著說的很厲害,后來寫了那麼多也沒有對應開始提出的懸念。對技術來講,本身機器去理解是非常難的,這部分需要大量的反饋信息,比如用戶的反饋,包括跟互聯網抓取其它信息進行比對。目前低質模型的准確率不是特別高,召回率也不是特別高,這塊要結合人工復審,需要把閾值提高。”曹歡歡表示。

  此外,曹歡歡還在現場分享了今日頭條推薦算法的基本原理,並詳細介紹了算法模型設計維度與策略。包括如何在線訓練大規模推薦模型,典型召回策略的設計方法,多目標如何融合等核心問題。

  他表示:“算法分發並非是把所有決策都交給機器,我們會不斷糾偏,設計、監督並管理算法模型。希望這次分享能讓更多的人理解算法,並共同參與到算法模型的制定中來,以改善算法,更好的為用戶服務,讓算法為社會創造更大的價值。”

  會議由今日頭條副總編輯徐一龍主持。徐一龍在談到今日頭條對行業公開、透明自己算法原理的初衷時說,算法也是一種“法”,都是通過一定的規則和方法,達成預期的一種效果。算法和法律法規一樣,如果施行的好,都很高效,也都要求透明。

(責編:易瀟、楊虞波羅)

分享讓更多人看到

返回頂部