今天,算法分發(fā)已經(jīng)成為幾乎所有軟件的標(biāo)準(zhǔn),如信息平臺(tái),搜索引擎,瀏覽器,社交軟件等,但與此同時(shí),算法開(kāi)始面臨挑戰(zhàn),挑戰(zhàn)和誤解。今天的標(biāo)題推薦算法自2012年9月第一版以來(lái)一直在開(kāi)發(fā)中,經(jīng)過(guò)了四次重大調(diào)整和修訂。
今天,標(biāo)題委托高級(jí)算法架構(gòu)師曹煥歡博士宣傳當(dāng)今頭條新聞的算法原理,以推廣整個(gè)行業(yè)的查詢算法和建議算法;使算法透明化,消除對(duì)算法的誤解,逐步推動(dòng)整個(gè)行業(yè)更好地受益。社會(huì)。
以下是《今日頭條算法原理》的全文。
此共享將介紹當(dāng)今標(biāo)題推薦系統(tǒng)的概述以及內(nèi)容分析,用戶標(biāo)記,評(píng)估和分析以及內(nèi)容安全性的原則。
首先,系統(tǒng)概述
如果用于以正式方式描述的推薦系統(tǒng)實(shí)際上是適合用戶對(duì)內(nèi)容的滿意度的函數(shù),則該函數(shù)需要輸入三維的變量。
第一個(gè)維度是內(nèi)容。標(biāo)題現(xiàn)在是一個(gè)全面的內(nèi)容平臺(tái),圖形,視頻,UGC視頻,問(wèn)答和微型標(biāo)題。每個(gè)內(nèi)容都有自己的特點(diǎn)。有必要考慮如何提取不同內(nèi)容類型的功能以提出建議。
第二個(gè)維度是用戶功能。包括各種興趣標(biāo)簽,職業(yè),年齡,性別等,以及一些模型嵌入的隱含用戶興趣。
第三個(gè)維度是環(huán)境特征。這是移動(dòng)互聯(lián)網(wǎng)時(shí)代的推薦功能。用戶可以隨時(shí)隨地在不同的情況下移動(dòng),例如工作,通勤,旅行等,并且信息偏好被抵消。結(jié)合三個(gè)維度,該模型將估計(jì)在此方案中推薦內(nèi)容是否適合此用戶。
這里還有另一個(gè)問(wèn)題,如何引入無(wú)法直接衡量的目標(biāo)?
在推薦模型中,點(diǎn)擊率,閱讀時(shí)間,喜歡,評(píng)論和轉(zhuǎn)發(fā),包括贊美,都是可量化的目標(biāo)。您可以使用該模型直接擬合估算值,并查看在線促銷情況以了解如何執(zhí)行此操作。然而,大規(guī)模推薦系統(tǒng)具有許多服務(wù)用戶,并且不能通過(guò)指標(biāo)完全評(píng)估。引入數(shù)據(jù)指標(biāo)以外的元素也很重要。
如廣告和特殊內(nèi)容頻率控制。問(wèn)答卡是一種特殊形式的內(nèi)容。建議的目標(biāo)不是讓用戶瀏覽,而是吸引用戶回答社區(qū)內(nèi)容。如何將這些內(nèi)容與普通內(nèi)容混合,以及如何控制頻率控制需要考慮。
此外,該平臺(tái)基于對(duì)內(nèi)容生態(tài)和社會(huì)責(zé)任的考慮,例如壓制粗俗內(nèi)容,壓制標(biāo)題派對(duì),低質(zhì)量?jī)?nèi)容,重要新聞的頂部,加權(quán)和強(qiáng)插入,以及降低下級(jí)帳戶的內(nèi)容是算法本身無(wú)法完成的。需要進(jìn)一步干預(yù)內(nèi)容。
下面我將簡(jiǎn)要介紹如何基于上述算法目標(biāo)實(shí)現(xiàn)它。
上述公式y(tǒng)=F(Xi,Xu,Xc)是一種非常經(jīng)典的監(jiān)督學(xué)習(xí)問(wèn)題。有許多可實(shí)現(xiàn)的方法,如傳統(tǒng)的協(xié)同過(guò)濾模型,監(jiān)督學(xué)習(xí)算法Logistic回歸模型,基于深度學(xué)習(xí)的模型,分解機(jī)器和GBDT。
一個(gè)優(yōu)秀的工業(yè)級(jí)推薦系統(tǒng)需要一個(gè)非常靈活的算法實(shí)驗(yàn)平臺(tái),可以支持各種算法組合,包括模型結(jié)構(gòu)調(diào)整。因?yàn)楹茈y為所有推薦的場(chǎng)景建立通用的模型架構(gòu)。結(jié)合LR和DNN現(xiàn)在非常流行。在過(guò)去幾年中,F(xiàn)acebook還結(jié)合了LR和GBDT算法。今天的頭條新聞使用了同樣強(qiáng)大的算法推薦系統(tǒng),但模型架構(gòu)將根據(jù)不同的業(yè)務(wù)場(chǎng)景進(jìn)行調(diào)整。
在模型之后,查看典型的推薦功能。有四種主要類型的功能將在推薦中發(fā)揮重要作用。
第一類是相關(guān)性功能,即評(píng)估內(nèi)容的屬性以及它是否與用戶匹配。顯式匹配包括關(guān)鍵字匹配,分類匹配,源匹配,主題匹配等。在FM模型中還存在一些隱式匹配,其可以從用戶矢量和內(nèi)容矢量之間的距離導(dǎo)出。
第二類是環(huán)境特征,包括地理位置和時(shí)間。這些都是偏置功能,可用于構(gòu)建一些匹配功能。
第三類是加熱功能。包括全球熱量,分類熱量,主題熱量和關(guān)鍵詞熱量。內(nèi)容流行度信息在大型推薦系統(tǒng)中非常有效,尤其是當(dāng)用戶冷啟動(dòng)時(shí)。
第四類是協(xié)同特征,它可以幫助解決所謂的算法更窄更窄的問(wèn)題。協(xié)作功能未考慮用戶的歷史記錄。相反,用戶行為用于分析不同用戶之間的相似性,例如點(diǎn)擊相似度,類似興趣分類,類似主題,類似興趣詞,甚至矢量相似性,從而擴(kuò)展模型的探索能力。
在模型的培訓(xùn)中,標(biāo)題是使用實(shí)時(shí)培訓(xùn)的最推薦的產(chǎn)品。實(shí)時(shí)培訓(xùn)可以節(jié)省資源和反饋,這對(duì)于信息流產(chǎn)品非常重要。用戶需要可以由模型快速捕獲的行為信息,并反饋到下一個(gè)畫(huà)筆的推薦效果。我們目前基于Storm集群實(shí)時(shí)處理示例數(shù)據(jù),包括點(diǎn)擊,顯示,收集和共享等操作類型。
模型參數(shù)服務(wù)器是內(nèi)部開(kāi)發(fā)的高性能系統(tǒng)。由于標(biāo)題數(shù)據(jù)增長(zhǎng)太快,無(wú)法滿足類似開(kāi)源系統(tǒng)的穩(wěn)定性和性能,而我們自行開(kāi)發(fā)系統(tǒng)的底層已經(jīng)進(jìn)行了許多有針對(duì)性的優(yōu)化。改進(jìn)操作和維護(hù)工具,以更好地適應(yīng)現(xiàn)有的業(yè)務(wù)場(chǎng)景。
目前,標(biāo)題推薦算法模型在世界范圍內(nèi)相對(duì)較大,包括數(shù)百億原始特征和數(shù)十億個(gè)矢量特征。整個(gè)培訓(xùn)過(guò)程是記錄在線服務(wù)器的實(shí)時(shí)特征,將其導(dǎo)入Kafka文件隊(duì)列,然后將其導(dǎo)入Storm集群以使用Kafka數(shù)據(jù)。客戶端返回推薦標(biāo)簽以構(gòu)建訓(xùn)練樣本,然后根據(jù)最新樣本在線培訓(xùn)更新模型參數(shù)。最終的在線模型已更新。此過(guò)程中的主要延遲是用戶操作的反饋延遲,因?yàn)橛脩舨灰欢ㄔ谕扑]文章后立即查看它。無(wú)論這部分時(shí)間如何,整個(gè)系統(tǒng)幾乎都是實(shí)時(shí)的。
然而,由于標(biāo)題的當(dāng)前內(nèi)容非常大,并且小視頻內(nèi)容具有數(shù)千萬(wàn)級(jí)別,因此推薦系統(tǒng)不可能通過(guò)模型??預(yù)測(cè)所有內(nèi)容。因此,有必要設(shè)計(jì)一些召回策略,以便在每次推薦時(shí)從大量?jī)?nèi)容中過(guò)濾出數(shù)千個(gè)內(nèi)容庫(kù)。召回策略最重要的要求是極端性能。通常,超時(shí)不能超過(guò)50毫秒。
有許多類型的召回策略,我們主要使用倒置的想法。離線維護(hù)一個(gè)倒排,這個(gè)倒置鍵可以分類,主題,實(shí)體,來(lái)源等,排序考慮熱量,新鮮度,動(dòng)作等。在線調(diào)用可以根據(jù)用戶的興趣標(biāo)簽快速切斷反轉(zhuǎn)行中的內(nèi)容,并有效地從大型內(nèi)容庫(kù)中過(guò)濾少量?jī)?nèi)容。
二,內(nèi)容分析
內(nèi)容分析包括文本分析,圖像分析和視頻分析。在標(biāo)題的開(kāi)頭,我主要做的是信息。今天我們主要談?wù)撐谋痉治?。文本分析在推薦系統(tǒng)中的一個(gè)非常重要的作用是用戶興趣建模。沒(méi)有內(nèi)容和文本標(biāo)簽來(lái)獲取用戶興趣標(biāo)簽。例如,只知道文章標(biāo)簽是Internet,用戶可以閱讀Internet標(biāo)簽文章,以便知道用戶有Internet標(biāo)簽,其他關(guān)鍵字是相同的。
另一方面,文本內(nèi)容的標(biāo)簽可以直接幫助推薦功能。例如,可以向關(guān)注魅族的用戶推薦魅族的內(nèi)容,這是用戶標(biāo)簽的匹配。如果主要頻道的推薦在一段時(shí)間內(nèi)不滿意,推薦范圍縮小,用戶會(huì)在閱讀特定頻道推薦(如技術(shù),體育,娛樂(lè),軍事等)后發(fā)現(xiàn),然后返回主飼料,推薦效果會(huì)更好。由于整個(gè)模型是開(kāi)放的,子通道探索空間更小,更容易滿足用戶需求。僅通過(guò)單信道反饋來(lái)提高推薦準(zhǔn)確率更加困難,并且很好地完成子信道非常重要。這也需要良好的內(nèi)容分析。
上圖是今天標(biāo)題的實(shí)際案例。如您所見(jiàn),本文具有文本功能,如分類,關(guān)鍵字,主題和實(shí)體單詞。當(dāng)然,沒(méi)有文字功能,推薦系統(tǒng)無(wú)法正常工作,推薦系統(tǒng)是亞馬遜最早的應(yīng)用,甚至在沃爾瑪時(shí)代,包括Netfilx視頻推薦和無(wú)文字功能的直接協(xié)同過(guò)濾推薦。但是,對(duì)于信息產(chǎn)品,大多數(shù)都是消費(fèi)當(dāng)天的內(nèi)容。沒(méi)有文字功能。新內(nèi)容很難冷酷地開(kāi)始。協(xié)作類功能無(wú)法解決文章的冷啟動(dòng)問(wèn)題。
今天由標(biāo)題推薦系統(tǒng)提取的文本特征包括以下類別。第一個(gè)是語(yǔ)義標(biāo)記類功能,它使用語(yǔ)義標(biāo)記顯式標(biāo)記文章。標(biāo)簽的這一部分是由人定義的特征,每個(gè)標(biāo)簽具有明確的含義,并且標(biāo)簽系統(tǒng)是預(yù)定義的。此外,還有隱含的語(yǔ)義特征,主要是主題特征和關(guān)鍵字特征。主題特征是詞概率分布的描述,沒(méi)有明確的含義;雖然關(guān)鍵字功能基于一些統(tǒng)一的功能描述,但沒(méi)有明確的設(shè)置。
此外,文本相似性功能也非常重要。在標(biāo)題中,用戶反饋的一個(gè)最大問(wèn)題是它總是建議重復(fù)內(nèi)容。這個(gè)問(wèn)題的難點(diǎn)在于每個(gè)人都有不同的重復(fù)定義。例如,有些人認(rèn)為這篇關(guān)于皇家馬德里和巴塞羅那的文章昨天看到了類似的內(nèi)容。今天,據(jù)說(shuō)這兩支球隊(duì)正在重復(fù)。但對(duì)于一個(gè)沉重的球迷,特別是巴塞羅那的球迷,我迫不及待地想看到所有的報(bào)道。為了解決這個(gè)問(wèn)題,我們需要根據(jù)類似文章的特征制定在線策略,例如主題,文本和主題。
同樣,有時(shí)間和空間特征,分析內(nèi)容發(fā)生的位置和及時(shí)性。例如,限于武漢的事情可能對(duì)北京用戶沒(méi)有意義。最后,考慮質(zhì)量相關(guān)的特點(diǎn),判斷內(nèi)容是否粗俗,色情,是軟文,雞湯嗎?
上圖是標(biāo)題語(yǔ)義標(biāo)簽的特征和使用場(chǎng)景。它們之間的級(jí)別不同,要求也不同。
分類的目標(biāo)是覆蓋整個(gè)情況。我希望每段視頻都對(duì)每段視頻進(jìn)行分類。實(shí)體系統(tǒng)需要精確度。相同的名稱或內(nèi)容應(yīng)明確區(qū)分它所指的人或事物,但不需要涵蓋它。概念系統(tǒng)負(fù)責(zé)解決更精確且屬于抽象概念的語(yǔ)義。這是我們的初步分類。在實(shí)踐中,發(fā)現(xiàn)分類和概念在技術(shù)上是可互操作的,后來(lái)使用了統(tǒng)一的技術(shù)框架。
目前,隱式語(yǔ)義特征對(duì)推薦非常有幫助,而語(yǔ)義標(biāo)簽需要不斷標(biāo)記,新名詞的新概念不斷出現(xiàn),注釋不斷迭代。難度和資源投入遠(yuǎn)大于隱含的語(yǔ)義特征。為什么需要語(yǔ)義標(biāo)簽?有一些產(chǎn)品需求,例如需要明確定義的類別和易于理解的文本標(biāo)簽系統(tǒng)的渠道。語(yǔ)義標(biāo)簽的作用是檢查公司NLP技術(shù)水平的試金石。
今天的標(biāo)題推薦系統(tǒng)的在線分類使用典型的分層文本分類算法。在Root的頂部,下面第一層的分類是一個(gè)很大的類別,如技術(shù),體育,金融,娛樂(lè),體育,然后細(xì)分為足球,籃球,乒乓球,網(wǎng)球,田徑,游泳...國(guó)際足球,中國(guó)足球,中國(guó)足球細(xì)分在中間,超級(jí),國(guó)家隊(duì)......與單獨(dú)的分類器相比,采用分層文本分類算法可以更好地解決數(shù)據(jù)偏差問(wèn)題。有一些例外。如果你想改善召回,你可以看到我們連接了一些飛行線。這組體系結(jié)構(gòu)很常見(jiàn),但是根據(jù)問(wèn)題的難度,每個(gè)元分類器都可以是異構(gòu)的。一些SVM運(yùn)行良好,一些必須與CNN結(jié)合,一些必須與RNN結(jié)合。
上圖是實(shí)體字識(shí)別算法的情況?;诜衷~結(jié)果和詞性標(biāo)注候選,根據(jù)知識(shí)庫(kù)可能需要一些拼接。一些實(shí)體是幾個(gè)單詞的組合。有必要確定組合哪些單詞來(lái)映射實(shí)體的描述。如果結(jié)果映射多個(gè)實(shí)體,則仍然通過(guò)單詞矢量,主題分布或甚至詞頻本身消除歧義,最后計(jì)算相關(guān)模型。
三,用??戶標(biāo)簽
內(nèi)容分析和用戶標(biāo)簽是推薦系統(tǒng)的兩個(gè)基石。內(nèi)容分析涉及更多的機(jī)器學(xué)習(xí),用戶標(biāo)記比工程更具挑戰(zhàn)性。
今日頭條新聞的常見(jiàn)用戶標(biāo)簽包括用戶感興趣的類別和主題,關(guān)鍵字,來(lái)源,基于興趣的用戶群集以及各種垂直興趣功能(模型,運(yùn)動(dòng)隊(duì),股票等)。還有性別,年齡,地點(diǎn)和其他信息。通過(guò)使用用戶的第三方社交帳戶登錄獲得性別信息。年齡信息通常由模型預(yù)測(cè),并通過(guò)模型,閱讀時(shí)間分布等估計(jì)。駐留位置來(lái)自用戶授權(quán)的訪問(wèn)位置信息,并且通過(guò)傳統(tǒng)的聚類方法基于位置信息獲得駐留點(diǎn)。駐留點(diǎn)與其他信息相結(jié)合可用于猜測(cè)用戶的工作地點(diǎn),營(yíng)業(yè)地點(diǎn)和旅行地點(diǎn)。這些用戶標(biāo)簽對(duì)建議非常有用。
當(dāng)然,最簡(jiǎn)單的用戶標(biāo)簽是被查看的內(nèi)容標(biāo)簽。但這里涉及一些數(shù)據(jù)處理策略。主要包括:
首先,過(guò)濾噪音。點(diǎn)擊短暫停留時(shí)間過(guò)濾標(biāo)題派對(duì)。
二,熱點(diǎn)懲罰。用戶對(duì)一些熱門文章(例如前一段時(shí)間PG One的新聞)的行為減少了。理論上,如果內(nèi)容分布在大范圍內(nèi),則置信水平會(huì)降低。
第三,時(shí)間衰退。用戶興趣被抵消,因此策略更傾向于新用戶行為。因此,隨著用戶的運(yùn)動(dòng)增加,舊的特征權(quán)重將隨時(shí)間衰減,并且新動(dòng)作貢獻(xiàn)的特征權(quán)重將更大。
第四,懲罰表明。如果未單擊向用戶推薦的文章,則相關(guān)功能(類別,關(guān)鍵字,來(lái)源)權(quán)重將受到懲罰。當(dāng)然,與此同時(shí),我們還必須考慮全球背景,相關(guān)內(nèi)容是否被推得更多,以及相關(guān)的關(guān)閉和不喜歡信號(hào)。
整體用戶標(biāo)簽挖掘相對(duì)簡(jiǎn)單,主要是由于剛剛提到的工程挑戰(zhàn)。標(biāo)題用戶標(biāo)簽的第一個(gè)版本是批量計(jì)算框架。這個(gè)過(guò)程相對(duì)簡(jiǎn)單。在過(guò)去的兩個(gè)月中,每天提取昨天每日用戶的操作數(shù)據(jù),并在Hadoop集群上分批計(jì)算結(jié)果。
問(wèn)題是隨著用戶快速增長(zhǎng),興趣模型和其他批處理任務(wù)的類型正在增加,并且涉及的計(jì)算量太大。 2014年,Hadoop批量處理數(shù)百萬(wàn)用戶標(biāo)簽更新的任務(wù)在同一天完成。緊密的集群計(jì)算資源很容易影響其他工作。專注于分布式存儲(chǔ)系統(tǒng)的壓力也在增加,用戶興趣標(biāo)簽更新延遲越來(lái)越高。
面對(duì)這些挑戰(zhàn),在2014年底,今天的頭條新聞推出了用戶標(biāo)記的Storm集群流計(jì)算系統(tǒng)。更改為流模式后,只要用戶操作更新標(biāo)簽,CPU成本相對(duì)較小,可以節(jié)省80%的CPU時(shí)間,大大降低計(jì)算資源開(kāi)銷。同時(shí),每天只有幾十臺(tái)機(jī)器可以支持?jǐn)?shù)千萬(wàn)用戶的興趣模型更新,并且功能更新速度非??欤⑶铱梢詫?shí)現(xiàn)基本的實(shí)時(shí)。該系統(tǒng)自成立以來(lái)一直在使用。
當(dāng)然,我們還發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流媒體系統(tǒng)。諸如用戶的性別,年齡和居住地點(diǎn)之類的信息不需要實(shí)時(shí)重新計(jì)算,并且仍然保留每日更新。
四,評(píng)估分析
上面描述了推薦系統(tǒng)的總體架構(gòu)。那么你如何評(píng)估推薦效果呢?
我認(rèn)為有一句非常明智,“l(fā)dquo;沒(méi)有優(yōu)化就無(wú)法評(píng)估一件事。推薦系統(tǒng)也是如此。
事實(shí)上,許多因素都會(huì)影響推薦。例如,候選集合改變,召回模塊的改進(jìn)或添加,推薦特征的增加,模型架構(gòu)的改進(jìn),算法參數(shù)的優(yōu)化等不是示例。評(píng)估的重要性在于許多優(yōu)化可能最終產(chǎn)生負(fù)面影響,并且在優(yōu)化啟動(dòng)后效果不會(huì)改善。
綜合評(píng)估推薦系統(tǒng)需要全面的評(píng)估系統(tǒng),強(qiáng)大的實(shí)驗(yàn)平臺(tái)和易于使用的實(shí)證分析工具。所謂的完整系統(tǒng)不是單一指標(biāo)測(cè)量,不僅可以查看點(diǎn)擊率或停留時(shí)間等,還需要全面評(píng)估。我們一直在努力,過(guò)去幾年,我們能否結(jié)合大多數(shù)指標(biāo)來(lái)綜合唯一的評(píng)估指標(biāo),但仍在探索中。目前,我們?nèi)詫⒂梢粋€(gè)由經(jīng)驗(yàn)豐富的學(xué)生組成的評(píng)審小組進(jìn)行深入討論。
許多公司在算法方面表現(xiàn)不佳。這不是因?yàn)楣こ處煹哪芰Σ蛔?。相反,他們需要一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺(tái)和方便的實(shí)驗(yàn)分析工具來(lái)智能地分析數(shù)據(jù)指標(biāo)的可信度。
建立良好的評(píng)估體系需要遵循幾個(gè)原則,從短期和長(zhǎng)期指標(biāo)的組合開(kāi)始。當(dāng)我負(fù)責(zé)公司的電子商務(wù)方向時(shí),我觀察到許多策略在短期內(nèi)被調(diào)整為新鮮,但從長(zhǎng)遠(yuǎn)來(lái)看,它沒(méi)有幫助。
其次,我們必須考慮用戶指標(biāo)和生態(tài)指標(biāo)。今天的標(biāo)題作為內(nèi)容創(chuàng)作平臺(tái),不僅要為內(nèi)容創(chuàng)作者提供價(jià)值,讓他更有尊嚴(yán)的創(chuàng)作,還要有義務(wù)滿足用戶,兩者應(yīng)該是平衡的。廣告商也有興趣考慮,這是一個(gè)多方游戲和平衡過(guò)程。
另外,要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流動(dòng)隔離很難實(shí)現(xiàn),注意外部效應(yīng)。
強(qiáng)大的實(shí)驗(yàn)平臺(tái)的直接優(yōu)勢(shì)在于,當(dāng)有多個(gè)同時(shí)在線實(shí)驗(yàn)時(shí),平臺(tái)可以自動(dòng)分配流量而無(wú)需人工通信,實(shí)驗(yàn)結(jié)束后流程立即恢復(fù),提高了管理效率。這可以幫助公司降低分析成本,加快算法的迭代效果,并使整個(gè)系統(tǒng)的算法優(yōu)化能夠快速推進(jìn)。
這是標(biāo)題A/B測(cè)試實(shí)驗(yàn)系統(tǒng)的基本原理。首先,我們將在離線狀態(tài)下進(jìn)行用戶分組,然后在線分發(fā)實(shí)驗(yàn)流量,在桶中標(biāo)記用戶,并將其分配給實(shí)驗(yàn)組。例如,打開(kāi)10%流量實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)組中的5%,一個(gè)5%是基線,策略與在線市場(chǎng)相同,另一個(gè)是新策略。
在實(shí)驗(yàn)期間收集用戶動(dòng)作,這基本上是準(zhǔn)實(shí)時(shí)的并且可以每小時(shí)看到。但由于每小時(shí)數(shù)據(jù)波動(dòng),通常以天數(shù)來(lái)衡量。收集動(dòng)作后,將進(jìn)行日志處理,分布式統(tǒng)計(jì)和寫(xiě)入數(shù)據(jù)庫(kù),非常方便。
在該系統(tǒng)中,工程師只需設(shè)置流量需求,實(shí)驗(yàn)時(shí)間,定義特殊過(guò)濾條件,并自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動(dòng)生成:實(shí)驗(yàn)數(shù)據(jù)比較,實(shí)驗(yàn)數(shù)據(jù)置信度,實(shí)驗(yàn)結(jié)論和實(shí)驗(yàn)優(yōu)化建議。
當(dāng)然,只有實(shí)驗(yàn)平臺(tái)是不夠的。在線實(shí)驗(yàn)平臺(tái)只能通過(guò)數(shù)據(jù)指標(biāo)的變化來(lái)推測(cè)用戶體驗(yàn)的變化,但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)之間存在差異,許多指標(biāo)無(wú)法完全量化。仍需要通過(guò)手動(dòng)分析進(jìn)行許多改進(jìn),主要改進(jìn)需要手動(dòng)評(píng)估二級(jí)確認(rèn)。
V.內(nèi)容安全
最后,我們將介紹今天關(guān)于內(nèi)容安全的頭條新聞中的一些舉措。頭條新聞現(xiàn)在是該國(guó)最大的內(nèi)容創(chuàng)作和發(fā)行收據(jù),必須越來(lái)越多地關(guān)注社會(huì)責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1%的推薦內(nèi)容出現(xiàn)問(wèn)題,則會(huì)產(chǎn)生很大影響。
因此,標(biāo)題從一開(kāi)始就將內(nèi)容安全性置于公司的最高優(yōu)先級(jí)隊(duì)列中。在成立之初,已經(jīng)成立了一個(gè)審計(jì)小組來(lái)負(fù)責(zé)內(nèi)容安全。那時(shí),只有不到40名學(xué)生開(kāi)發(fā)了所有客戶端,后端和算法。標(biāo)題非常重視內(nèi)容審查。
如今,今日頭條新聞的內(nèi)容主要來(lái)自兩個(gè)部分,一個(gè)是具有成熟內(nèi)容制作能力的PGC平臺(tái),另一個(gè)是UGC用戶內(nèi)容,如問(wèn)答,用戶評(píng)論和微型標(biāo)題。這兩部分需要通過(guò)統(tǒng)一的審查機(jī)制。如果它是一個(gè)相對(duì)較少的PGC內(nèi)容,它將直接進(jìn)行風(fēng)險(xiǎn)審查,并且不會(huì)廣泛推薦任何問(wèn)題。 UGC內(nèi)容需要通過(guò)風(fēng)險(xiǎn)模型進(jìn)行過(guò)濾,如果有問(wèn)題,則會(huì)進(jìn)入二級(jí)風(fēng)險(xiǎn)評(píng)估。
審核批準(zhǔn)后,將真正推薦內(nèi)容。目前,如果您收到超過(guò)一定數(shù)量的評(píng)論或報(bào)告負(fù)面反饋,您將返回評(píng)論部分,您將直接從問(wèn)題中刪除。整個(gè)機(jī)制相對(duì)健全。作為行業(yè)領(lǐng)導(dǎo)者,在內(nèi)容安全方面,今天的頭條新聞始終要求自己擁有最高標(biāo)準(zhǔn)。
內(nèi)容識(shí)別技術(shù)主要集中在黃色模型,謾罵模型和粗俗模型上。今天標(biāo)題的粗俗模型是通過(guò)深度學(xué)習(xí)算法訓(xùn)練的,樣本庫(kù)非常大,同時(shí)分析圖片和文本。這部分模型更注重召回率,準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫(kù)也超過(guò)一百萬(wàn),召回率為95%+,準(zhǔn)確率為80%以上。如果用戶經(jīng)常說(shuō)不當(dāng)或評(píng)論不當(dāng),我們會(huì)有一些懲罰機(jī)制。
泛低質(zhì)量識(shí)別涉及許多情況,例如假新聞,黑色草稿,不一致的文本,標(biāo)題派對(duì),低內(nèi)容質(zhì)量等。這部分內(nèi)容很難被機(jī)器理解,并且需要很多反饋,包括其他樣本信息。比較。目前,低質(zhì)量模型的準(zhǔn)確率和召回率不是特別高,還需要結(jié)合人工審查來(lái)提高門檻。目前,最終召回率已達(dá)到95%。事實(shí)上,仍有許多工作要做。標(biāo)題人工智能實(shí)驗(yàn)室李航先生還與密歇根大學(xué)合作建立研究項(xiàng)目并建立謠言識(shí)別平臺(tái)。