毛片中文字幕高清,洗澡女高清偷拍网站,中文字幕亚洲日韩

今天的標(biāo)題算法是開(kāi)放的！爆炸的秘密就在這里

瀏覽：329 時(shí)間：2022-5-22

今天，算法分發(fā)已經(jīng)成為幾乎所有軟件的標(biāo)準(zhǔn)，如信息平臺(tái)，搜索引擎，瀏覽器，社交軟件等，但與此同時(shí)，算法開(kāi)始面臨挑戰(zhàn)，挑戰(zhàn)和誤解。今天的標(biāo)題推薦算法自2012年9月第一版以來(lái)一直在開(kāi)發(fā)中，經(jīng)過(guò)了四次重大調(diào)整和修訂。

今天，標(biāo)題委托高級(jí)算法架構(gòu)師曹煥歡博士宣傳當(dāng)今頭條新聞的算法原理，以推廣整個(gè)行業(yè)的查詢算法和建議算法;使算法透明化，消除對(duì)算法的誤解，逐步推動(dòng)整個(gè)行業(yè)更好地受益。社會(huì)。

以下是《今日頭條算法原理》的全文。

此共享將介紹當(dāng)今標(biāo)題推薦系統(tǒng)的概述以及內(nèi)容分析，用戶標(biāo)記，評(píng)估和分析以及內(nèi)容安全性的原則。

首先，系統(tǒng)概述

如果用于以正式方式描述的推薦系統(tǒng)實(shí)際上是適合用戶對(duì)內(nèi)容的滿意度的函數(shù)，則該函數(shù)需要輸入三維的變量。

第一個(gè)維度是內(nèi)容。標(biāo)題現(xiàn)在是一個(gè)全面的內(nèi)容平臺(tái)，圖形，視頻，UGC視頻，問(wèn)答和微型標(biāo)題。每個(gè)內(nèi)容都有自己的特點(diǎn)。有必要考慮如何提取不同內(nèi)容類型的功能以提出建議。

第二個(gè)維度是用戶功能。包括各種興趣標(biāo)簽，職業(yè)，年齡，性別等，以及一些模型嵌入的隱含用戶興趣。

第三個(gè)維度是環(huán)境特征。這是移動(dòng)互聯(lián)網(wǎng)時(shí)代的推薦功能。用戶可以隨時(shí)隨地在不同的情況下移動(dòng)，例如工作，通勤，旅行等，并且信息偏好被抵消。結(jié)合三個(gè)維度，該模型將估計(jì)在此方案中推薦內(nèi)容是否適合此用戶。

這里還有另一個(gè)問(wèn)題，如何引入無(wú)法直接衡量的目標(biāo)？

在推薦模型中，點(diǎn)擊率，閱讀時(shí)間，喜歡，評(píng)論和轉(zhuǎn)發(fā)，包括贊美，都是可量化的目標(biāo)。您可以使用該模型直接擬合估算值，并查看在線促銷情況以了解如何執(zhí)行此操作。然而，大規(guī)模推薦系統(tǒng)具有許多服務(wù)用戶，并且不能通過(guò)指標(biāo)完全評(píng)估。引入數(shù)據(jù)指標(biāo)以外的元素也很重要。

如廣告和特殊內(nèi)容頻率控制。問(wèn)答卡是一種特殊形式的內(nèi)容。建議的目標(biāo)不是讓用戶瀏覽，而是吸引用戶回答社區(qū)內(nèi)容。如何將這些內(nèi)容與普通內(nèi)容混合，以及如何控制頻率控制需要考慮。

此外，該平臺(tái)基于對(duì)內(nèi)容生態(tài)和社會(huì)責(zé)任的考慮，例如壓制粗俗內(nèi)容，壓制標(biāo)題派對(duì)，低質(zhì)量?jī)?nèi)容，重要新聞的頂部，加權(quán)和強(qiáng)插入，以及降低下級(jí)帳戶的內(nèi)容是算法本身無(wú)法完成的。需要進(jìn)一步干預(yù)內(nèi)容。

下面我將簡(jiǎn)要介紹如何基于上述算法目標(biāo)實(shí)現(xiàn)它。

上述公式y(tǒng)=F（Xi，Xu，Xc）是一種非常經(jīng)典的監(jiān)督學(xué)習(xí)問(wèn)題。有許多可實(shí)現(xiàn)的方法，如傳統(tǒng)的協(xié)同過(guò)濾模型，監(jiān)督學(xué)習(xí)算法Logistic回歸模型，基于深度學(xué)習(xí)的模型，分解機(jī)器和GBDT。

一個(gè)優(yōu)秀的工業(yè)級(jí)推薦系統(tǒng)需要一個(gè)非常靈活的算法實(shí)驗(yàn)平臺(tái)，可以支持各種算法組合，包括模型結(jié)構(gòu)調(diào)整。因?yàn)楹茈y為所有推薦的場(chǎng)景建立通用的模型架構(gòu)。結(jié)合LR和DNN現(xiàn)在非常流行。在過(guò)去幾年中，F(xiàn)acebook還結(jié)合了LR和GBDT算法。今天的頭條新聞使用了同樣強(qiáng)大的算法推薦系統(tǒng)，但模型架構(gòu)將根據(jù)不同的業(yè)務(wù)場(chǎng)景進(jìn)行調(diào)整。

在模型之后，查看典型的推薦功能。有四種主要類型的功能將在推薦中發(fā)揮重要作用。

第一類是相關(guān)性功能，即評(píng)估內(nèi)容的屬性以及它是否與用戶匹配。顯式匹配包括關(guān)鍵字匹配，分類匹配，源匹配，主題匹配等。在FM模型中還存在一些隱式匹配，其可以從用戶矢量和內(nèi)容矢量之間的距離導(dǎo)出。

第二類是環(huán)境特征，包括地理位置和時(shí)間。這些都是偏置功能，可用于構(gòu)建一些匹配功能。

第三類是加熱功能。包括全球熱量，分類熱量，主題熱量和關(guān)鍵詞熱量。內(nèi)容流行度信息在大型推薦系統(tǒng)中非常有效，尤其是當(dāng)用戶冷啟動(dòng)時(shí)。

第四類是協(xié)同特征，它可以幫助解決所謂的算法更窄更窄的問(wèn)題。協(xié)作功能未考慮用戶的歷史記錄。相反，用戶行為用于分析不同用戶之間的相似性，例如點(diǎn)擊相似度，類似興趣分類，類似主題，類似興趣詞，甚至矢量相似性，從而擴(kuò)展模型的探索能力。

在模型的培訓(xùn)中，標(biāo)題是使用實(shí)時(shí)培訓(xùn)的最推薦的產(chǎn)品。實(shí)時(shí)培訓(xùn)可以節(jié)省資源和反饋，這對(duì)于信息流產(chǎn)品非常重要。用戶需要可以由模型快速捕獲的行為信息，并反饋到下一個(gè)畫(huà)筆的推薦效果。我們目前基于Storm集群實(shí)時(shí)處理示例數(shù)據(jù)，包括點(diǎn)擊，顯示，收集和共享等操作類型。

模型參數(shù)服務(wù)器是內(nèi)部開(kāi)發(fā)的高性能系統(tǒng)。由于標(biāo)題數(shù)據(jù)增長(zhǎng)太快，無(wú)法滿足類似開(kāi)源系統(tǒng)的穩(wěn)定性和性能，而我們自行開(kāi)發(fā)系統(tǒng)的底層已經(jīng)進(jìn)行了許多有針對(duì)性的優(yōu)化。改進(jìn)操作和維護(hù)工具，以更好地適應(yīng)現(xiàn)有的業(yè)務(wù)場(chǎng)景。

目前，標(biāo)題推薦算法模型在世界范圍內(nèi)相對(duì)較大，包括數(shù)百億原始特征和數(shù)十億個(gè)矢量特征。整個(gè)培訓(xùn)過(guò)程是記錄在線服務(wù)器的實(shí)時(shí)特征，將其導(dǎo)入Kafka文件隊(duì)列，然后將其導(dǎo)入Storm集群以使用Kafka數(shù)據(jù)。客戶端返回推薦標(biāo)簽以構(gòu)建訓(xùn)練樣本，然后根據(jù)最新樣本在線培訓(xùn)更新模型參數(shù)。最終的在線模型已更新。此過(guò)程中的主要延遲是用戶操作的反饋延遲，因?yàn)橛脩舨灰欢ㄔ谕扑]文章后立即查看它。無(wú)論這部分時(shí)間如何，整個(gè)系統(tǒng)幾乎都是實(shí)時(shí)的。

然而，由于標(biāo)題的當(dāng)前內(nèi)容非常大，并且小視頻內(nèi)容具有數(shù)千萬(wàn)級(jí)別，因此推薦系統(tǒng)不可能通過(guò)模型??預(yù)測(cè)所有內(nèi)容。因此，有必要設(shè)計(jì)一些召回策略，以便在每次推薦時(shí)從大量?jī)?nèi)容中過(guò)濾出數(shù)千個(gè)內(nèi)容庫(kù)。召回策略最重要的要求是極端性能。通常，超時(shí)不能超過(guò)50毫秒。

有許多類型的召回策略，我們主要使用倒置的想法。離線維護(hù)一個(gè)倒排，這個(gè)倒置鍵可以分類，主題，實(shí)體，來(lái)源等，排序考慮熱量，新鮮度，動(dòng)作等。在線調(diào)用可以根據(jù)用戶的興趣標(biāo)簽快速切斷反轉(zhuǎn)行中的內(nèi)容，并有效地從大型內(nèi)容庫(kù)中過(guò)濾少量?jī)?nèi)容。

二，內(nèi)容分析

內(nèi)容分析包括文本分析，圖像分析和視頻分析。在標(biāo)題的開(kāi)頭，我主要做的是信息。今天我們主要談?wù)撐谋痉治?。文本分析在推薦系統(tǒng)中的一個(gè)非常重要的作用是用戶興趣建模。沒(méi)有內(nèi)容和文本標(biāo)簽來(lái)獲取用戶興趣標(biāo)簽。例如，只知道文章標(biāo)簽是Internet，用戶可以閱讀Internet標(biāo)簽文章，以便知道用戶有Internet標(biāo)簽，其他關(guān)鍵字是相同的。

另一方面，文本內(nèi)容的標(biāo)簽可以直接幫助推薦功能。例如，可以向關(guān)注魅族的用戶推薦魅族的內(nèi)容，這是用戶標(biāo)簽的匹配。如果主要頻道的推薦在一段時(shí)間內(nèi)不滿意，推薦范圍縮小，用戶會(huì)在閱讀特定頻道推薦（如技術(shù)，體育，娛樂(lè)，軍事等）后發(fā)現(xiàn)，然后返回主飼料，推薦效果會(huì)更好。由于整個(gè)模型是開(kāi)放的，子通道探索空間更小，更容易滿足用戶需求。僅通過(guò)單信道反饋來(lái)提高推薦準(zhǔn)確率更加困難，并且很好地完成子信道非常重要。這也需要良好的內(nèi)容分析。

上圖是今天標(biāo)題的實(shí)際案例。如您所見(jiàn)，本文具有文本功能，如分類，關(guān)鍵字，主題和實(shí)體單詞。當(dāng)然，沒(méi)有文字功能，推薦系統(tǒng)無(wú)法正常工作，推薦系統(tǒng)是亞馬遜最早的應(yīng)用，甚至在沃爾瑪時(shí)代，包括Netfilx視頻推薦和無(wú)文字功能的直接協(xié)同過(guò)濾推薦。但是，對(duì)于信息產(chǎn)品，大多數(shù)都是消費(fèi)當(dāng)天的內(nèi)容。沒(méi)有文字功能。新內(nèi)容很難冷酷地開(kāi)始。協(xié)作類功能無(wú)法解決文章的冷啟動(dòng)問(wèn)題。

今天由標(biāo)題推薦系統(tǒng)提取的文本特征包括以下類別。第一個(gè)是語(yǔ)義標(biāo)記類功能，它使用語(yǔ)義標(biāo)記顯式標(biāo)記文章。標(biāo)簽的這一部分是由人定義的特征，每個(gè)標(biāo)簽具有明確的含義，并且標(biāo)簽系統(tǒng)是預(yù)定義的。此外，還有隱含的語(yǔ)義特征，主要是主題特征和關(guān)鍵字特征。主題特征是詞概率分布的描述，沒(méi)有明確的含義;雖然關(guān)鍵字功能基于一些統(tǒng)一的功能描述，但沒(méi)有明確的設(shè)置。

此外，文本相似性功能也非常重要。在標(biāo)題中，用戶反饋的一個(gè)最大問(wèn)題是它總是建議重復(fù)內(nèi)容。這個(gè)問(wèn)題的難點(diǎn)在于每個(gè)人都有不同的重復(fù)定義。例如，有些人認(rèn)為這篇關(guān)于皇家馬德里和巴塞羅那的文章昨天看到了類似的內(nèi)容。今天，據(jù)說(shuō)這兩支球隊(duì)正在重復(fù)。但對(duì)于一個(gè)沉重的球迷，特別是巴塞羅那的球迷，我迫不及待地想看到所有的報(bào)道。為了解決這個(gè)問(wèn)題，我們需要根據(jù)類似文章的特征制定在線策略，例如主題，文本和主題。

同樣，有時(shí)間和空間特征，分析內(nèi)容發(fā)生的位置和及時(shí)性。例如，限于武漢的事情可能對(duì)北京用戶沒(méi)有意義。最后，考慮質(zhì)量相關(guān)的特點(diǎn)，判斷內(nèi)容是否粗俗，色情，是軟文，雞湯嗎？

上圖是標(biāo)題語(yǔ)義標(biāo)簽的特征和使用場(chǎng)景。它們之間的級(jí)別不同，要求也不同。

分類的目標(biāo)是覆蓋整個(gè)情況。我希望每段視頻都對(duì)每段視頻進(jìn)行分類。實(shí)體系統(tǒng)需要精確度。相同的名稱或內(nèi)容應(yīng)明確區(qū)分它所指的人或事物，但不需要涵蓋它。概念系統(tǒng)負(fù)責(zé)解決更精確且屬于抽象概念的語(yǔ)義。這是我們的初步分類。在實(shí)踐中，發(fā)現(xiàn)分類和概念在技術(shù)上是可互操作的，后來(lái)使用了統(tǒng)一的技術(shù)框架。

目前，隱式語(yǔ)義特征對(duì)推薦非常有幫助，而語(yǔ)義標(biāo)簽需要不斷標(biāo)記，新名詞的新概念不斷出現(xiàn)，注釋不斷迭代。難度和資源投入遠(yuǎn)大于隱含的語(yǔ)義特征。為什么需要語(yǔ)義標(biāo)簽？有一些產(chǎn)品需求，例如需要明確定義的類別和易于理解的文本標(biāo)簽系統(tǒng)的渠道。語(yǔ)義標(biāo)簽的作用是檢查公司NLP技術(shù)水平的試金石。

今天的標(biāo)題推薦系統(tǒng)的在線分類使用典型的分層文本分類算法。在Root的頂部，下面第一層的分類是一個(gè)很大的類別，如技術(shù)，體育，金融，娛樂(lè)，體育，然后細(xì)分為足球，籃球，乒乓球，網(wǎng)球，田徑，游泳...國(guó)際足球，中國(guó)足球，中國(guó)足球細(xì)分在中間，超級(jí)，國(guó)家隊(duì)......與單獨(dú)的分類器相比，采用分層文本分類算法可以更好地解決數(shù)據(jù)偏差問(wèn)題。有一些例外。如果你想改善召回，你可以看到我們連接了一些飛行線。這組體系結(jié)構(gòu)很常見(jiàn)，但是根據(jù)問(wèn)題的難度，每個(gè)元分類器都可以是異構(gòu)的。一些SVM運(yùn)行良好，一些必須與CNN結(jié)合，一些必須與RNN結(jié)合。

上圖是實(shí)體字識(shí)別算法的情況?；诜衷~結(jié)果和詞性標(biāo)注候選，根據(jù)知識(shí)庫(kù)可能需要一些拼接。一些實(shí)體是幾個(gè)單詞的組合。有必要確定組合哪些單詞來(lái)映射實(shí)體的描述。如果結(jié)果映射多個(gè)實(shí)體，則仍然通過(guò)單詞矢量，主題分布或甚至詞頻本身消除歧義，最后計(jì)算相關(guān)模型。

三，用??戶標(biāo)簽

內(nèi)容分析和用戶標(biāo)簽是推薦系統(tǒng)的兩個(gè)基石。內(nèi)容分析涉及更多的機(jī)器學(xué)習(xí)，用戶標(biāo)記比工程更具挑戰(zhàn)性。

今日頭條新聞的常見(jiàn)用戶標(biāo)簽包括用戶感興趣的類別和主題，關(guān)鍵字，來(lái)源，基于興趣的用戶群集以及各種垂直興趣功能（模型，運(yùn)動(dòng)隊(duì)，股票等）。還有性別，年齡，地點(diǎn)和其他信息。通過(guò)使用用戶的第三方社交帳戶登錄獲得性別信息。年齡信息通常由模型預(yù)測(cè)，并通過(guò)模型，閱讀時(shí)間分布等估計(jì)。駐留位置來(lái)自用戶授權(quán)的訪問(wèn)位置信息，并且通過(guò)傳統(tǒng)的聚類方法基于位置信息獲得駐留點(diǎn)。駐留點(diǎn)與其他信息相結(jié)合可用于猜測(cè)用戶的工作地點(diǎn)，營(yíng)業(yè)地點(diǎn)和旅行地點(diǎn)。這些用戶標(biāo)簽對(duì)建議非常有用。

當(dāng)然，最簡(jiǎn)單的用戶標(biāo)簽是被查看的內(nèi)容標(biāo)簽。但這里涉及一些數(shù)據(jù)處理策略。主要包括：

首先，過(guò)濾噪音。點(diǎn)擊短暫停留時(shí)間過(guò)濾標(biāo)題派對(duì)。

二，熱點(diǎn)懲罰。用戶對(duì)一些熱門文章（例如前一段時(shí)間PG One的新聞）的行為減少了。理論上，如果內(nèi)容分布在大范圍內(nèi)，則置信水平會(huì)降低。

第三，時(shí)間衰退。用戶興趣被抵消，因此策略更傾向于新用戶行為。因此，隨著用戶的運(yùn)動(dòng)增加，舊的特征權(quán)重將隨時(shí)間衰減，并且新動(dòng)作貢獻(xiàn)的特征權(quán)重將更大。

第四，懲罰表明。如果未單擊向用戶推薦的文章，則相關(guān)功能（類別，關(guān)鍵字，來(lái)源）權(quán)重將受到懲罰。當(dāng)然，與此同時(shí)，我們還必須考慮全球背景，相關(guān)內(nèi)容是否被推得更多，以及相關(guān)的關(guān)閉和不喜歡信號(hào)。

整體用戶標(biāo)簽挖掘相對(duì)簡(jiǎn)單，主要是由于剛剛提到的工程挑戰(zhàn)。標(biāo)題用戶標(biāo)簽的第一個(gè)版本是批量計(jì)算框架。這個(gè)過(guò)程相對(duì)簡(jiǎn)單。在過(guò)去的兩個(gè)月中，每天提取昨天每日用戶的操作數(shù)據(jù)，并在Hadoop集群上分批計(jì)算結(jié)果。

問(wèn)題是隨著用戶快速增長(zhǎng)，興趣模型和其他批處理任務(wù)的類型正在增加，并且涉及的計(jì)算量太大。 2014年，Hadoop批量處理數(shù)百萬(wàn)用戶標(biāo)簽更新的任務(wù)在同一天完成。緊密的集群計(jì)算資源很容易影響其他工作。專注于分布式存儲(chǔ)系統(tǒng)的壓力也在增加，用戶興趣標(biāo)簽更新延遲越來(lái)越高。

面對(duì)這些挑戰(zhàn)，在2014年底，今天的頭條新聞推出了用戶標(biāo)記的Storm集群流計(jì)算系統(tǒng)。更改為流模式后，只要用戶操作更新標(biāo)簽，CPU成本相對(duì)較小，可以節(jié)省80％的CPU時(shí)間，大大降低計(jì)算資源開(kāi)銷。同時(shí)，每天只有幾十臺(tái)機(jī)器可以支持?jǐn)?shù)千萬(wàn)用戶的興趣模型更新，并且功能更新速度非?？欤⑶铱梢詫?shí)現(xiàn)基本的實(shí)時(shí)。該系統(tǒng)自成立以來(lái)一直在使用。

當(dāng)然，我們還發(fā)現(xiàn)并非所有用戶標(biāo)簽都需要流媒體系統(tǒng)。諸如用戶的性別，年齡和居住地點(diǎn)之類的信息不需要實(shí)時(shí)重新計(jì)算，并且仍然保留每日更新。

四，評(píng)估分析

上面描述了推薦系統(tǒng)的總體架構(gòu)。那么你如何評(píng)估推薦效果呢？

我認(rèn)為有一句非常明智，“l(fā)dquo;沒(méi)有優(yōu)化就無(wú)法評(píng)估一件事。推薦系統(tǒng)也是如此。

事實(shí)上，許多因素都會(huì)影響推薦。例如，候選集合改變，召回模塊的改進(jìn)或添加，推薦特征的增加，模型架構(gòu)的改進(jìn)，算法參數(shù)的優(yōu)化等不是示例。評(píng)估的重要性在于許多優(yōu)化可能最終產(chǎn)生負(fù)面影響，并且在優(yōu)化啟動(dòng)后效果不會(huì)改善。

綜合評(píng)估推薦系統(tǒng)需要全面的評(píng)估系統(tǒng)，強(qiáng)大的實(shí)驗(yàn)平臺(tái)和易于使用的實(shí)證分析工具。所謂的完整系統(tǒng)不是單一指標(biāo)測(cè)量，不僅可以查看點(diǎn)擊率或停留時(shí)間等，還需要全面評(píng)估。我們一直在努力，過(guò)去幾年，我們能否結(jié)合大多數(shù)指標(biāo)來(lái)綜合唯一的評(píng)估指標(biāo)，但仍在探索中。目前，我們?nèi)詫⒂梢粋€(gè)由經(jīng)驗(yàn)豐富的學(xué)生組成的評(píng)審小組進(jìn)行深入討論。

許多公司在算法方面表現(xiàn)不佳。這不是因?yàn)楣こ處煹哪芰Σ蛔?。相反，他們需要一個(gè)強(qiáng)大的實(shí)驗(yàn)平臺(tái)和方便的實(shí)驗(yàn)分析工具來(lái)智能地分析數(shù)據(jù)指標(biāo)的可信度。

建立良好的評(píng)估體系需要遵循幾個(gè)原則，從短期和長(zhǎng)期指標(biāo)的組合開(kāi)始。當(dāng)我負(fù)責(zé)公司的電子商務(wù)方向時(shí)，我觀察到許多策略在短期內(nèi)被調(diào)整為新鮮，但從長(zhǎng)遠(yuǎn)來(lái)看，它沒(méi)有幫助。

其次，我們必須考慮用戶指標(biāo)和生態(tài)指標(biāo)。今天的標(biāo)題作為內(nèi)容創(chuàng)作平臺(tái)，不僅要為內(nèi)容創(chuàng)作者提供價(jià)值，讓他更有尊嚴(yán)的創(chuàng)作，還要有義務(wù)滿足用戶，兩者應(yīng)該是平衡的。廣告商也有興趣考慮，這是一個(gè)多方游戲和平衡過(guò)程。

另外，要注意協(xié)同效應(yīng)的影響。實(shí)驗(yàn)中嚴(yán)格的流動(dòng)隔離很難實(shí)現(xiàn)，注意外部效應(yīng)。

強(qiáng)大的實(shí)驗(yàn)平臺(tái)的直接優(yōu)勢(shì)在于，當(dāng)有多個(gè)同時(shí)在線實(shí)驗(yàn)時(shí)，平臺(tái)可以自動(dòng)分配流量而無(wú)需人工通信，實(shí)驗(yàn)結(jié)束后流程立即恢復(fù)，提高了管理效率。這可以幫助公司降低分析成本，加快算法的迭代效果，并使整個(gè)系統(tǒng)的算法優(yōu)化能夠快速推進(jìn)。

這是標(biāo)題A/B測(cè)試實(shí)驗(yàn)系統(tǒng)的基本原理。首先，我們將在離線狀態(tài)下進(jìn)行用戶分組，然后在線分發(fā)實(shí)驗(yàn)流量，在桶中標(biāo)記用戶，并將其分配給實(shí)驗(yàn)組。例如，打開(kāi)10％流量實(shí)驗(yàn)，兩個(gè)實(shí)驗(yàn)組中的5％，一個(gè)5％是基線，策略與在線市場(chǎng)相同，另一個(gè)是新策略。

在實(shí)驗(yàn)期間收集用戶動(dòng)作，這基本上是準(zhǔn)實(shí)時(shí)的并且可以每小時(shí)看到。但由于每小時(shí)數(shù)據(jù)波動(dòng)，通常以天數(shù)來(lái)衡量。收集動(dòng)作后，將進(jìn)行日志處理，分布式統(tǒng)計(jì)和寫(xiě)入數(shù)據(jù)庫(kù)，非常方便。

在該系統(tǒng)中，工程師只需設(shè)置流量需求，實(shí)驗(yàn)時(shí)間，定義特殊過(guò)濾條件，并自定義實(shí)驗(yàn)組ID。系統(tǒng)可以自動(dòng)生成：實(shí)驗(yàn)數(shù)據(jù)比較，實(shí)驗(yàn)數(shù)據(jù)置信度，實(shí)驗(yàn)結(jié)論和實(shí)驗(yàn)優(yōu)化建議。

當(dāng)然，只有實(shí)驗(yàn)平臺(tái)是不夠的。在線實(shí)驗(yàn)平臺(tái)只能通過(guò)數(shù)據(jù)指標(biāo)的變化來(lái)推測(cè)用戶體驗(yàn)的變化，但數(shù)據(jù)指標(biāo)和用戶體驗(yàn)之間存在差異，許多指標(biāo)無(wú)法完全量化。仍需要通過(guò)手動(dòng)分析進(jìn)行許多改進(jìn)，主要改進(jìn)需要手動(dòng)評(píng)估二級(jí)確認(rèn)。

V.內(nèi)容安全

最后，我們將介紹今天關(guān)于內(nèi)容安全的頭條新聞中的一些舉措。頭條新聞現(xiàn)在是該國(guó)最大的內(nèi)容創(chuàng)作和發(fā)行收據(jù)，必須越來(lái)越多地關(guān)注社會(huì)責(zé)任和行業(yè)領(lǐng)導(dǎo)者的責(zé)任。如果1％的推薦內(nèi)容出現(xiàn)問(wèn)題，則會(huì)產(chǎn)生很大影響。

因此，標(biāo)題從一開(kāi)始就將內(nèi)容安全性置于公司的最高優(yōu)先級(jí)隊(duì)列中。在成立之初，已經(jīng)成立了一個(gè)審計(jì)小組來(lái)負(fù)責(zé)內(nèi)容安全。那時(shí)，只有不到40名學(xué)生開(kāi)發(fā)了所有客戶端，后端和算法。標(biāo)題非常重視內(nèi)容審查。

如今，今日頭條新聞的內(nèi)容主要來(lái)自兩個(gè)部分，一個(gè)是具有成熟內(nèi)容制作能力的PGC平臺(tái)，另一個(gè)是UGC用戶內(nèi)容，如問(wèn)答，用戶評(píng)論和微型標(biāo)題。這兩部分需要通過(guò)統(tǒng)一的審查機(jī)制。如果它是一個(gè)相對(duì)較少的PGC內(nèi)容，它將直接進(jìn)行風(fēng)險(xiǎn)審查，并且不會(huì)廣泛推薦任何問(wèn)題。 UGC內(nèi)容需要通過(guò)風(fēng)險(xiǎn)模型進(jìn)行過(guò)濾，如果有問(wèn)題，則會(huì)進(jìn)入二級(jí)風(fēng)險(xiǎn)評(píng)估。

審核批準(zhǔn)后，將真正推薦內(nèi)容。目前，如果您收到超過(guò)一定數(shù)量的評(píng)論或報(bào)告負(fù)面反饋，您將返回評(píng)論部分，您將直接從問(wèn)題中刪除。整個(gè)機(jī)制相對(duì)健全。作為行業(yè)領(lǐng)導(dǎo)者，在內(nèi)容安全方面，今天的頭條新聞始終要求自己擁有最高標(biāo)準(zhǔn)。

內(nèi)容識(shí)別技術(shù)主要集中在黃色模型，謾罵模型和粗俗模型上。今天標(biāo)題的粗俗模型是通過(guò)深度學(xué)習(xí)算法訓(xùn)練的，樣本庫(kù)非常大，同時(shí)分析圖片和文本。這部分模型更注重召回率，準(zhǔn)確率甚至可以犧牲一些。謾罵模型的樣本庫(kù)也超過(guò)一百萬(wàn)，召回率為95％+，準(zhǔn)確率為80％以上。如果用戶經(jīng)常說(shuō)不當(dāng)或評(píng)論不當(dāng)，我們會(huì)有一些懲罰機(jī)制。

泛低質(zhì)量識(shí)別涉及許多情況，例如假新聞，黑色草稿，不一致的文本，標(biāo)題派對(duì)，低內(nèi)容質(zhì)量等。這部分內(nèi)容很難被機(jī)器理解，并且需要很多反饋，包括其他樣本信息。比較。目前，低質(zhì)量模型的準(zhǔn)確率和召回率不是特別高，還需要結(jié)合人工審查來(lái)提高門檻。目前，最終召回率已達(dá)到95％。事實(shí)上，仍有許多工作要做。標(biāo)題人工智能實(shí)驗(yàn)室李航先生還與密歇根大學(xué)合作建立研究項(xiàng)目并建立謠言識(shí)別平臺(tái)。

« 京東開(kāi)店的要求和費(fèi)用有哪些？ | 合理整理資源類網(wǎng)站的內(nèi)容，制作賺錢模式的內(nèi)容方向和收益模式 »

久久久久国产精品www,综合久久无码,亚洲精品99久久久久中文字幕,无码伊人网Apdm