快手有著怎樣的算法?你看的推送視頻的時(shí)長是否有其他秘密?
快手社科推薦團(tuán)隊(duì)
短視頻(比如快手、抖音和視頻號(hào)等)日益成為人們?nèi)粘I钪凶钪匾獖蕵贩绞健6桃曨l推薦需要解決的一個(gè)基礎(chǔ)問題是,如何準(zhǔn)確地預(yù)估用戶對(duì)某個(gè)視頻的觀看時(shí)長。觀看時(shí)長建模的精準(zhǔn)度一定程度反映了推薦的質(zhì)量,對(duì)提升用戶粘性意義重大。
業(yè)界普遍使用的方法是由 YouTube 在 RecSys 于 2023 年提出來的方法或其變種 [1],然而該方法最開始的提出是基于「點(diǎn)擊 - 觀看」的長視頻場景,在目前無顯式點(diǎn)擊 Label 的沉浸式瀏覽模式下并不適用, 同時(shí)短視頻場景視頻本身長度跨度很大,給模型預(yù)估帶來了極大的挑戰(zhàn)。
用戶對(duì)一個(gè)視頻的觀看時(shí)長受到兩方面影響,一是用戶對(duì)視頻內(nèi)容的滿意程度,二是視頻本身的長度(duration)。現(xiàn)有建模方案,不管是直接回歸時(shí)長,還是 YouTube 的方法,均有訓(xùn)練不穩(wěn)定,誤差大等缺陷。
快手首次指出了時(shí)長預(yù)估中的 duration bias 問題,基于此提出了基于因果推斷的時(shí)長預(yù)估模型,有效地消除了 duration 混淆變量的影響,和 YouTube 方法相比,預(yù)估精度和穩(wěn)定性得到了極大的提升。
該 paper 被 SIGKDD 2023 Applied Data Science Track 接收,同時(shí)被邀請(qǐng)做口頭報(bào)告。該論文的模型 D2Q 經(jīng)過改進(jìn)之后在快手全量上線,成為短視頻領(lǐng)域繼 YouTube DNN 之后最好用的時(shí)長預(yù)估模型。
作者:詹若涵、裴昶華、蘇強(qiáng)、文劍烽、王學(xué)良、穆冠宇、鄭東、江鵬
論文地址:https://arxiv.org/abs/2206.06003
問題建模
快手采用的沉浸式瀏覽模式(如下圖一),推薦系統(tǒng)通過建模用戶興趣為用戶推薦可能喜歡的視頻,優(yōu)化視頻觀看時(shí)長、瀏覽深度、互動(dòng) (點(diǎn)贊、關(guān)注、轉(zhuǎn)發(fā))、多樣性等多個(gè)維度的指標(biāo),以此營造良好的社區(qū)氛圍,提升用戶粘性。在上述眾多目標(biāo)中,視頻觀看時(shí)長作為最稠密的指標(biāo),也作為用戶最稀缺的資源,客觀有效的反映用戶對(duì)視頻的喜好程度,是短視頻場景下推薦系統(tǒng)優(yōu)化的重要指標(biāo)。
圖一、快手上下滑場景展示
然而,時(shí)長預(yù)估 (Watchtime Prediction) 不僅取決于用戶興趣和視頻的匹配程度,還會(huì)被視頻長度(duration)的分布影響: 一方面,如圖二 (a) 所示,對(duì)于 100 秒以下的視頻,視頻觀看時(shí)長和視頻本身的時(shí)長有非常明顯的線性關(guān)聯(lián)關(guān)系,如何在如此優(yōu)勢的特征下建模出用戶真正的興趣部分具有一定的挑戰(zhàn);另外一個(gè)方面,下圖二(b)展示了平臺(tái)在一段時(shí)間不同 duration 的分布變化,可以看出隨著推薦系統(tǒng)的優(yōu)化,曝光樣本中 duration 分布極不均衡,同時(shí)長視頻的占比會(huì)變大。使得模型的訓(xùn)練被長視頻主導(dǎo),影響時(shí)長預(yù)估模型的效果和穩(wěn)定性。
圖二、 (a)視頻觀看時(shí)長和視頻長度的關(guān)系
圖二、 (b)不同時(shí)間區(qū)間視頻分布的變化
為了解決上述的問題, 論文提出使用因果推斷的方法消除時(shí)長預(yù)估任務(wù)中的 duration bias 問題。論文首次通過因果圖的方式給出了時(shí)長預(yù)估任務(wù)的形式化定義。圖三揭示了 duration 是時(shí)長預(yù)估中需要消除的混淆變量(Confounder):一方面視頻的 duration 和 觀看時(shí)長直接相關(guān);另一方面,時(shí)長預(yù)估樣本中 duration 分布會(huì)影響到模型訓(xùn)練本身:模型訓(xùn)練會(huì)被長視頻主導(dǎo),同時(shí)優(yōu)勢特征 duration 會(huì)影響用戶側(cè)興趣的建模。為了消除 duration 的負(fù)向影響,論文提出 Duration-Deconfounded Quantile-based (D2Q) 時(shí)長預(yù)估方法。D2Q 采用后門準(zhǔn)則的調(diào)整方法,對(duì)于不同 duration 的視頻,使用 Distribution-Aware 的時(shí)長分位數(shù)預(yù)估方法來消除 duration 帶來的影響,從而提升了時(shí)長預(yù)估精度。通過在快手?jǐn)?shù)據(jù)集上大量的離線評(píng)估和在線實(shí)驗(yàn),論文發(fā)現(xiàn) D2Q 顯著優(yōu)于 SOTA 時(shí)長預(yù)估方法,離線評(píng)估預(yù)估精度提升 2.8pp。基于該方法改進(jìn)版本的多目標(biāo)版本已經(jīng)在快手 APP 上全量,取得了時(shí)長和 VV(播放數(shù))的雙重增量提升。
圖三、 視頻推薦場景下觀看時(shí)長(Watchtime)預(yù)估的因果圖。D 表示視頻的長度 duration,V 表示視頻 video, U 表示用戶 user, W 表示觀看時(shí)長 watchtime。
算法
圖三中,D 表示視頻的長度 duration,V 表示視頻 video, U 表示用戶 user, W 表示觀看時(shí)長 watchtime。視頻 duration 通過 D->V->W 和 D->W 兩條路徑影響時(shí)長預(yù)估,其中 D->W 表明視頻 duration 與觀看時(shí)長具有直接的因果關(guān)系,這也是符合預(yù)期的,因?yàn)橄噍^于短視頻,用戶更加傾向于在長視頻上停留更長的時(shí)間,這是時(shí)長模型應(yīng)該捕捉到的。但是,D->V->W 表示曝光視頻的 duration 分布會(huì)影響觀看時(shí)長的預(yù)估,這主要是因?yàn)橥扑]系統(tǒng)傾向于推薦長視頻來提升 app 時(shí)長,導(dǎo)致曝光視頻中長視頻占比過大;而模型訓(xùn)練時(shí)長視頻會(huì)獲得比較大的權(quán)重,從而主導(dǎo)了梯度。為了消除 duration 的負(fù)面影響。對(duì)圖三 (a) 所示的原始因果圖,論文采用 back-door adjustment 對(duì)其進(jìn)行調(diào)整,得到圖三(b)。這一操作背后的原理是:對(duì)于不同 Duration 的視頻,論文使用分開建模的方式來消除 Duration 帶來的影響,使得模型的預(yù)估更為準(zhǔn)確。通過這種方式,時(shí)長優(yōu)化模型可以使用下式表示,
進(jìn)一步的,論文對(duì) Duration 進(jìn)行粗粒度的分組,來降低遍歷所有 Duration 帶來的計(jì)算開銷。具體做法為,對(duì)視頻的 Duration 進(jìn)行排序,并等頻率分為 M 個(gè)桶,使用每個(gè)分桶下的樣本獨(dú)立訓(xùn)練時(shí)長模型,因此時(shí)長優(yōu)化模型轉(zhuǎn)化為以下形式:
其中,是每個(gè) duration 分桶下的時(shí)長預(yù)估模型。
D2Q 算法的具體做法如下:
1. 統(tǒng)計(jì)訓(xùn)練樣本的 duration 分布,得到等頻分桶分位點(diǎn);
2. 將樣本按照等頻分桶分位點(diǎn)分成 k 個(gè)相互獨(dú)立的分桶 D_k;
3. 對(duì)不同 duration 分桶的樣本,在組內(nèi)統(tǒng)計(jì)時(shí)長分位數(shù)作為 label,得到 Duration-Aware Watchtime-Distribution label;
4. 分別在上述的分桶上訓(xùn)練時(shí)長預(yù)估模型 f_k;
算法偽代碼如下:
D2Q 模型給出每個(gè)時(shí)長分桶下的分位數(shù)預(yù)估值,為了讓預(yù)估值在桶間可比,論文通過觀看時(shí)長信號(hào)的累積概率分布得到預(yù)估值對(duì)應(yīng)的觀看時(shí)長原始值。
模型
下圖四(a)展示了論文的模型,特征選擇上,photo 側(cè)包括粗精排預(yù)估值 dense/sparse 特征、固有時(shí)長 Duration、視頻類別標(biāo)簽等,user 側(cè)包括 session 統(tǒng)計(jì)特征以及基礎(chǔ)屬性特征。在訓(xùn)練方式上,第一個(gè)版本采用了 M 個(gè)網(wǎng)絡(luò)完全獨(dú)立,分別學(xué)習(xí)各自的 label,這種訓(xùn)練方式不共享特征 embedding,特征 embedding 空間隨著分桶維度擴(kuò)大線性增加,存儲(chǔ)、訓(xùn)練的資源開銷隨之增加,實(shí)現(xiàn)成本較高,不符合工業(yè)界場景的要求;因此論文設(shè)計(jì)了如圖四(b)的網(wǎng)絡(luò)結(jié)構(gòu), M 個(gè)網(wǎng)絡(luò)共享底層特征,采用多輸出的訓(xùn)練方式,則 batch 內(nèi)樣本分布不均的問題會(huì)導(dǎo)致子塔訓(xùn)練不穩(wěn)定,收斂到局部最優(yōu)。單塔單輸出的訓(xùn)練方式在實(shí)際訓(xùn)練時(shí)效果穩(wěn)定,收斂速度較快,是 D2Q 實(shí)現(xiàn)的基線版本。為了進(jìn)一步提升模型效果,論文在單塔單輸出模型中引入 Duration bias 模塊 (如圖四 c 所示),用于建模不同分桶下的樣本差異(Res-D2Q),離線訓(xùn)練指標(biāo)得到進(jìn)一步的提升。
圖四、D2Q 模型結(jié)構(gòu)示意圖
效果
論文使用 XAUC、XGAUC 以及 MAE 等指標(biāo)對(duì)時(shí)長回歸效果進(jìn)行評(píng)估。MAE 表示短視頻預(yù)估時(shí)長與觀看時(shí)長 label 的誤差絕對(duì)值,表示模型回歸精度,是回歸任務(wù)的常用評(píng)估指標(biāo)。XAUC 的計(jì)算方式如下:將測試集中的樣本兩兩組合,若組合的標(biāo)簽和預(yù)估值的序一致則為正序,否則為逆序,XAUC 是正序?qū)?shù)與總組合數(shù)的比值;XGAUC 是用戶維度計(jì)算的 XAUC。由于推薦系統(tǒng)主要優(yōu)化候選集的排序,評(píng)估指標(biāo) XAUC 能夠更加直觀的反映預(yù)估時(shí)長序的好壞,與論文的優(yōu)化目標(biāo)更加適配。
論文分別評(píng)估了 0、10、20、30、50、100 時(shí)長分桶下,D2Q 以及 Res-D2Q 的預(yù)估效果,與常用的時(shí)長建模方案 (VR、WLR) 進(jìn)行對(duì)比,結(jié)果如下圖表所示。其中,VR 表示觀看時(shí)長回歸任務(wù);WLR 是 YouTube 提出的時(shí)長預(yù)估方式 (在快手單列場景下,使用 60% 全局時(shí)長分位數(shù)作為正負(fù)樣本劃分依據(jù),并使用觀看時(shí)長對(duì)正樣本加權(quán))。由表可知,D2Q 建模方式顯著優(yōu)于 VR 和 WLR,其中 D2Q-30 與 VR 相比提升尤為顯著,XGAUC 指標(biāo)提升 2.8pp;而 Res-D2Q 在相同的 duration 分桶下,XGAUC 相對(duì) D2Q 也有千分位的提升。
圖五、D2Q 模型離線評(píng)估效果(上)及隨著分桶數(shù)量變化 XGAUC 變化曲線(下)
為了說明 duration 分桶數(shù)對(duì)模型預(yù)估效果的影響,論文做了消融實(shí)驗(yàn)。實(shí)驗(yàn)發(fā)現(xiàn) D2Q 的預(yù)估效果在 30 分桶后隨著 duration 分桶數(shù)增加而下降,這一現(xiàn)象主要是由以下原因?qū)е碌?(1) 分桶數(shù)增加,各分桶下的樣本變少,全局分位數(shù)統(tǒng)計(jì)信噪比降低;(2) 樣本空間隨著分桶數(shù)增加而增大,單塔單輸出模型擬合能力有限,導(dǎo)致排序效果下降。在實(shí)際大規(guī)模線上生效時(shí),論文將統(tǒng)計(jì)的數(shù)據(jù)量擴(kuò)大的一個(gè)量級(jí),通過分布式計(jì)算,使得 100 個(gè)分桶時(shí)效果也不會(huì)下降,進(jìn)一步的提升了模型的效果。
挑戰(zhàn)和未來方向
一個(gè)高效的時(shí)長預(yù)估模型對(duì)于短視頻推薦場景顯得非常重要,是評(píng)價(jià)用戶滿意度、衡量平臺(tái)收益的一個(gè)重要的指標(biāo)。該論文首次從因果推斷的角度對(duì)時(shí)長建模進(jìn)行形式化的定義,同時(shí)指出了時(shí)長預(yù)估中最大的難點(diǎn)和挑戰(zhàn): duration bias。并給出了一套行之有效的方法。然而現(xiàn)有的時(shí)長預(yù)估的精度和準(zhǔn)確度還有很大的提升空間。一方面是由于現(xiàn)有的 Label 設(shè)計(jì)需要進(jìn)行進(jìn)一步的改進(jìn)的空間:如融合一些其他目標(biāo),在時(shí)長為主目標(biāo)的前提下兼顧其他目標(biāo);而另外一方面,用戶觀看視頻時(shí)長本身相比于其他的顯式反饋信號(hào)如點(diǎn)贊,評(píng)論等噪聲更大,如何在不損失信息量的情況下提升視頻時(shí)長的信噪比也是一個(gè)很有價(jià)值的研究方向。快手這篇論文也是第一次將時(shí)長預(yù)估這個(gè)問題進(jìn)行了正式的總結(jié)和初探,旨在拋出問題,非常歡迎大家參與到該問題的優(yōu)化和討論過程中,將視頻推薦的時(shí)長預(yù)估模型提升一個(gè)層次。
[1] Covington, Paul, Jay Adams, and Emre Sargin. "Deep neural networks for youtube recommendations." Proceedings of the 10th ACM conference on recommender systems. 2023.
聲明:本站所有文章資源內(nèi)容,如無特殊說明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。
