Stanford:QQ音樂(lè)推薦召回算法的探索與實(shí)踐|DataFunTalk

導(dǎo)讀:今天和大家分享一下關(guān)于QQ音樂(lè)在召回算法中的一些探索和實(shí)踐。將會(huì)從以下五個(gè)方面進(jìn)行介紹:

  • 業(yè)務(wù)介紹
  • 融合知識(shí)圖譜召回
  • 序列與多興趣召回
  • 音頻召回
  • 聯(lián)邦學(xué)習(xí)召回
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

01

業(yè)務(wù)介紹

1. 業(yè)務(wù)介紹

在QQ音樂(lè)首頁(yè)有非常豐富的推薦產(chǎn)品,例如:個(gè)性電臺(tái)、每日30首、單曲推薦、UGC歌單推薦和AI歌單等等。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

上圖中可以看到每一個(gè)產(chǎn)品的特點(diǎn)及形態(tài)各異。例如:個(gè)性電臺(tái)提供沉浸式聽(tīng)歌體驗(yàn);AI算法歌單每天更新30首歌曲。這些多種多樣的產(chǎn)品形態(tài),對(duì)推薦算法和架構(gòu)都提出了諸多的挑戰(zhàn)。不同形態(tài)入口的優(yōu)化目標(biāo)和樣本的構(gòu)造都不盡相同。

2. QQ音樂(lè)推薦場(chǎng)景特點(diǎn)

接下來(lái)介紹QQ音樂(lè)推薦場(chǎng)景的一些特點(diǎn)。

首先,在用戶(hù)層面上,平臺(tái)覆蓋群體非常廣,消費(fèi)者老少皆有。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

其次,目標(biāo)群體的固有屬性比較稀缺,除去音樂(lè)本身的畫(huà)像,其他屬性?xún)H有用戶(hù)填寫(xiě)的少量人口統(tǒng)計(jì)學(xué)信息。在行為層面,即用戶(hù)的互動(dòng)層面,完播和切歌是主要的操作行為,也有收藏、拉黑、關(guān)注以及加入自建歌單等其他操作。

最后,與電商、視頻流場(chǎng)景不同的是,音樂(lè)的重復(fù)消費(fèi)是音樂(lè)推薦場(chǎng)景一大特征。另外,音樂(lè)推薦的產(chǎn)品多種多樣,不同形態(tài)的特點(diǎn)非常鮮明;比如歌曲的音頻、歌詞、歌手等、UGC歌單的標(biāo)題和圖片等等。

以上這些推薦的場(chǎng)景給召回算法帶來(lái)如下挑戰(zhàn):

  • 用戶(hù)聽(tīng)歌行為,噪聲比較大。樣本如果不做精細(xì)的處理和篩選,召回準(zhǔn)確性不夠好。
  • 頭部熱門(mén)非常嚴(yán)重,相對(duì)來(lái)講,如果不做特定的干預(yù),推薦結(jié)果會(huì)缺少驚喜感。
  • 用戶(hù)屬性稀缺,冷啟動(dòng)相對(duì)困難。

3. QQ音樂(lè)推薦解決方案

基于上面的三個(gè)問(wèn)題,我們提出了以下解決方案:

  • 采用融合音樂(lè)知識(shí)圖譜召回;
  • 引入序列與多興趣召回;
  • 挖掘音頻召回的方式,為用戶(hù)召回“聽(tīng)感相似”的歌曲;
  • 探索聯(lián)邦學(xué)習(xí)的方法,解決用戶(hù)屬性稀缺的困難問(wèn)題。

接下來(lái)詳細(xì)介紹這幾個(gè)方案。

02

融合音樂(lè)知識(shí)圖譜召回

首先介紹融合知識(shí)圖譜的召回,這部分主要是為了提升召回的準(zhǔn)確性。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

音樂(lè)本身包含非常多的基礎(chǔ)屬性,例如每一首歌幾乎都有專(zhuān)輯、歌手、流派和語(yǔ)種等。為了提升召回的準(zhǔn)確性,很多召回模型會(huì)將這些屬性作為歌曲的Side-Info融入到模型進(jìn)行學(xué)習(xí),在QQ音樂(lè)的召回中也使用了EGES / GraphSage這類(lèi)的模型。不過(guò)這兩類(lèi)模型也存在不足,例如,EGES模型能融合Meta信息,如前面提到的語(yǔ)種、專(zhuān)輯等,這種特征的增加會(huì)使得召回的泛化性有所不足;抖音的生態(tài)也會(huì)洞穿很多歌曲的Meta關(guān)聯(lián)邏輯。另外,QQ音樂(lè)的曲庫(kù)非常龐大和豐富,利用一些復(fù)雜圖模型的訓(xùn)練周期相對(duì)較長(zhǎng),效率也強(qiáng)依賴(lài)與工程能力,所以接下來(lái)融合知識(shí)圖譜的召回,在這兩方面做了折中且有不錯(cuò)的效果。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

音樂(lè)有豐富的知識(shí)圖譜,一般是三元組。比如周杰倫演唱了東風(fēng)破,屬于中國(guó)風(fēng)的歌曲,相比于單純作為歌曲的特征來(lái)講,圖譜包含的信息和關(guān)系更加豐富,且關(guān)系可以進(jìn)行傳遞。以自建歌單作為訓(xùn)練樣本為例,也就是右圖中圖譜的引入,相當(dāng)于將在不同歌單共現(xiàn)的歌曲縱向進(jìn)行了串聯(lián)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

使用Song2vec的方法進(jìn)行建模,上圖中展示了目標(biāo)函數(shù)??梢钥吹皆赟ong2vec的基礎(chǔ)上,添加了關(guān)系的學(xué)習(xí),其中伽馬因子表示當(dāng)前關(guān)系能夠融合到模型里面的程度。

三元組的構(gòu)建有非常多的方法。利用流派的圖譜舉例,有(songid1,genre(流派),songid2)和(songid1,relation,genre(流派))兩種構(gòu)建方法。前一種是在NLP中常見(jiàn)的構(gòu)建方式,但在音樂(lè)場(chǎng)景里面這種關(guān)系是相互的,會(huì)以笛卡爾積構(gòu)建2*N*(N-1)對(duì)關(guān)系;而后面一種關(guān)系的構(gòu)建更加直接,關(guān)系數(shù)直接降到了N這個(gè)級(jí)別。融合知識(shí)圖譜在召回上準(zhǔn)確率有較大提升,BadCase率的改善也非常顯著。以權(quán)志龍的“Today”為例,左邊是僅以Song2vec的方式做關(guān)聯(lián),會(huì)與抖音熱門(mén)的歌曲有較強(qiáng)的綁定;而右邊的Song2vec和TransE的融合,可以讓歌曲的關(guān)聯(lián)保證準(zhǔn)確性和一定的泛化性。

03

序列與多興趣召回

序列與多興趣召回,主要是為了挖掘序列中時(shí)間和空間的特性,以及用戶(hù)的多興趣表征。

在對(duì)樣本特征和模型結(jié)構(gòu)做了一些改進(jìn)后, YouTube模型在召回上有非常不錯(cuò)的推薦效果,該召回通路的歌曲完播率很高,但也存在不少問(wèn)題。例如:

  • 問(wèn)題一:用戶(hù)的聽(tīng)歌行為存在一個(gè)序列關(guān)系,特別是在推薦的場(chǎng)景里面,除了包含位置信息,還包含了行為發(fā)生的時(shí)間影響,即同時(shí)存在時(shí)間和空間關(guān)系;
  • 問(wèn)題二:對(duì)序列進(jìn)行avg/sum pooling的方式過(guò)于粗暴,特別是在用戶(hù)興趣較多的情況下,會(huì)導(dǎo)致用戶(hù)的興趣被中和甚至被抹平。
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

接下來(lái)將從序列建模和多興趣建模分別介紹對(duì)上述問(wèn)題的改進(jìn)和實(shí)踐。

1. 空間和時(shí)間建模方案

QQ音樂(lè)采用SASRec序列建模, 對(duì)用戶(hù)的歷史完播行為進(jìn)行建模,提取更為有價(jià)值的信息,且疊加多個(gè)自助力機(jī)制,能夠?qū)W習(xí)更復(fù)雜的特征轉(zhuǎn)換。主要思路是利用戶(hù)的序列L預(yù)測(cè)它的目標(biāo)Target P,self-attention層中V基于QK計(jì)算Attention權(quán)重加權(quán)計(jì)算后輸入到后續(xù)網(wǎng)絡(luò),最后使用sampled_softmax_loss做多分類(lèi)進(jìn)行預(yù)測(cè)。除了融合絕對(duì)位置和相對(duì)時(shí)間, 將Item Input和Output sharing Embedding,相對(duì)于Youtube模型, HR@100指標(biāo)有大幅度提升?;赟ASRec + Share Embedding,同時(shí)融合了時(shí)間和位置建模,結(jié)果能達(dá)到23.72%的準(zhǔn)確率,而原始Youtube是21.25%,準(zhǔn)確率提升2.5%。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

2. 多興趣提取方案

在QQ音樂(lè)場(chǎng)景,80%以上用戶(hù)聽(tīng)兩個(gè)以上流派,47%以上用戶(hù)聽(tīng)兩個(gè)以上語(yǔ)言歌曲。如何更加精準(zhǔn)的挖掘用戶(hù)聽(tīng)歌序列的多興趣,甚至小眾的聽(tīng)歌興趣,非常重要。

以MIND模型為例,多興趣模型有幾個(gè)非常重要的模塊,例如:

  • 第一部分是Context / demographic是融合上下文信息以及年齡、性別和城市等統(tǒng)計(jì)學(xué)信息的模塊;
  • 第二部分是多興趣提取模塊(Multi-interest extractor),基于用戶(hù)序列的多興趣提取模塊,也是模型的核心,MIND利用膠囊網(wǎng)絡(luò)進(jìn)行多興趣提取,和普通神經(jīng)元不同的是,膠囊神經(jīng)元的輸入和輸出都是向量而非標(biāo)量;
  • 最后一部分是Online Serving模塊,線(xiàn)上分為多個(gè)興趣向量進(jìn)行近鄰檢索,每個(gè)索引集合都是用戶(hù)某個(gè)興趣的聚類(lèi),也就是用不同的User Embedding去線(xiàn)上索引出用戶(hù)不同的興趣簇類(lèi)。
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

在最開(kāi)始嘗試模型的時(shí)候遇到了一些問(wèn)題,比如:

  • 歌曲Embedding的聚簇效果不是很好;
  • 用戶(hù)的興趣向量聚簇的區(qū)分度不夠。

對(duì)于這兩個(gè)問(wèn)題我們也做了一些優(yōu)化:

  • 優(yōu)化1:對(duì)于問(wèn)題一,在Songid的基礎(chǔ)上,加入完播歌曲的語(yǔ)種、流派等數(shù)據(jù)進(jìn)行拼接,盡量減少模型學(xué)習(xí)的成本,顯式地告訴模型,某些歌曲的聚類(lèi)是相近關(guān)系。
  • 優(yōu)化2:對(duì)于問(wèn)題二,在第二層也就是動(dòng)態(tài)路由層的參數(shù),Routing logits采用每個(gè)新樣本重新初始化的方式進(jìn)行更新,以這種方式進(jìn)行優(yōu)化,歌曲Embedding的聚類(lèi)有非常明顯的改善,而MIND結(jié)合sideinfo以及Modified DR路由方式,在Hitrate@200的指標(biāo)上可以達(dá)到25.2%的結(jié)果,這個(gè)結(jié)果相對(duì)于前兩個(gè)多興趣baseline有一個(gè)非常明顯的提升。
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

3. 基于Self-Attention的多興趣表征方法

除了MIND使用膠囊網(wǎng)絡(luò)的方式進(jìn)行多興趣提取以外,目前業(yè)界還有基于Self-Attention的多興趣表征方法。區(qū)別主要在于神經(jīng)元類(lèi)型、權(quán)重分配方式以及權(quán)重的更新方式。下圖中可以看到,左圖膠囊網(wǎng)絡(luò)權(quán)重的分配概率,是在上一層的所有膠囊中進(jìn)行歸一化;而在右圖里面,每個(gè)注意力頭獨(dú)立的處理其輸入。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

我們對(duì)基于Self-Attention方式提取多興趣也做了不少?lài)L試,實(shí)驗(yàn)發(fā)現(xiàn),基于Self-Attention多興趣模型可以很好地刻畫(huà)用戶(hù)在不同的流派和語(yǔ)種上的偏好,推薦的平均熱度也相對(duì)于Youtube召回有所緩解。左圖是某用戶(hù)每日30首的截圖,基于多興趣挖掘出了用戶(hù)的三個(gè)興趣:國(guó)語(yǔ)流行、英語(yǔ)流行及日語(yǔ)流行。AB實(shí)驗(yàn)中完播和收藏提升都是比較明顯。以每日30首為例, DAU提升了2%;總播放和收藏滲透率都會(huì)有2個(gè)點(diǎn)以上的提升;語(yǔ)種和流派多樣性也提升了3個(gè)點(diǎn)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

這種方式的引入,也解決了歌曲Top份額上的一些問(wèn)題,大概有2%的熱門(mén)下降,熱門(mén)的推薦問(wèn)題也有所改善。

04

音頻召回

音頻召回是音樂(lè)場(chǎng)景比較有特點(diǎn)的召回方式,將分兩個(gè)部分展開(kāi)講解。

1. 音頻特征挖掘方法

對(duì)于曲庫(kù)內(nèi)的歌曲,基于四大類(lèi)屬性檢測(cè),比如純?nèi)寺?、純器?lè)、人聲加伴奏和其他,以及十大流派檢測(cè),比如搖滾、民謠、鄉(xiāng)村等,來(lái)表征一首歌曲的version和genre,也就是版本和流派。具體是以3秒為一個(gè)段落,對(duì)14大類(lèi)的每個(gè)特征值,沿時(shí)間軸取T個(gè)分值,分別計(jì)算統(tǒng)計(jì)值,包括最大、最小、均值、方差、峰度和偏度?;谶@14大類(lèi),提取出右邊這樣的音頻特征,而音頻特征就是對(duì)應(yīng)的音頻表征(音頻向量)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

我們做了一些實(shí)驗(yàn)分析,并得到了一些結(jié)論:左上圖是推薦給用戶(hù)的冷啟動(dòng)新歌分布,右上圖是對(duì)應(yīng)用戶(hù)人群的收藏歌曲分布,計(jì)算冷啟動(dòng)新歌的完播率與用戶(hù)收藏歌曲的音頻相似度之間的皮爾遜相關(guān)系數(shù)(具體計(jì)算方式列在下面),可以看到左下圖是符合正態(tài)分布的,我們發(fā)現(xiàn)歌曲與用戶(hù)資產(chǎn)的音頻embedding加權(quán)相似度與用戶(hù)聽(tīng)歌完播率的相關(guān)系數(shù)符合正態(tài)分布,從某種程度上說(shuō)明部分用戶(hù)聽(tīng)歌行為與音頻是敏感的(r_value > 0)。

基于上面的分析結(jié)論,音頻embedding也用在了QQ音樂(lè)單曲推薦的多個(gè)場(chǎng)景召回中。例如:使用音頻相似做單點(diǎn)召回,提升了用戶(hù)的驚喜感,用戶(hù)的收藏行為有明顯增加。前段時(shí)間大熱的火星哥的Leave The Door Open,通過(guò)以音頻相似來(lái)召回Peaches或者Walk on Water這一類(lèi)歌曲。在沒(méi)有其他協(xié)同信息的情況下,挖掘歌曲的音頻表征也有助于冷啟動(dòng)分發(fā)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

在新歌冷啟動(dòng)和歌曲投放召回里面,QQ音樂(lè)利用音頻向量對(duì)用戶(hù)的音頻偏好以及歌曲音頻表征進(jìn)行處理,利用歌曲的音頻表征進(jìn)行候選歌曲的召回,再利用用戶(hù)的音頻偏好作為特征進(jìn)行排序,也取得了非常不錯(cuò)的效果。

2. 多模態(tài)音頻召回方法

上面介紹的方式都是基于純音頻的表征,那是否可以聯(lián)合用戶(hù)的行為進(jìn)行metric learning呢?通過(guò)實(shí)踐,我們提出了User-Audio Embedding建模方法。user部分是利用深度模型計(jì)算的40維user embedding。audio部分的模型改用用戶(hù)喜歡的一首歌和用戶(hù)不喜歡的n首歌,與40維的user embedding做metric learning。訓(xùn)練好的audio部分模型,可對(duì)任何音頻輸入得到40維的embedding。相對(duì)于之前提到的單純audio embedding,融合了user信息的user audio embedding在音頻的召回準(zhǔn)確率上得到了進(jìn)一步的提升,這一點(diǎn)也在MIREX大獎(jiǎng)中country,rap/hip-hop/K-pop這三個(gè)流派分類(lèi)的精準(zhǔn)度,達(dá)到了歷史的最好成績(jī)。User-Audio Embedding模型也拿下了MIREX大獎(jiǎng),論文發(fā)表在ICASSP上面,有興趣的同學(xué)可以去搜這篇文章看一看。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

05

聯(lián)邦學(xué)習(xí)召回

1. 聯(lián)邦學(xué)習(xí)召回方法

聯(lián)邦學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),可在擁有本地?cái)?shù)據(jù)樣本的多個(gè)分布式邊緣設(shè)備或服務(wù)器之間訓(xùn)練算法,而無(wú)需交換數(shù)據(jù)樣本,保護(hù)數(shù)據(jù)隱私。近年隨著聯(lián)邦學(xué)習(xí)的興起,在金融等領(lǐng)域已經(jīng)有多個(gè)聯(lián)合建模的成功案例,我們也開(kāi)始尋求在大騰訊生態(tài)下引入縱向聯(lián)邦學(xué)習(xí)提升召回的準(zhǔn)確性。

聯(lián)邦學(xué)習(xí)有三個(gè)分類(lèi):

  • 橫向聯(lián)邦學(xué)習(xí),主要是業(yè)務(wù)相似或相同,它的特點(diǎn)是特征重合,多做的主要是樣本的聯(lián)合;
  • 縱向聯(lián)邦學(xué)習(xí),主要是觸達(dá)用戶(hù)的相似,它特點(diǎn)是用戶(hù)重疊多;
  • 聯(lián)邦遷移學(xué)習(xí),主要是做特征的聯(lián)合,用戶(hù)和業(yè)務(wù)均不相似,特征和用戶(hù)的重疊都比較少。
QQ音樂(lè)推薦召回算法的探索與實(shí)踐

在QQ音樂(lè)場(chǎng)景里,我們尋求縱向聯(lián)邦學(xué)習(xí)去進(jìn)一步刻畫(huà)用戶(hù)特征。QQ音樂(lè)結(jié)合其他業(yè)務(wù)場(chǎng)景的系統(tǒng)數(shù)據(jù),聯(lián)合訓(xùn)練了雙塔DSSM模型;其中QQ音樂(lè)塔,包含了歌曲相關(guān)的屬性,包括語(yǔ)種、歌手、版本等;而其他業(yè)務(wù)系統(tǒng)塔,主要包含用戶(hù)屬性、用戶(hù)的興趣偏好,興趣標(biāo)簽等。

在線(xiàn)服務(wù)中,Q音塔產(chǎn)出Item Embedding,其他業(yè)務(wù)系統(tǒng)塔產(chǎn)出User Embedding;使用Item Embedding建立索引,而User Embedding通過(guò)線(xiàn)上實(shí)時(shí)Serving預(yù)測(cè)得到后去做近鄰查詢(xún)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

2. 聯(lián)邦學(xué)習(xí)升級(jí)方案

下圖是一個(gè)雙塔的多目標(biāo)模型,QQ音樂(lè)在雙塔召回模型的基礎(chǔ)上,對(duì)模型進(jìn)行了簡(jiǎn)單升級(jí),可以結(jié)合多業(yè)務(wù)場(chǎng)景建模。采用MMoE模型對(duì)多目標(biāo)進(jìn)行學(xué)習(xí),左邊是user側(cè),引入了不同的Expert進(jìn)行學(xué)習(xí);右側(cè)是不同業(yè)務(wù)場(chǎng)景的業(yè)務(wù)數(shù)據(jù),包括QQ音樂(lè)的Item側(cè)以及業(yè)務(wù)X的Item側(cè)。這種聯(lián)合學(xué)習(xí)能夠把不同域的屬性和特點(diǎn)都融合在模型里面,進(jìn)而更精準(zhǔn)地學(xué)習(xí)用戶(hù)表征。聯(lián)邦學(xué)習(xí)的引入大幅提升用戶(hù)冷啟動(dòng)的數(shù)據(jù),例如:個(gè)性電臺(tái)、每日30首和單曲模塊等等,這些入口的冷啟動(dòng)數(shù)據(jù)都有顯著的提升,冷啟動(dòng)的人均時(shí)長(zhǎng)均有10%左右的顯著提升。這里還是要強(qiáng)調(diào):聯(lián)邦學(xué)習(xí)完全保護(hù)用戶(hù)隱私,TME嚴(yán)格遵循相關(guān)的法律法規(guī),遵循隱私保護(hù)的原則,為用戶(hù)提供更加安全和可靠的服務(wù)。

QQ音樂(lè)推薦召回算法的探索與實(shí)踐

06

精彩問(wèn)答

Q1:音樂(lè)的召回樣本是怎樣實(shí)現(xiàn)的?和排序測(cè)的樣品選擇有哪些差異,原因是什么?

A:在音樂(lè)場(chǎng)景里,有非常多的入口。每個(gè)入口的樣本分布差異很大,或者說(shuō)特征分布是不同的。比如:每日30首的用戶(hù)分布、特點(diǎn),跟電臺(tái)場(chǎng)景相比,差異很大。在最開(kāi)始的時(shí)候也提到過(guò)這個(gè)問(wèn)題,所以對(duì)于排序來(lái)講,排序側(cè)的樣本是針對(duì)每個(gè)單獨(dú)的點(diǎn)位做優(yōu)化。所以這里的樣本都選擇點(diǎn)位本身的樣本。而召回是所有入口都共用的召回模型,所以對(duì)召回模型來(lái)講,用的是大盤(pán)數(shù)據(jù),也就是用QQ音樂(lè)的整體數(shù)據(jù)做統(tǒng)一訓(xùn)練。

這樣的好處是數(shù)據(jù)會(huì)相對(duì)豐富,且能夠?qū)W習(xí)到不同圈層信息。對(duì)于深度召回樣本來(lái)講,更多使用的是完播序列樣本,另外還包含了人口統(tǒng)計(jì)的特征,以及一些收藏信息等。對(duì)于排序側(cè)的樣本就不是這樣了。

剛才講的是深度模型召回樣本的選擇。對(duì)于普通的單點(diǎn)召回,這部分主要是怎么去建圖模型。圖模型的建立目前主要是利用用戶(hù)自建歌單,這部分?jǐn)?shù)據(jù)可能有上十億的數(shù)據(jù),基于歌曲在歌單的共現(xiàn)情況,以及歌曲和用戶(hù)的互動(dòng)情況,可以構(gòu)建非常大的圖模型?;谏鲜龇绞綐?gòu)建圖模型后,就可以使用各種圖模型對(duì)節(jié)點(diǎn)進(jìn)行表征了。

Q2:在音樂(lè)場(chǎng)景下怎么去平衡一個(gè)用戶(hù)的長(zhǎng)短及興趣?

A:首先深度召回模型的輸入本身是一個(gè)相對(duì)長(zhǎng)期的序列,這部分興趣序列對(duì)用戶(hù)是比較長(zhǎng)的一段時(shí)間、整體聽(tīng)歌行為的一個(gè)刻畫(huà)。這部分刻畫(huà)相對(duì)是偏長(zhǎng)期;單點(diǎn)召回又是I對(duì)I的召回,是拿用戶(hù)最近的播放行為進(jìn)行關(guān)聯(lián),可能是一個(gè)短期相關(guān)的行為。舉個(gè)例子,某用戶(hù)最近在這一天或兩天內(nèi)收藏的歌手,會(huì)認(rèn)為是該用戶(hù)最近的強(qiáng)短期興趣,且會(huì)以這個(gè)興趣為接下來(lái)發(fā)送更多可能喜歡的、音頻相似的歌曲,或者是說(shuō)協(xié)同相似的歌曲等。

所以如果以長(zhǎng)短期興趣為維度,一個(gè)做法就是深度序列模型,更加偏長(zhǎng)期興趣刻畫(huà),單點(diǎn)召回模型會(huì)相對(duì)偏短期。另外,我們也會(huì)構(gòu)建用戶(hù)的長(zhǎng)短期畫(huà)像,基于長(zhǎng)短期的畫(huà)像,會(huì)給定一些對(duì)應(yīng)的召回路徑,去滿(mǎn)足用戶(hù)長(zhǎng)期和短期的興趣探索。當(dāng)然不只是在召回會(huì)這樣做,在排序模型里面也會(huì)加入用戶(hù)長(zhǎng)期和短期的特征,來(lái)捕捉用戶(hù)的興趣。這部分在召回的同時(shí)需要做融合,最后達(dá)到最好的結(jié)果。

Q3:多興趣的召回,每個(gè)興趣數(shù)的召回?cái)?shù)量怎么選?

A:我們做了線(xiàn)上的實(shí)驗(yàn),首先是每個(gè)興趣的個(gè)數(shù)怎么選,這部分在離線(xiàn)實(shí)驗(yàn)的時(shí)候,對(duì)比不同超參,確定不同設(shè)置對(duì)Hitrate的影響。一般來(lái)說(shuō),K選的多一點(diǎn),多樣性就會(huì)好一點(diǎn);K值過(guò)大,準(zhǔn)確性會(huì)下降。在線(xiàn)上的時(shí)候有多種選法,比如:現(xiàn)在有三個(gè)簇,每個(gè)簇都召回50首歌,即150首歌,對(duì)每個(gè)簇的Quota分配都是公平的;另一種做法是每個(gè)簇多召回一些歌曲,然后做個(gè)排序,截?cái)?50首。這里面權(quán)重大的簇,露出就會(huì)多一點(diǎn),弱勢(shì)一點(diǎn)的簇露出個(gè)數(shù)就會(huì)少一點(diǎn)。

這部分線(xiàn)上也做了實(shí)驗(yàn),把三個(gè)簇的結(jié)果融合在一起去做排序,而不是每個(gè)Quota都分配50,數(shù)據(jù)結(jié)果會(huì)相對(duì)好一點(diǎn)。但是熱門(mén)分發(fā)的份額會(huì)更多,內(nèi)容的利用率其實(shí)沒(méi)有那么高。所以現(xiàn)在采取的方式是:每個(gè)簇都給了一定的Quota,讓不同的興趣,即使權(quán)重小,也有機(jī)會(huì)進(jìn)入到排序?qū)用孢M(jìn)行公平的競(jìng)爭(zhēng)。

在多興趣召回部分展示的結(jié)果,也是基于這樣的方式;這樣的整體效果也非常不錯(cuò),多個(gè)指標(biāo)都達(dá)到了共贏。

Q4:音頻特征相關(guān)的內(nèi)容

A:音頻特征是有加到排序模型里面的,在QQ音樂(lè)排序模型里面大量運(yùn)用了音頻特征。前面也提到了,在音樂(lè)場(chǎng)景里面,音頻是比較關(guān)鍵的特征,能在一定程度上表現(xiàn)出用戶(hù)的興趣。

結(jié)合在PPT里面的分析,可以看到部分用戶(hù)或者是大部分用戶(hù),其聽(tīng)歌行為還是跟音頻信息相關(guān)。最近我們對(duì)音頻的嘗試,不管是基于歌手的音頻相似召回,還是歌曲的音頻相似召回,在數(shù)據(jù)上都有非常不錯(cuò)的表現(xiàn),表現(xiàn)在收藏率的提升。因?yàn)橛脩?hù)不太熟悉這些歌曲,或是說(shuō)它洞穿了目前的一些協(xié)同邏輯,所以給用戶(hù)帶來(lái)的驚喜性會(huì)更大。

Q5:QQ音樂(lè)技術(shù)棧是什么樣的?

A:首先QQ音樂(lè)數(shù)據(jù)是基于ClickHouse +Superset的OLAP分析計(jì)算可視化平臺(tái)架構(gòu),然后結(jié)合一些大騰訊組件,QQ音樂(lè)也做了一些開(kāi)源的組件。后面會(huì)有介紹自己的機(jī)器學(xué)習(xí)平臺(tái),在模型訓(xùn)練層面,以TensorFlow為主要的開(kāi)發(fā)方向。在數(shù)據(jù)處理上,主要還是Hive這類(lèi)的大數(shù)據(jù)處理語(yǔ)言和組件。在整體的服務(wù)層面或Serving層面需要C++和Go等技能。這也是騰訊絕大部分業(yè)務(wù)的方向。

今天的分享就到這里,謝謝大家。

本文經(jīng)授權(quán)發(fā)布,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://allfloridahomeinspectors.com/cgo/product/63389.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2022-04-06 12:13
下一篇 2022-04-06 12:23

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論
特別提示:登陸使用搜索/分類(lèi)/最新內(nèi)容推送等功能?>>