欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站SEO優(yōu)化 > 詳情

用戶(hù)流失預警模型搭建

2021-03-01 14:34:57   來(lái)源:互聯(lián)網(wǎng)   瀏覽:  次
流失用戶(hù)預警本質(zhì)上就是通過(guò)分析用戶(hù)可能流失的原因,將這些原因通過(guò)數據的形式具象出來(lái)作為原因,從而給用戶(hù)打上流失概率標簽結果的一個(gè)過(guò)程,抽象出來(lái)就是一個(gè)由特征到標簽的機器學(xué)習的分類(lèi)問(wèn)題。既然是分類(lèi)問(wèn)題,就少不了以

流失用戶(hù)預警本質(zhì)上就是通過(guò)分析用戶(hù)可能流失的原因,將這些原因通過(guò)數據的形式具象出來(lái)作為原因,從而給用戶(hù)打上流失概率標簽結果的一個(gè)過(guò)程,抽象出來(lái)就是一個(gè)由特征到標簽的機器學(xué)習的分類(lèi)問(wèn)題。

既然是分類(lèi)問(wèn)題,就少不了以下幾個(gè)關(guān)鍵的環(huán)節。

樣本選擇、數據處理

觀(guān)察期定義流失:由于機器學(xué)習需要訓練集和測試集,所以要定義一個(gè)足夠長(cháng)、樣本量足夠多的觀(guān)察期,采集觀(guān)察期內用戶(hù)的數據以及用戶(hù)流失概率的樣本作為訓練集和測試集,比如可以取過(guò)去半年以來(lái)用戶(hù)的數據作為樣本,由于用戶(hù)是否流失結果已知,可以給用戶(hù)打上流失概率的標簽,這些樣本經(jīng)過(guò)特征工程后作為分類(lèi)模型的輸入樣本,是模型學(xué)習分類(lèi)規則的重要數據來(lái)源。

表現期采集用戶(hù)行為:觀(guān)察期數據的規律已經(jīng)被模型學(xué)習到,就需要采集下一個(gè)窗口的用戶(hù)行為數據,基于此預測發(fā)生這些行為的用戶(hù)的流失概率

特征工程

緊接著(zhù)上一環(huán)節樣本的選擇,接下來(lái)就是最重要而且是最具有決定意義的環(huán)節了—特征工程,機器學(xué)習的上限是由特征工程決定的,任何形式的調優(yōu)只是無(wú)限接近這個(gè)上限。特征工程一定是基于業(yè)務(wù)的深刻理解和剖析!一定是基于對業(yè)務(wù)的深刻理解和剖析!一定是基于對業(yè)務(wù)的深刻理解和剖析!重要的事情說(shuō)三遍!機器學(xué)習的效果取決于特征工程,特征工程的關(guān)鍵在于業(yè)務(wù)的熟悉程度。只有對業(yè)務(wù)足夠熟悉,才能將可能影響用戶(hù)流失的原因準確的數字化、具象化,才能從本質(zhì)上找到原因,而不是原因的表象,進(jìn)而才能找到影響留存的關(guān)鍵特征。

舉例來(lái)說(shuō),用戶(hù)的活躍時(shí)長(cháng)看似是一個(gè)和流失非常相關(guān)的特征,但是時(shí)長(cháng)并不是用戶(hù)流失的原因,可能只是產(chǎn)品迭代后用戶(hù)找不到常用功能這個(gè)原因的表象,因為常用功能變了位置沒(méi)有找到,覺(jué)得產(chǎn)品不好用了,逐漸開(kāi)始尋找其他的替代產(chǎn)品,才導致使用時(shí)長(cháng)變短,這個(gè)才是根因,而找到根因的過(guò)程無(wú)疑是需要對業(yè)務(wù)有深刻理解的。

一般來(lái)說(shuō),我們需要考慮的特征可能有以下幾個(gè)類(lèi)別:

用戶(hù)的基本屬性:性別,年齡,收入水平,區域等,不同類(lèi)型的用戶(hù)可能流失也有所區別

用戶(hù)的產(chǎn)品行為:所處產(chǎn)品的生命周期,活躍的頻次,關(guān)鍵功能的使用頻次等,這些我們稱(chēng)之為基礎指標,基礎指標一般是流失原因的表象,和流失具有相關(guān)性,但不具備因果性,不是導致流失的關(guān)鍵特征

其他加工指標:基礎指標可能不能很好的挖掘到影響留存的關(guān)鍵特征,需要基于業(yè)務(wù)理解加工出新的指標,和基礎指標一起作為模型訓練的特征。常見(jiàn)的加工方法有:

深度指標:反應用戶(hù)使用深度的指標,用戶(hù)不僅要用,而且要用的比較深入,比如關(guān)鍵功能的使用次數,有的用戶(hù)可能只是用了一些邊緣性的功能,還未接觸到關(guān)鍵功能就流失了,這是很可惜的,所以用這個(gè)深度指標可以預測用戶(hù)是否可能流失的。

頻次指標:用戶(hù)不僅要用的深,還要用的頻繁,這個(gè)頻繁的定義依據不同的產(chǎn)品類(lèi)型而有不同的定義,有的產(chǎn)品可能需要每天都要用,甚至一天要用幾次,有的可能要求一周要用幾次,不一而足。但是可以根據產(chǎn)品的特點(diǎn)加工出一個(gè)頻次指標,比如日/周均使用次數或者日/周均使用天數,這樣用戶(hù)的使用頻次得以表征。

趨勢指標:用戶(hù)使用產(chǎn)品的趨勢變化,用戶(hù)使用的趨勢直接關(guān)系著(zhù)用戶(hù)的流失,如果一個(gè)用戶(hù)使用的越來(lái)越少了,那大概率用戶(hù)是要流失了,所以一些常見(jiàn)的趨勢指標如近三個(gè)月每周平均活躍天數的變化率,可以理解為一個(gè)斜率,如果每周的平均活躍天數在一直減少,斜率應該是負值,否則斜率應該是正值,以此表征用戶(hù)使用情況的變化趨勢。

模型選擇

特征構造完成后,就需要進(jìn)行模型的選擇了,對于分類(lèi)模型,一般常用的有邏輯回歸,決策樹(shù),SVM,XGboost等,每種模型都有各自的優(yōu)缺點(diǎn),也對特征有一定的要求,我們無(wú)需在模型選擇上花費太多精力,可以預選一些模型,帶入樣本進(jìn)行訓練,觀(guān)察不同模型的分類(lèi)效果,選取效果最好的一個(gè)作為訓練模型即可,這里的效果主要通過(guò)分類(lèi)模型的評估標準來(lái)評價(jià),比如混淆矩陣,f1值,還要考慮模型的泛化能力等。流失預警模型構造的重點(diǎn)在于特征工程,而非模型選擇,所以這部分不是重點(diǎn),不再詳細展開(kāi),需要的可以學(xué)習相關(guān)的資料。

模型訓練與預測

特征加工完成,訓練模型確定后就需要將樣本進(jìn)行訓練,并通過(guò)調參等不斷優(yōu)化模型效果,當各項指標滿(mǎn)足要求后,模型訓練完成,就可以上線(xiàn)進(jìn)行預測了,對表現期的用戶(hù)進(jìn)行預測,評估其流失的可能性,進(jìn)而進(jìn)行針對性的運營(yíng)動(dòng)作,到這里就完成了用戶(hù)流失預警模型的搭建。

欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽