大數據時代精準推薦系統的關鍵技術[大數據培訓]

更新時間:2019-09-03 來源:黑馬程序員瀏覽量:

大數據環境下推薦系統框架被劃分為4層，分別為源數據采集層、數據預處理層、推薦生成層以及效用評價層。其中，在數據預處理層把采集到的相關數據進行預處理計算，其數據處理結果作為推薦系統數學形式的輸入，主要工作為用戶偏好獲取、社會化網絡構建、上下文用戶偏好獲取等;推薦生成層是推薦系統的核心，在大數據環境下，該層主要任務就是引入和充分處理大數據，并且生成實時性強、精準度高以及用戶滿意的推薦結果，目前主要的推薦技術有大數據環境下基于矩陣分解的推薦系統、基于隱式反饋的推薦系統、基于社會化推薦系統以及組推薦系統;在效用評價層，在將推薦結果呈現給用戶時，需要結合用戶的反饋數據，利用準確性、實時性、新穎性、多樣性等評價指標評價推薦系統的性能，并根據需求對其進行擴展、改進等。

今天我們重點分析下基于隱式反饋數據的推薦系統：

大數據環境下，隱式反饋數據(如用戶視頻點擊、瀏覽網頁、轉發微博、購買商品等行為數據)是主要的輸入數據形式，這類數據不需要用戶投入更多的精力，同時也不會影響用戶正常生活，收集成本低、應用場景廣泛，數據規模也更大，而用戶評分數據只有非常稀疏的數據量。這些條件決定了在大數據環境下，基于隱式反饋數據的推薦系統將成為推薦系統的主要形式之一。

傳統的推薦系統忽視了大量的隱式反饋信息，而只關注于分析用戶評分數據，這不僅浪費了寶貴的大數據資源，更限制了大數據環境下推薦系統的發展。

1567504558822_大數據4.jpg

隱式反饋數據分為“選擇”和“未選擇”兩類，其中“選擇”數據數量較少，該數據能直接反映用戶偏好;“未選擇”數據數量眾多，卻不能直接解釋為用戶不喜歡，而是無法確定用戶偏好。目前，研究者主要使用正隱式反饋數據，如Pálovics等使用用戶收聽音樂的行為數據，而浪費了大量用戶未收聽音樂的數據。針對該問題，印鑒等提出一種隱式反饋推薦模型(IFRM， implicit feedback recommendation model)，將推薦任務轉化為用戶選擇行為發生概率的最大化問題，達到直接對隱式反饋數據進行建模的目的，這樣既利用了“未選擇”信息，又避免引入負例的同時引入噪聲，提升了推薦質量。同時，借鑒了降維方法解決高維稀疏數據的噪聲問題，進一步采用分桶的并行化隱式反饋模型p-IFRM，提高了算法的效率。隱式信任數據是一種由用戶間交互行為反映的用戶關系，Fazali等使用隱式信任數據預測用戶信任值評分，實驗證明與采用用戶評分數據獲取結果相似，但其數據采集成本更低，有很好的應用前景。

相比于用戶評分數據，隱式反饋數據能直觀反映用戶的行為偏好。大數據環境下，豐富的隱式反饋數據使得短期局部用戶偏好的捕捉也成為可能，當前短期偏好可以較好預測用戶未來一個時間段內的偏好，生成實時性強的推薦結果。 Yang等提出基于局域隱式反饋大數據的推薦算法，模型利用局部和全局的隱式反饋數據，基于用戶未來短期內的音樂偏好受到當前用戶偏好影響的思想，把用戶時間劃分為多個時間切片，在每個時間切片內，綜合考慮用戶的上下文環境(如休息、工作或跑步)對用戶歌曲選擇的影響，根據當前時間切片內獲取的用戶音樂偏好預測下一個時間切片內用戶的音樂偏好，進而為用戶準確推薦歌曲，并且使用SGD優化算法，提高算法實時性，同時調節時間切片的粒度，從而獲取用戶長期穩定偏好和用戶短期易變偏好。

傳統的推薦方法在處理評分數據時有良好性能，但隱式反饋數據沒有直接的評分，不同于基于評分預測的方法，直接的基于排序的方法在處理隱式反饋數據時有更好的效果。 Zhao等把微博中提取的用戶對商品反饋信息加入排序算法，取得了良好的電子商務推薦效果。但是傳統的排序方法目標函數最小化需要付出很大代價，需要在目標采樣上犧牲一定精度來改善算法的計算效率，而大數據時這種犧牲往往不能容忍。有研究者認為，在大數據環境下，數據采樣的方式不再重要，甚至不需要采樣?；谶@樣的思想，Takács等提出RankALS，該算法不進行采樣，直接對排序目標函數最小化，提高了數據處理效率。

最后我們對推薦系統做一下展望：為了緩解更加嚴峻的“信息過載”問題，推薦系統受到工業界和學術界越來越多的關注。大數據環境下，數據規模更大，更新速度更快，數據類型更多，傳統的推薦系統無法直接滿足對大數據環境數據的處理需求，因此在相同的框架下，提出了大數據環境下的推薦系統，其對大規模數據處理能力的需求更高，對推薦結果的準確性和實時性要求也更高。同時，大規模數據也為進一步提高推薦系統的準確性提供了機遇。目前，采集的主要用戶數據是隱式反饋數據，相比于傳統推薦系統主要輸入數據——用戶評分數據，隱式反饋數據數量大、成本低，同時對用戶干擾小，其中從移動網絡中采集到的移動社會化網絡數據，尤其是用戶位置數據，有很大的使用價值。同時，大數據環境下的推薦系統應用領域還有很多亟待解決的問題，例如，如何利用大數據緩解推薦結果多樣性，如何在保護用戶隱私安全的同時充分利用大數據帶來的價值等。因此，大數據環境下推薦系統仍然有重要的研究意義和巨大的應用價值。

本位來自黑馬程序員，轉載請注明出處。

推薦了解熱門IT培訓課程
python+人工智能培訓課程
 java培訓課程

全國中心

熱門課程

大數據時代精準推薦系統的關鍵技術[大數據培訓]

最新資訊

相關閱讀

熱門課程推薦