反爬蟲系統實戰教程【大數據培訓】

更新時間:2020-06-02 來源:黑馬程序員瀏覽量:

	大數據實戰項目\|反爬蟲系統【Lua+Spark+Redis+Hadoop框架搭建】
	中級	共19節課
	項目采用Lua+Spark+Redis+Hadoop框架搭建,包含狀態監控,反爬指標配置,運營指標監控展示等功能。提取碼：t3ld
	下載完整視頻（已有3541人下載）

視頻教程概述

課程介紹

很多訂票網站的官網在互聯網提供查詢、預訂等服務，如：各種航空公司的官網、去哪網、攜程等，有大量正常用戶訪問的同時，也存在大量爬蟲。爬蟲消耗了系統資源，但是卻沒有轉化成銷量，導致系統資源虛耗，嚴重時會造成系統波動，影響正常用戶訪問購票。大量熱門路線的好車次和航線的特價艙位吸引正常用戶通過官網訂票的同時，也存在大量惡意占座的非法代理（黃牛）。通過不斷的訂座但不支付，利用這些虛占的座位進行非法盈利，通過系統日志分析等，發現官網存在大量的非法占座會員及非會員手機號用戶。為了限制偽裝技術越來越強的爬蟲訪問和惡意占座行為，需要開發大數據防爬工具。項目采用Lua+Spark+Redis+Hadoop框架搭建,包含狀態監控,反爬指標配置,運營指標監控展示等功能。

課程內容：

1、項目整體介紹和數據采集模塊詳細介紹

2、openresty安裝和lua語法學習

3、數據采集模塊開發和反爬蟲工程創建及鏈路統計功能開發

4、數據預處理模塊：數據清洗和脫敏和打標簽及數據解析

5、"數據結構化和數據推送 spark系統監控功能開發實現反爬平臺系統監控6、爬蟲識別指標計算7、爬蟲數據備份恢復和離線計算

適用人群：

1、對大數據Spark感興趣的在校生及應屆畢業生。

2、對目前職業有進一步提升要求，希望從事大數據行業高薪工作的在職人員。

3、對大數據行業感興趣的相關人員。

課程目錄：

第一章項目概述