Spark發展史：讓你了解什么是Spark？

更新時間:2020-04-23 來源:黑馬程序員瀏覽量:

Spark于2009年誕生于美國加州大學伯克利分校的AMP實驗室，它是一個可應用于大規模數據處理的統一分析引擎。Spark不僅計算速度快，而且內置了豐富的APl，使得用戶能夠更加容易地編寫程序。下面我們就來聊聊Spark的發展歷史。

Spark在2013年加入Apache孵化器項目，之后發展迅猛，并于2014年正式成為Apache軟件基金會的頂級項目。Spark從最初研發到最終成為Apache的頂級項目，其發展的整個過程僅用了5年時間目前。

目前，Spark生態系統已經發展成為一個可應用于大規模數據處理的統一分析引擎，它是基于內存計算的大數據并行計算框架，適用于各種各樣的分布式平臺系統。在Spark生態圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等組件，這些組件可以非常容易地把各種處理流程整合在一起，而這樣的整合，在實際數據分析過程中是很有意義的。不僅如此，Spark的這種特性還大大減輕了原先需要對各種平臺分別管理的依賴負擔。下面，通過一張圖描述Spark的生態系統，具體如下圖1所示。

通過上面圖片可以看出，Spark生態系統主要包含Spark Core、Spark SQL、Spark Streaming、MLib、GraphX以及獨立調度器，下面對上述組件進行一一介紹。推薦了解黑馬程序員大數據培訓課程。

（1）Spark Core：Spark核心組件，它實現了Spark的基本功能，包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。Spark Core中還包含了對彈性分布式數據集(Resilient Distributed Datasets,RDD)的API定義，RDD是只讀的分區記錄的集合，只能基于在穩定物理存儲中的數據集和其他已有的RDD上執行確定性操作來創建。

（2）Spark SQL：用來操作結構化數據的核心組件，通過Spark SQL可以直接查詢Hive、 HBase等多種外部數據源中的數據。Spark SQL的重要特點是能夠統一處理關系表和RDD在處理結構化數據時，開發人員無須編寫 MapReduce程序，直接使用SQL命令就能完成更加復雜的數據查詢操作。

（3）Spark Streaming：Spark提供的流式計算框架，支持高吞吐量、可容錯處理的實時流式數據處理，其核心原理是將流數據分解成一系列短小的批處理作業，每個短小的批處理作業都可以使用 Spark Core進行快速處理。Spark Streaming支持多種數據源，如 Kafka以及TCP套接字等。

(4)MLlib：Spark提供的關于機器學習功能的算法程序庫，包括分類、回歸、聚類、協同過濾算法等，還提供了模型評估、數據導入等額外的功能，開發人員只需了解一定的機器學習算法知識就能進行機器學習方面的開發，降低了學習成本。

(5) GraphX: Spark提供的分布式圖處理框架，擁有圖計算和圖挖掘算法的API接口以及豐富的功能和運算符，極大地方便了對分布式圖的處理需求，能在海量數據上運行復雜的圖算法。

(6)獨立調度器、Yarn、 Mesos: Spark框架可以高效地在一個到數千個節點之間伸縮計算，集群管理器則主要負責各個節點的資源管理工作，為了實現這樣的要求，同時獲得最大的靈活性， Spark支持在各種集群管理器( Cluster Manager)上運行， Hadoop Yarn、Apache Mesos以及 Spark自帶的獨立調度器都被稱為集群管理器。

Spark生態系統各個組件關系密切，并且可以相互調用，這樣設計具有以下顯著優勢。

(1) Spark生態系統包含的所有程序庫和高級組件都可以從 Spark核心引擎的改進中獲益。

(2)不需要運行多套獨立的軟件系統，能夠大大減少運行整個系統的資源代價。

(3)能夠無縫整合各個系統，構建不同處理模型的應用。

綜上所述，Spak框架對大數據的支持從內存計算、實時處理到交互式查詢，進而發展到圖計算和機器學習模塊。Spark生態系統廣泛的技術面，一方面挑戰占據大數據市場份額最大的Hadoop，另一方面又隨時準備迎接后起之秀Flink、Kafka等計算框架的挑戰，從而使Spark在大數據領域更好地發展。

猜你喜歡

什么是機器學習?

上一篇：機器學習可以應用于哪些領域？【大數據培訓】 下一篇：Spark計算框架在處理數據時有什么優勢？【大數據培訓】