apache spark是什麼意思?
Apache Spark是基於記憶體運算的開源的叢集運算系統,目的是讓資料分析更快速。 Spark非常小巧玲瓏,由加州柏克萊大學AMP實驗室的Matei為主的小團隊所開發。使用的語言是Scala,專案的core部分的程式碼只有63個Scala文件,非常短小精悍。
Apache Spark的5個優點:
1.更高的效能,因為資料載入到叢集主機的分散式記憶體中。資料可以被快速的轉換迭代,並且快取用以後續的頻繁存取需求。許多對Spark有興趣的朋友可能也會聽過這樣一句話——在資料全部載入到記憶體的情況下,Spark可以比Hadoop快100倍,在記憶體不夠存放所有資料的情況下快Hadoop 10倍。
2.透過建立在Java、Scala、Python、SQL(應對互動式查詢)的標準API以方便各行各業使用,同時也含有大量開箱即用的機器學習函式庫。
3.與現有Hadoop v1 (SIMR) 和2.x (YARN) 生態相容,因此機構可以進行無縫遷移。
4.方便下載和安裝。方便的shell(REPL: Read-Eval-Print-Loop)可以對API進行互動的學習。
5.借助高等級的架構提高生產力,從而可以講精力放到計算上。
同時,Apache Spark由Scala實現,程式碼非常簡潔。
以上是apache spark是什麼意思?的詳細內容。更多資訊請關注PHP中文網其他相關文章!