首頁 > 後端開發 > Python教學 > python有spark庫麼

python有spark庫麼

(*-*)浩
發布: 2019-07-09 10:05:02
原創
2154 人瀏覽過

從這個名字pyspark就可以看出來,它是由python和spark組合使用的.

相信你此時已經電腦上已經裝載了hadoop,spark ,python3.

python有spark庫麼

Spark提供了一個Python_Shell,即pyspark,從而可以以互動的方式使用Python編寫Spark程式。 (推薦學習:Python影片教學

pyspark裡最核心的模組是SparkContext(簡稱sc),最重要的資料載體是RDD。 RDD就像一個NumPy array或一個Pandas Series,可以視為一個有序的item集合。只不過這些item並不存在driver端的記憶體裡,而是被分割成很多個partitions,每個partition的資料存在叢集的executor的記憶體中。

引入Python中pyspark工作模組

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。
#getOrCreate表明可以视情况新建session或利用已有的session
登入後複製

SparkSession是Spark 2.0引入的新概念。

SparkSession為使用者提供了統一的切入點,讓使用者學習spark的各項功能。在spark的早期版本中,SparkContext是spark的主要切入點,由於RDD是主要的API,我們透過sparkcontext來建立和操作RDD。對於每個其他的API,我們需要使用不同的context。

例如,對於Streming,我們需要使用StreamingContext;對於sql,使用sqlContext;對於hive,使用hiveContext。但是隨著DataSet和DataFrame的API逐漸成為標準的API,就需要為他們建立存取點。所以在spark2.0中,引進SparkSession作為DataSet和DataFrame API的切入點。

SparkSession實質上是SQLContext和HiveContext的組合(未來可能還會加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同樣是可以使用的。 SparkSession內部封裝了SparkContext,所以計算其實是由SparkContext完成的。

更多Python相關技術文章,請造訪Python教學欄位學習!

以上是python有spark庫麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板