Wie Sie am Namen Pyspark erkennen können, handelt es sich um eine Kombination aus Python und Spark.
Ich glaube, Sie haben zu diesem Zeitpunkt bereits Hadoop und Spark auf Ihrem Computer installiert Zeit, Python3.
Spark stellt eine Python_Shell, pyspark, bereit, sodass Sie Python zum interaktiven Schreiben von Spark-Programmen verwenden können. (Empfohlenes Lernen: Python-Video-Tutorial)
Das Kernmodul in pyspark ist SparkContext (kurz sc), und der wichtigste Datenträger ist RDD. RDD ähnelt einem NumPy-Array oder einer Pandas-Serie und kann als geordnete Sammlung von Elementen betrachtet werden. Diese Elemente sind jedoch nicht im Speicher des Treibers vorhanden, sondern in viele Partitionen unterteilt, und die Daten jeder Partition werden im Speicher des Executors des Clusters gespeichert.
Einführung des Pyspark-Arbeitsmoduls in Python
import pyspark from pyspark import SparkContext as sc from pyspark import SparkConf conf=SparkConf().setAppName("miniProject").setMaster("local[*]") sc=SparkContext.getOrCreate(conf) #任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。 #getOrCreate表明可以视情况新建session或利用已有的session
SparkSession ist ein neues Konzept, das in Spark 2.0 eingeführt wurde.
SparkSession bietet Benutzern einen einheitlichen Einstiegspunkt, um verschiedene Funktionen von Spark zu erlernen. In frühen Versionen von Spark war SparkContext der Haupteinstiegspunkt von Spark. Da RDD die Haupt-API ist, erstellen und betreiben wir RDD über Sparkcontext. Für jede andere API müssen wir einen anderen Kontext verwenden.
Für Streming müssen wir beispielsweise StreamingContext verwenden, für Hive verwenden wir sqlContext; Da die DataSet- und DataFrame-APIs jedoch nach und nach zu Standard-APIs werden, müssen Zugriffspunkte für sie eingerichtet werden. Daher wird in Spark2.0 SparkSession als Einstiegspunkt der DataSet- und DataFrame-API eingeführt.
SparkSession ist im Wesentlichen eine Kombination aus SQLContext und HiveContext (StreamingContext kann in Zukunft hinzugefügt werden), sodass die für SQLContext und HiveContext verfügbaren APIs auch für SparkSession verwendet werden können. SparkSession kapselt SparkContext intern, sodass die Berechnung tatsächlich von SparkContext abgeschlossen wird.
Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonVerfügt Python über eine Spark-Bibliothek?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!