PySpark-String in Datumsformat konvertieren
Sie haben einen PySpark-DataFrame mit einer String-Spalte im MM-TT-JJJJ-Format und Sie Ich muss es in ein Datum umwandeln Spalte.
Lösung:
Um eine PySpark-String-Spalte in eine Datumsspalte zu konvertieren, können Sie die Funktion to_date verwenden. Wenn Sie jedoch eine ältere Version von Spark (< 2.2) verwenden, können Sie dem alternativen Ansatz unten folgen:
Alternativer Ansatz für Spark < 2.2:
Verwenden Sie eine Kombination aus den Funktionen unix_timestamp und from_unixtime:
from pyspark.sql.functions import unix_timestamp, from_unixtime # Example DataFrame with string dates df = spark.createDataFrame( [("11/25/1991",), ("11/24/1991",), ("11/30/1991",)], ["date_str"] ) # Convert to timestamps df2 = df.select( "date_str", from_unixtime(unix_timestamp("date_str", "MM/dd/yyy")).alias("date") )
Dadurch wird eine neue Spalte mit dem Namen date erstellt, wobei Datumsobjekte aus der Zeichenfolgenspalte konvertiert werden.
Das obige ist der detaillierte Inhalt vonWie konvertiere ich eine PySpark-String-Spalte in eine Datumsspalte?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!