Conversion de la chaîne PySpark au format de date
Vous disposez d'un DataFrame PySpark avec une colonne de chaîne au format MM-jj-aaaa et vous il faut le convertir en date column.
Solution :
Pour convertir une colonne de chaîne PySpark en colonne de date, vous pouvez utiliser la fonction to_date. Cependant, si vous utilisez une ancienne version de Spark (< 2.2), vous pouvez suivre l'approche alternative ci-dessous :
Approche alternative pour Spark < 2.2 :
Utilisez une combinaison des fonctions unix_timestamp et from_unixtime :
from pyspark.sql.functions import unix_timestamp, from_unixtime # Example DataFrame with string dates df = spark.createDataFrame( [("11/25/1991",), ("11/24/1991",), ("11/30/1991",)], ["date_str"] ) # Convert to timestamps df2 = df.select( "date_str", from_unixtime(unix_timestamp("date_str", "MM/dd/yyy")).alias("date") )
Cela créera une nouvelle colonne nommée date avec des objets date convertis à partir de la colonne chaîne.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!