向Spark DataFrame 添加常數列
嘗試使用withColumn 和常數值向DataFrame 添加新列時,用戶可能會因為資料類型不匹配而遇到錯誤。
解:
Spark 2.2 :
使用typedLit 直接賦值各種類型的常數值:
import org.apache.spark.sql.functions.typedLit df.withColumn("some_array", typedLit(Seq(1, 2, 3)))
Spark 1.3 :
from pyspark.sql.functions import lit df.withColumn('new_column', lit(10))
Spark 1.4 :
from pyspark.sql.functions import array, struct, create_map df.withColumn("some_array", array(lit(1), lit(2), lit(3)))
import org.apache.spark.sql.functions.{array, lit, map, struct} df.withColumn("new_column", lit(10)) df.withColumn("map", map(lit("key1"), lit(1), lit("key2"), lit(2)))
df.withColumn( "some_struct", struct(lit("foo").alias("x"), lit(1).alias("y"), lit(0.3).alias("z")) )
注意:
這些建構也可用來將常數參數傳遞給UDF 或SQL 函式。
以上是如何為 Spark DataFrame 新增常數列?的詳細內容。更多資訊請關注PHP中文網其他相關文章!