首页 > 数据库 > mysql教程 > 如何在 Apache Spark 连接中包含空值?

如何在 Apache Spark 连接中包含空值?

DDD
发布: 2024-12-27 06:53:22
原创
129 人浏览过

How to Include Null Values in Apache Spark Joins?

在 Apache Spark Join 中包含空值

Apache Spark 的默认联接行为会排除具有空值的行,这对需要保存这些价值观。本文通过解释如何在 Apache Spark 连接操作中包含空值来解决此问题。

默认 Spark 行为

默认情况下,Spark 执行内部联接,这会导致消除连接条件中涉及的任一列中具有空值的行。为了说明这一点,请考虑以下示例:

val numbersDf = Seq(
  ("123"),
  ("456"),
  (null),
  ("")
).toDF("numbers")

val lettersDf = Seq(
  ("123", "abc"),
  ("456", "def"),
  (null, "zzz"),
  ("", "hhh")
).toDF("numbers", "letters")

val joinedDf = numbersDf.join(lettersDf, Seq("numbers"))
登录后复制

joinedDf.show() 的输出如下所示:

+-------+-------+
|numbers|letters|
+-------+-------+
|    123|    abc|
|    456|    def|
|       |    hhh|
+-------+-------+
登录后复制

正如预期的那样,在numberDf 的“numbers”列从连接结果中排除。

包括 Null Values

Spark 通过空安全等式运算符提供了解决此问题的方法。通过使用以下代码,可以将空值包含在联接操作中:

numbersDf
  .join(lettersDf, numbersDf("numbers") <=> lettersDf("numbers"))
  .drop(lettersDf("numbers"))
登录后复制

此修改后的联接操作会产生以下输出,其中现在包括先前排除的具有空值的行:

+-------+-------+
|numbers|letters|
+-------+-------+
|    123|    abc|
|    456|    def|
|   null|    zzz|
|       |    hhh|
+-------+-------+
登录后复制

需要注意的是,在 1.6 之前的 Spark 版本中应谨慎使用此空安全相等运算符,因为它需要昂贵的笛卡尔

Spark 2.3.0 及更高版本

在 Spark 2.3.0 及更高版本中,PySpark 中可以使用 Column.eqNullSafe 方法,而 %=< SparkR 中可以使用 ;=>% 运算符来达到相同的结果。此外,Spark 2.2.0 中可以使用 SQL 语法 IS NOT DISTINCT FROM 以及 DataFrame API 在连接操作中包含空值。

以上是如何在 Apache Spark 连接中包含空值?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板