发布网友 发布时间:2024-11-29 02:50
共1个回答
热心网友 时间:4分钟前
摘要:本文将介绍如何在 Spark scala 程序中调用 Python 脚本,Spark java程序调用的过程也大体相同。
Spark 提供了 PythonRunner 类,用于在 JVM 上运行的程序(Scala、Java程序)调用 Python 脚本。PythonRunner 通过 py4j 建立 GatewayServer 实例,实现与 Python 程序通过本地网络 socket 的通信。在启动 GatewayServer 后,通过 ProcessBuilder 构建子进程执行 Python 脚本,执行完成后,根据 exitCode 判断脚本执行状态,若失败抛出异常,最后关闭 GatewayServer。
PythonRunner 的 main 方法需要传入三个参数。样例代码包括 Scala 和 Python 两种示例。运行 Python 脚本时,需要设置 pythonExec,用于指定执行环境,默认为 python(Spark 2.4 及以下)或 python3(Spark 3.0 及以上)。若需手动指定 pythonExec,需设置环境变量,集群模式下通过 --conf "spark.executorEnv.PYSPARK_PYTHON=python3" 和 "spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3" 设置。驱动器端可通过 export PYSPARK_PYTHON=python3 设置。若需上传 Python 包,使用 --archive python.tar.gz 方式上传。为了使应用获取 Python 脚本文件,需要在启动命令中添加 --file pythonFile.py 将脚本上传到 yarn。运行命令示例包括使用默认执行环境或上传自定义 Python 环境的场景。