"spark를 사용하여 Spark 작업을 제출하는 경우 -submit", 추가 JAR 파일을 추가하기 위한 여러 옵션이 있습니다.
"--driver-class-path" 및 "--spark.executor.extraClassPath"와 같은 옵션이 사용됩니다. ClassPath를 수정합니다. ClassPath에 JAR을 추가하면 코드에서 해당 JAR 내의 클래스를 찾아 로드할 수 있습니다.
ClassPath 설정에서 여러 JAR 파일에 대한 구분 기호는 운영 체제에 따라 다릅니다. Linux에서는 콜론(':')이고 Windows에서는 세미콜론(';')입니다.
JAR 파일은 "--jars" 또는 "를 통해 추가됩니다. SparkContext.addJar()"는 클라이언트 모드의 모든 작업자 노드에 자동으로 배포됩니다. 클러스터 모드에서는 HDFS 또는 S3와 같은 외부 소스를 통해 모든 노드에서 JAR 파일에 액세스할 수 있는지 확인해야 합니다. "SparkContext.addFile()"은 비종속성 파일을 배포하는 데 유용합니다.
"spark-submit"은 로컬 파일 경로, HDFS를 비롯한 다양한 URI 체계를 사용하여 JAR 파일을 허용합니다. , HTTP, HTTPS 및 FTP.
추가 JAR 파일은 일반적으로 "/var/run/spark/work" 아래 작업자 노드에 있는 각 SparkContext의 작업 디렉터리에 복사됩니다. "
SparkConf에 직접 설정된 속성의 우선 순위가 가장 높고, "spark-submit"에 전달된 플래그, "spark-defaults.conf"의 옵션 순입니다.
클라이언트 모드에서는 여러 옵션을 사용하여 드라이버 노드와 작업자 노드 모두에 JAR 파일을 추가하는 것이 안전합니다. 그러나 클러스터 모드에서는 모든 작업자 노드에서 JAR 파일을 사용할 수 있도록 추가 방법을 사용해야 할 수도 있습니다.
위 내용은 'spark-submit'을 사용하여 Spark JAR 파일 종속성을 어떻게 관리합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!