GitHub - y-tee/Apache-spark: All things spark related

Needs to duplicate Conda environment in all the other worker nodes so that occasional pandas code can run.
Conda-pack to pack up old environment to be install in new environment without internet.
Conda with spark

Steps to replicate:

After packing current conda environment from source machine(Conda-pack), go to target machine

cd /mnt/disk1/davidooi
mkdir -p andalan
tar -xzf andalan_env.tar.gz -C andalan
source bin/activate at /mnt/disk1/davidooi/andalan

source deactivate to deactivate environment

Spark Submit:

cluster-mode:
spark-submit --master yarn --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 --deploy-mode cluster --executor-cores 7 --num-executors 4 --executor-memory 16g --archives /mnt/disk1/davidooi/andalan_env.tar.gz /mnt/disk1/davidooi/spark_test2s_long.py

client-mode:
PYSPARK_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 --master yarn --deploy-mode client --archives /mnt/disk1/davidooi/andalan_env.tar.gz /mnt/disk1/davidooi/spark_test2s.py

spark-shell:
PYSPARK_DRIVER_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 PYSPARK_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 pyspark --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/mnt/disk1/davidooi/andalan/bin/python3 --master yarn --deploy-mode client --archives /mnt/disk1/davidooi/andalan_env.tar.gz

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
online course		online course
2015-Visual-Spark-API-Databricks.pdf		2015-Visual-Spark-API-Databricks.pdf
Readme.md		Readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Environment set up

Docker with jupyter:

Running docker

Docker commands

Running Spark

Data manipulation

Tuning Spark

Recommender on Apache Spark

Productionize Spark

Spark Conda Environment

Steps to replicate:

Spark Submit:

About

Releases

Packages

Languages

y-tee/Apache-spark

Folders and files

Latest commit

History

Repository files navigation

Environment set up

Docker with jupyter:

Running docker

Docker commands

Running Spark

Data manipulation

Tuning Spark

Recommender on Apache Spark

Productionize Spark

Spark Conda Environment

Steps to replicate:

Spark Submit:

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages