Spark Playground

Projeto de introdução ao Apache Spark para processamento de dados com uso de computação distribuída e paralela.

Description

Projeto de introdução ao Apache Spark, neste repositório iremos apresentar uma forma didática de usar o Spark para processar dados de .csv do Série Histórica de Preços de Combustíveis e de GLP (Fonte: Agência Nacional do Petŕoleo - ANP). Todos os créditos apresentados neste repositório são para: https://datawaybr.medium.com/do-zero-ao-pyspark-em-1h-4185005771e5.

Todos os dados do projeto estão localizados em ./data, esta pasta possui o arquivo .pdf dos metadados e um arquivo .csv principal.

Referência do projeto de Spark com Docker: https://medium.com/@MarinAgli1/setting-up-a-spark-standalone-cluster-on-docker-in-layman-terms-8cbdc9fdd14b

Observation

Os dados que serão usado neste repositório são os mais recentes até a data de criação deste projeto, que é de novembro de 2024.
O projeto está dividido em duas partes, primeira é a parte local, onde a aplicação spark cluster instalada em uma máquina local para processar os dados e a segunda parte é onde o spark standalone cluster está configurado em um ambiente docker e pronto para ser acessado remotamente para processar os mesmos dados do repositório. Dessa forma, podendo escolher quais alternativas podêm ser usadas em diferentes cenários.
O projeto estará usando o Spark instalado em uma máquina host por padrão.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
assets		assets
conf		conf
data		data
notebooks		notebooks
requirements		requirements
venv		venv
.env.spark		.env.spark
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
docker-compose.yml		docker-compose.yml
entrypoint.sh		entrypoint.sh
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark Playground

Description

Observation

About

Releases

Packages

Languages

Gabrieln18/spark-playground

Folders and files

Latest commit

History

Repository files navigation

Spark Playground

Description

Observation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages