Spark Playground

Projeto de introdução ao Apache Spark para processamento de dados com uso de computação distribuída e paralela.

Description

Projeto de introdução ao Apache Spark, neste repositório iremos apresentar uma forma didática de usar o Spark para processar dados de .csv do Série Histórica de Preços de Combustíveis e de GLP (Fonte: Agência Nacional do Petŕoleo - ANP). Todos os créditos apresentados neste repositório são para: https://datawaybr.medium.com/do-zero-ao-pyspark-em-1h-4185005771e5.

Todos os dados do projeto estão localizados em ./data, esta pasta possui o arquivo .pdf dos metadados e um arquivo .csv principal.

Referência do projeto de Spark com Docker: https://medium.com/@MarinAgli1/setting-up-a-spark-standalone-cluster-on-docker-in-layman-terms-8cbdc9fdd14b

Observation

Os dados que serão usado neste repositório são os mais recentes até a data de criação deste projeto, que é de novembro de 2024.
O projeto está dividido em duas partes, primeira é a parte local, onde a aplicação spark cluster instalada em uma máquina local para processar os dados e a segunda parte é onde o spark standalone cluster está configurado em um ambiente docker e pronto para ser acessado remotamente para processar os mesmos dados do repositório. Dessa forma, podendo escolher quais alternativas podêm ser usadas em diferentes cenários.
O projeto estará usando o Spark instalado em uma máquina host por padrão.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Spark Playground

Description

Observation

Files

README.md

Latest commit

History

README.md

File metadata and controls

Spark Playground

Description

Observation