Projeto de introdução ao Apache Spark para processamento de dados com uso de computação distribuída e paralela.
Projeto de introdução ao Apache Spark, neste repositório iremos apresentar uma forma didática de usar o Spark para processar dados de .csv do Série Histórica de Preços de Combustíveis e de GLP (Fonte: Agência Nacional do Petŕoleo - ANP). Todos os créditos apresentados neste repositório são para: https://datawaybr.medium.com/do-zero-ao-pyspark-em-1h-4185005771e5.
Todos os dados do projeto estão localizados em ./data
, esta pasta possui o arquivo .pdf dos metadados e um arquivo .csv principal.
Referência do projeto de Spark com Docker: https://medium.com/@MarinAgli1/setting-up-a-spark-standalone-cluster-on-docker-in-layman-terms-8cbdc9fdd14b
-
Os dados que serão usado neste repositório são os mais recentes até a data de criação deste projeto, que é de novembro de 2024.
-
O projeto está dividido em duas partes, primeira é a parte local, onde a aplicação spark cluster instalada em uma máquina local para processar os dados e a segunda parte é onde o spark standalone cluster está configurado em um ambiente docker e pronto para ser acessado remotamente para processar os mesmos dados do repositório. Dessa forma, podendo escolher quais alternativas podêm ser usadas em diferentes cenários.
-
O projeto estará usando o Spark instalado em uma máquina host por padrão.