Skip to content

Projeto playground para análise de dados com Apache Spark e Spark SQL

Notifications You must be signed in to change notification settings

Gabrieln18/spark-playground

Repository files navigation

Spark Playground

spark-banner

Projeto de introdução ao Apache Spark para processamento de dados com uso de computação distribuída e paralela.

Description

Projeto de introdução ao Apache Spark, neste repositório iremos apresentar uma forma didática de usar o Spark para processar dados de .csv do Série Histórica de Preços de Combustíveis e de GLP (Fonte: Agência Nacional do Petŕoleo - ANP). Todos os créditos apresentados neste repositório são para: https://datawaybr.medium.com/do-zero-ao-pyspark-em-1h-4185005771e5.

Todos os dados do projeto estão localizados em ./data, esta pasta possui o arquivo .pdf dos metadados e um arquivo .csv principal.

Referência do projeto de Spark com Docker: https://medium.com/@MarinAgli1/setting-up-a-spark-standalone-cluster-on-docker-in-layman-terms-8cbdc9fdd14b

Observation

  1. Os dados que serão usado neste repositório são os mais recentes até a data de criação deste projeto, que é de novembro de 2024.

  2. O projeto está dividido em duas partes, primeira é a parte local, onde a aplicação spark cluster instalada em uma máquina local para processar os dados e a segunda parte é onde o spark standalone cluster está configurado em um ambiente docker e pronto para ser acessado remotamente para processar os mesmos dados do repositório. Dessa forma, podendo escolher quais alternativas podêm ser usadas em diferentes cenários.

  3. O projeto estará usando o Spark instalado em uma máquina host por padrão.

About

Projeto playground para análise de dados com Apache Spark e Spark SQL

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published