Raw SQL Data Pipeline Spark

(also provided Traditional Chinese version document README-CH.md.)

A Spark-based data pipeline transfers data from MySQL to MySQL, using raw SQL syntax for data extraction, transformation, and loading.

Overview

Language: Python
Data Processing Framework: Spark v3.5.1

Yaml

edit connection infomation and sql query in mysql_raw_query.yaml

source:
  host: "localhost"
  port: 9030
  database: "database"
  user: "user"
  password: "password"
query: "SELECT * FROM Table1 LEFT JOIN Table2 ON Table1.table2_id = Table2.id"
sink:
  host: "localhost"
  port: 9030
  database: "database"
  user: "user"
  password: "password"
  table: "Table3"

Run

Run Docker Container

docker compose up -d

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Dockerfile		Dockerfile
README-CH.md		README-CH.md
README.md		README.md
docker-compose.yml		docker-compose.yml
mysql_raw_query.py		mysql_raw_query.py
mysql_raw_query.yaml		mysql_raw_query.yaml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Raw SQL Data Pipeline Spark

Overview

Yaml

Run

Run Docker Container

About

Releases

Packages

Languages

yuhexiong/raw-sql-data-pipeline-spark-python

Folders and files

Latest commit

History

Repository files navigation

Raw SQL Data Pipeline Spark

Overview

Yaml

Run

Run Docker Container

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages