Add support for parallel exports #52

anish749 · 2019-03-08T15:26:06Z

First draft for adding support for parallel exports based on an int / long splitting column.

Implements #51

anish749 · 2019-03-08T15:27:26Z

codecov · 2019-03-08T15:29:34Z

Codecov Report

❗ No coverage uploaded for pull request base (master@24872c7). Click here to learn what that means.
The diff coverage is 92.3%.

@@           Coverage Diff            @@
##             master     #52   +/-   ##
========================================
  Coverage          ?   88.9%           
  Complexity        ?     165           
========================================
  Files             ?      21           
  Lines             ?     622           
  Branches          ?      43           
========================================
  Hits              ?     553           
  Misses            ?      47           
  Partials          ?      22

labianchin · 2019-03-08T15:31:33Z

dbeam-core/src/main/java/com/spotify/dbeam/args/QueryBuilderArgs.java

-    return Lists.newArrayList(
-        String.format("SELECT * FROM %s%s%s", this.tableName(), where, limit));
+
+    if (parallelism().isPresent() && splitColumn().isPresent()) {


Maybe extract this if branch into separate method?

labianchin · 2019-03-18T09:22:28Z

dbeam-core/src/main/java/com/spotify/dbeam/args/QueryBuilderArgs.java

+      final ResultSet
+          resultSet =
+          statement.executeQuery(query);
+      resultSet.first();


[main] INFO com.spotify.dbeam.avro.BeamJdbcAvroSchema - Elapsed time to schema 0.452 seconds [main] ERROR com.spotify.dbeam.jobs.ExceptionHandling - Failure: org.postgresql.util.PSQLException: Operation requires a scrollable ResultSet, but this ResultSet is FORWARD_ONLY. at org.postgresql.jdbc.PgResultSet.checkScrollable(PgResultSet.java:280) at org.postgresql.jdbc.PgResultSet.first(PgResultSet.java:355) at com.spotify.dbeam.args.QueryBuilderArgs.findSplitLimits(QueryBuilderArgs.java:178) at com.spotify.dbeam.args.QueryBuilderArgs.buildQueries(QueryBuilderArgs.java:139) at com.spotify.dbeam.jobs.JdbcAvroJob.prepareExport(JdbcAvroJob.java:93) at com.spotify.dbeam.jobs.JdbcAvroJob.runExport(JdbcAvroJob.java:134) at com.spotify.dbeam.jobs.JdbcAvroJob.main(JdbcAvroJob.java:142)

Maybe use checkState(resultSet.next(), "Min/Max query returned empty results"); instead.

Good catch.. I'll add a check

…lism

anish749 · 2019-03-27T16:19:51Z

@labianchin this is now ready for merging. I would update the documentation and add best practices separately.

labianchin · 2019-03-28T08:30:07Z

Let's ship this, try a bit and then iterate a bit more on it. We might still be missing metrics and maybe some tests. But given this is a new feature and it does not break existing flows, we can ship and try.

* add draft support for parallel exports * separate functions for split queries * fix doc * fix logic and add test cases * add check for -ve parallelism * refactor metering for parallel exports * check result set * rename to query parallelism to not conflict with beam's targetParallelism * fix record gauge reporting * change order of e2e test * fix metering for parallel queries * add e2e test for parallel query

add draft support for parallel exports

12f8e62

anish749 requested a review from labianchin March 8, 2019 15:27

labianchin reviewed Mar 8, 2019

View reviewed changes

Anish added 4 commits March 8, 2019 18:38

separate functions for split queries

1c08af1

fix doc

ffa29ce

fix logic and add test cases

82782c1

add check for -ve parallelism

f67c4c3

anish749 mentioned this pull request Mar 15, 2019

Update readme for parallel queries #54

Merged

refactor metering for parallel exports

543a07e

labianchin reviewed Mar 18, 2019

View reviewed changes

Anish and others added 7 commits March 27, 2019 10:54

check result set

690df8f

Merge branch 'master' into parallel-exports

7a5b4cb

rename to query parallelism to not conflict with beam's targetParalle…

a5f7685

…lism

fix record gauge reporting

df8742a

change order of e2e test

5faddc0

fix metering for parallel queries

5c5bcd7

add e2e test for parallel query

ca17e97

labianchin merged commit b43d2b0 into spotify:master Mar 28, 2019

anish749 deleted the parallel-exports branch March 29, 2019 22:23

anish749 mentioned this pull request Jun 7, 2019

Support for parallel exports #51

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add support for parallel exports #52

Add support for parallel exports #52

anish749 commented Mar 8, 2019

anish749 commented Mar 8, 2019

codecov bot commented Mar 8, 2019 •

edited

Loading

labianchin Mar 8, 2019

labianchin Mar 18, 2019

anish749 Mar 18, 2019

anish749 commented Mar 27, 2019

labianchin commented Mar 28, 2019

Add support for parallel exports #52

Add support for parallel exports #52

Conversation

anish749 commented Mar 8, 2019

anish749 commented Mar 8, 2019

codecov bot commented Mar 8, 2019 • edited Loading

Codecov Report

labianchin Mar 8, 2019

Choose a reason for hiding this comment

labianchin Mar 18, 2019

Choose a reason for hiding this comment

anish749 Mar 18, 2019

Choose a reason for hiding this comment

anish749 commented Mar 27, 2019

labianchin commented Mar 28, 2019

codecov bot commented Mar 8, 2019 •

edited

Loading