Consolidation BNLC : détecte les erreurs lors du décodage d'un CSV #3586

AntoineAugusti · 2023-11-08T06:26:42Z

Traite le problème détaillé ici #3419 (comment)

Certains fichiers CSV peuvent être invalides car mal encodés, le cas vu était la présence d'un " au sein d'un champ sans être échappé.

AntoineAugusti · 2023-11-08T08:21:41Z

Je suis tombé sur un problème avec csv dans mon premier commit, ça m'a pris du temps de remonter le problème beatrichartz/csv#125

AntoineAugusti · 2023-11-08T08:25:28Z

apps/transport/lib/jobs/consolidate_bnlc_job.ex

+  defp validator_unavailable?(validation_errors) do
+    validation_errors
+    |> Enum.filter(&match?({:validator_unavailable_error, _, _}, &1))
+    |> Enum.any?()
+  end


C'est du boy scout ceci et le renommage de :validation_error vers :validator_unavailable_error

AntoineAugusti · 2023-11-08T13:41:56Z

@AurelienC Avec ce changement tu pourras conserver Châlon dans datasets.csv et ce sera indiqué qu'il y a bien une erreur lors du décodage.

vdegove

Ça me semble bien à part une micro typo dans un commentaire et une question de nommage.

Si je comprends bien, vu ton commentaire sur CSV.decode!, à la base, tu voulais gérer ça directement dans consolidate_resources (la partie append other valid resources) ? Ou pas ? En tout cas ça fait deux passes de décodage de CSV des resources d’origine, une pour vérifier la bonne conformité, l’autre pour append au fichier consolidé, donc ça rajoute un peu de temps de traitement, mais j’imagine que c’est mineur et qu’il n’y a pas de solution en une passe ?

apps/transport/lib/jobs/consolidate_bnlc_job.ex

AntoineAugusti · 2023-11-10T13:48:16Z

@vdegove Merci pour ta review, j'ai traité tes commentaires !

Si je comprends bien, vu ton commentaire sur CSV.decode!, à la base, tu voulais gérer ça directement dans consolidate_resources (la partie append other valid resources) ?

Non je voulais traiter avant consolidate_resources. Cette fonction prend normalement des choses qui sont conformes et validées et peut ensuite dérouler (lire des fichiers valides, déjà présents sur le disque, bon format etc).

transport-site/apps/transport/lib/jobs/consolidate_bnlc_job.ex

Lines 66 to 76 in 54bc471

    
           consolidate_resources(download_details) 
        
           Logger.info("Sending the email recap") 
        
           upload_temporary_file() 
        
           |> schedule_deletion() 
        
           |> send_email_recap(%{ 
        
             dataset_errors: dataset_errors, 
        
             validation_errors: validation_errors, 
        
             download_errors: download_errors 
        
           })

En tout cas ça fait deux passes de décodage de CSV des resources d’origine, une pour vérifier la bonne conformité, l’autre pour append au fichier consolidé, donc ça rajoute un peu de temps de traitement, mais j’imagine que c’est mineur et qu’il n’y a pas de solution en une passe ?

En fait ce n'était pas prévu que cette erreur arrive. Aurélien et moi avons été surpris qu'une telle erreur (unescaped double quotes in a value) passe le validateur TableSchema et on a eu un crash inattendu dans CSV.decode! dans consolidate_resources. On a donc cherché à détecter cette erreur potentielle en amont.

Je pense qu'il est possible d'avoir un seul décodage, mais pas sûr que ça vaille le coup du refactor car :

CSV.decode est fait en streaming et on veut minimiser l'usage mémoire de manière générale (on aurait pu passer tous les contenus de fichiers en mémoire mais bof)
la BNLC va faire < 10k lignes ce qui n'est pas énorme si on doit décoder 2 fois le tout en CSV
le temps d'exécution, tant qu'il est inférieur à ~30s est tout à fait acceptable au vu du travail réaliser : consolider un fichier d'une base nationale. Exécution 1 fois par jour en rythme de production, moins actuellement. On est très loin de ce temps actuellement, on est sur du 5s de mémoire

Work on it

b80762a

AntoineAugusti requested a review from AurelienC November 8, 2023 08:24

Fix Dialyzer error

b5c2e19

AntoineAugusti commented Nov 8, 2023

View reviewed changes

AntoineAugusti marked this pull request as ready for review November 8, 2023 08:25

AntoineAugusti requested a review from a team as a code owner November 8, 2023 08:25

AntoineAugusti added 2 commits November 8, 2023 09:54

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

b535110

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

85cb091

AntoineAugusti enabled auto-merge November 8, 2023 13:42

AntoineAugusti added 5 commits November 8, 2023 15:28

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

eed9510

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

da18540

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

26b4631

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

c55625b

Merge branch 'master' into consolidate_bnlc_detect_decode_errors

5ca1a20

vdegove requested changes Nov 10, 2023

View reviewed changes

apps/transport/lib/jobs/consolidate_bnlc_job.ex Outdated Show resolved Hide resolved

apps/transport/lib/jobs/consolidate_bnlc_job.ex Show resolved Hide resolved

apps/transport/lib/jobs/consolidate_bnlc_job.ex Outdated Show resolved Hide resolved

PR comments

a596594

AntoineAugusti force-pushed the consolidate_bnlc_detect_decode_errors branch from 2ad330c to a596594 Compare November 10, 2023 13:45

AntoineAugusti requested a review from vdegove November 10, 2023 13:48

vdegove approved these changes Nov 10, 2023

View reviewed changes

AntoineAugusti added this pull request to the merge queue Nov 10, 2023

Merged via the queue into master with commit 8467cf0 Nov 10, 2023

AntoineAugusti deleted the consolidate_bnlc_detect_decode_errors branch November 10, 2023 16:10

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Consolidation BNLC : détecte les erreurs lors du décodage d'un CSV #3586

Consolidation BNLC : détecte les erreurs lors du décodage d'un CSV #3586

AntoineAugusti commented Nov 8, 2023 •

edited

Loading

AntoineAugusti commented Nov 8, 2023

AntoineAugusti Nov 8, 2023

AntoineAugusti commented Nov 8, 2023

vdegove left a comment

AntoineAugusti commented Nov 10, 2023

Consolidation BNLC : détecte les erreurs lors du décodage d'un CSV #3586

Consolidation BNLC : détecte les erreurs lors du décodage d'un CSV #3586

Conversation

AntoineAugusti commented Nov 8, 2023 • edited Loading

AntoineAugusti commented Nov 8, 2023

AntoineAugusti Nov 8, 2023

Choose a reason for hiding this comment

AntoineAugusti commented Nov 8, 2023

vdegove left a comment

Choose a reason for hiding this comment

AntoineAugusti commented Nov 10, 2023

AntoineAugusti commented Nov 8, 2023 •

edited

Loading