CsvMergeExclusive class delete rows when all column values match. #471

nissy0409240 · 2024-10-22T12:10:44Z

Brief

CsvMergeExclusive class delete rows when all column values match.

Points to Check

Is there any discomfort in the corresponding parts and contents?

Test

Confirmed

Review Limit

As soon as possible.

yasuhiro-ohba · 2024-10-25T16:54:51Z

cliboa/scenario/transform/csv.py

@@ -430,6 +444,16 @@ def _read_csv_func(self, chunksize, fi, fo):
            )
            first_write = False

+    def _all_elements_match(self, df_src_list):
+        target_list = []


全てのカラムを総当たりで比較しているため、カラム数が多い場合のパフォーマンスに問題が出る可能性があります。
パフォーマンスに問題がある場合、行全体のハッシュ値を比較するなどの改善を検討して下さい。
<例>
def _all_elements_match(self, df_src_list):
# ターゲットリストの行をハッシュセットに変換
df_target_set = {hash(tuple(row)) for row in self.df_target_list}
# ソース行のハッシュがターゲットに含まれる場合のインデックスリストを取得
target_list = [i for i, row in enumerate(df_src_list) if hash(tuple(row)) in df_target_set]
return target_list

df_target_setは一度作成すればよいはずなので、この関数の外で作るとより改善が見込まれると思います。

ご確認ありがとうございます
対応しました

yasuhiro-ohba · 2024-10-25T16:59:43Z

cliboa/scenario/transform/csv.py

-        df_target = pandas.read_csv(self._target_compare_path, usecols=[self._target_column])
-        self.df_target_list = df_target[self._target_column].values.tolist()
+        if self._all_column:
+            df_target = pandas.read_csv(self._target_compare_path)


元のコードもそうなのですが、引数にdtype=strを指定するべきかもしれません。

ご確認ありがとうございます
対応しました

yasuhiro-ohba · 2024-10-30T15:44:00Z

cliboa/scenario/transform/csv.py

all_columnの分岐によりややコードの見通しが悪化しているので、リファクタリングを検討してください。
このブランチについてはマージさせていただきます。

nissy0409240 self-assigned this Oct 22, 2024

nissy0409240 linked an issue Oct 22, 2024 that may be closed by this pull request

CsvMergeExclusive class delete rows when all column values match. #470

Closed

nissy0409240 requested a review from yasuhiro-ohba October 22, 2024 12:12

yasuhiro-ohba reviewed Oct 25, 2024

View reviewed changes

CsvMergeExclusive class delete rows when all column values match.

39cee99

nissy0409240 force-pushed the 470 branch from 91b2cb7 to 39cee99 Compare October 28, 2024 12:39

yasuhiro-ohba reviewed Oct 30, 2024

View reviewed changes

yasuhiro-ohba approved these changes Oct 30, 2024

View reviewed changes

yasuhiro-ohba merged commit e8a8351 into master Oct 30, 2024
5 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

CsvMergeExclusive class delete rows when all column values match. #471

CsvMergeExclusive class delete rows when all column values match. #471

nissy0409240 commented Oct 22, 2024 •

edited

Loading

yasuhiro-ohba Oct 25, 2024 •

edited

Loading

yasuhiro-ohba Oct 25, 2024 •

edited

Loading

nissy0409240 Oct 28, 2024

yasuhiro-ohba Oct 25, 2024

nissy0409240 Oct 28, 2024

yasuhiro-ohba Oct 30, 2024

CsvMergeExclusive class delete rows when all column values match. #471

CsvMergeExclusive class delete rows when all column values match. #471

Conversation

nissy0409240 commented Oct 22, 2024 • edited Loading

Brief

Points to Check

Test

Review Limit

yasuhiro-ohba Oct 25, 2024 • edited Loading

Choose a reason for hiding this comment

yasuhiro-ohba Oct 25, 2024 • edited Loading

Choose a reason for hiding this comment

nissy0409240 Oct 28, 2024

Choose a reason for hiding this comment

yasuhiro-ohba Oct 25, 2024

Choose a reason for hiding this comment

nissy0409240 Oct 28, 2024

Choose a reason for hiding this comment

yasuhiro-ohba Oct 30, 2024

Choose a reason for hiding this comment

nissy0409240 commented Oct 22, 2024 •

edited

Loading

yasuhiro-ohba Oct 25, 2024 •

edited

Loading

yasuhiro-ohba Oct 25, 2024 •

edited

Loading