- 김현기: 베트남어 신규 데이터 수집 및 라벨링 정제, 앙상블 실험.
- 박정욱: 태국어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
- 이도영: 중국어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
- 정지윤: 일본어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
- 한승윤: 이미지 및 어노테이션 데이터 분석, 라벨링 정제, 데이터 증강.
본 경진대회는 OCR의 텍스트 검출 단계에서 데이터 중심 접근법을 활용하여 성능을 향상시키는 데 중점을 두었습니다. 모델의 구조나 파라미터 최적화 대신 데이터를 조정하고 개선하는 방법으로 문제를 해결했습니다.
- 데이터 수집, 정제 및 증강 과정을 통해 성능 점진적 향상.
- 다국어 영수증 데이터를 분석하며:
- 바코드, QR코드, 구분선 등을 처리할 라벨링 규칙 수립.
- 가설: 언어별 추가 데이터가 모델 성능을 개선할 것.
- 방법: 언어별로 50장의 추가 영수증 이미지를 수집하고 어노테이션 진행.
- 결과: 라벨링 일관성 부족으로 성능이 하락.
- 빈 Bbox 제거
성능 개선 및 오검출 감소 효과 확인. - Bbox 조정:
- 가로로 인접한 Bbox들을 통합.
- Bbox 크기를 약간 확장.
결과적으로 성능 소폭 향상, 특히 앙상블 모델에 긍정적 기여.
- 증강 기법: 회전, 가우시안 블러, 팽창 등 적용.
- 주요 결과:
- Morphological Operations에서 Dilation 적용 시 소폭 성능 향상.
- 가설: 다양한 모델의 강점을 결합하면 성능이 향상될 것.
- 방법:
- IOU와 투표 기반 전략으로 예측 결과 통합.
- 결과: IOU 0.5, 투표 기준 2 이상의 설정에서 최고 성능(F1: 0.9256) 달성.
방법 | Precision | Recall | F1 Score |
---|---|---|---|
Baseline | 0.9005 | 0.8488 | 0.8738 |
데이터 정제 | 0.9077 | 0.8536 | 0.8798 |
데이터 증강 | 0.9259 | 0.8311 | 0.8759 |
앙상블 | 0.9639 | 0.8903 | 0.9256 |
- 대회 결과: 1위 (F1 Score: 0.9256)
- 데이터 중심 접근법을 통해 OCR 텍스트 검출 성능 향상에 성공.
이번 프로젝트를 통해 데이터 중심 접근법이 OCR 모델 성능 향상에 미치는 중요성을 확인할 수 있었습니다. 데이터 정제, 증강 및 앙상블 기법을 조합해 텍스트 검출 성능을 최적화할 수 있었으며, 데이터 조정을 통해 모델 성능을 개선하는 방법을 배울 수 있었습니다.