Skip to content

hyeonrl98/level2-cv-datacentric-cv-03

 
 

Repository files navigation

OCR Competition: Data-Centric Approach to OCR Text Detection Enhancement

👥 팀원 및 역할

  • 김현기: 베트남어 신규 데이터 수집 및 라벨링 정제, 앙상블 실험.
  • 박정욱: 태국어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
  • 이도영: 중국어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
  • 정지윤: 일본어 신규 데이터 수집 및 라벨링 정제, 데이터 증강.
  • 한승윤: 이미지 및 어노테이션 데이터 분석, 라벨링 정제, 데이터 증강.


📝 경진대회 개요

본 경진대회는 OCR의 텍스트 검출 단계에서 데이터 중심 접근법을 활용하여 성능을 향상시키는 데 중점을 두었습니다. 모델의 구조나 파라미터 최적화 대신 데이터를 조정하고 개선하는 방법으로 문제를 해결했습니다.

주요 내용

  • 데이터 수집, 정제 및 증강 과정을 통해 성능 점진적 향상.


🚀 프로젝트 수행 과정

1️⃣ 데이터 평가 및 분석

  • 다국어 영수증 데이터를 분석하며:
    • 바코드, QR코드, 구분선 등을 처리할 라벨링 규칙 수립.

2️⃣ 추가 데이터 수집

  • 가설: 언어별 추가 데이터가 모델 성능을 개선할 것.
  • 방법: 언어별로 50장의 추가 영수증 이미지를 수집하고 어노테이션 진행.
  • 결과: 라벨링 일관성 부족으로 성능이 하락.

3️⃣ 라벨링 정제

주요 전략:

  1. 빈 Bbox 제거
    성능 개선 및 오검출 감소 효과 확인.
  2. Bbox 조정:
    • 가로로 인접한 Bbox들을 통합.
    • Bbox 크기를 약간 확장.
      결과적으로 성능 소폭 향상, 특히 앙상블 모델에 긍정적 기여.

4️⃣ 데이터 증강

  • 증강 기법: 회전, 가우시안 블러, 팽창 등 적용.
  • 주요 결과:
    • Morphological Operations에서 Dilation 적용 시 소폭 성능 향상.

5️⃣ 앙상블 모델

  • 가설: 다양한 모델의 강점을 결합하면 성능이 향상될 것.
  • 방법:
    • IOU와 투표 기반 전략으로 예측 결과 통합.
  • 결과: IOU 0.5, 투표 기준 2 이상의 설정에서 최고 성능(F1: 0.9256) 달성.


📊 결과 요약

방법 Precision Recall F1 Score
Baseline 0.9005 0.8488 0.8738
데이터 정제 0.9077 0.8536 0.8798
데이터 증강 0.9259 0.8311 0.8759
앙상블 0.9639 0.8903 0.9256


🏆 성과

  • 대회 결과: 1위 (F1 Score: 0.9256)
  • 데이터 중심 접근법을 통해 OCR 텍스트 검출 성능 향상에 성공.


📚 결론

이번 프로젝트를 통해 데이터 중심 접근법이 OCR 모델 성능 향상에 미치는 중요성을 확인할 수 있었습니다. 데이터 정제, 증강 및 앙상블 기법을 조합해 텍스트 검출 성능을 최적화할 수 있었으며, 데이터 조정을 통해 모델 성능을 개선하는 방법을 배울 수 있었습니다.


About

level2-cv-datacentric-cv-03 created by GitHub Classroom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%