Tamizhi 및 Kurdish 역사적 문서를위한 OCR 시스템 구축

Tamizhi 및 Kurdish 역사적 문서를위한 OCR 시스템 구축

초록 및 1. 소개

1.1 이라크와 이라크 쿠르디스탄의 인쇄기

1.2 역사적 문서의 도전

1.3 쿠르드어 언어

  1. 관련 작업 및 2.1 아랍어/페르시아어

    2.2 중국어/일본어 및 2.3 콥트

    2.4 그리스

    2.5 라틴어

    2.6 Tamizhi

  2. 방법 및 3.1 데이터 수집

    3.2 데이터 준비 및 3.3 전처리

    3.4 환경 설정, 3.5 데이터 세트 준비 및 3.6 평가

  3. 실험, 결과 및 토론 및 4.1 처리 데이터

    4.2 데이터 세트 및 4.3 실험

    4.4 결과 및 평가

    4.5 토론

  4. 결론

    5.1 도전 및 제한

    온라인 리소스, 승인 및 참조

2.6 Tamizhi

Munivel과 Enigo (2022)를 기반으로 고대 역사의 문서를 디지털화하는 것은 일반적으로 OCR을 포함합니다. 그러나 Tamizhi 문서의 OCR은 많은 캐릭터들 사이에서 형태와 구조의 고유 한 유사성과 미묘한 변화로 인해 중요한 도전을 제기합니다. 타밀 브라미 (Tamil-Brahmi)로도 알려진 타미 히 스크립트는 수많은 현대 인도 스크립트의 선구자 역할을하며 인도에서 가장 오래된 대본 중 하나로 인정 받고 있습니다. Tamizhi 스크립트를위한 OCR 시스템을 개발하는 것은 캐릭터가 단일 모음, 자음 또는이 둘의 조합으로 구성 될 수있는 결합 된 캐릭터의 풍부로 인해 매우 어렵습니다. 연구 논문에서 저자는 인쇄 된 Tamizhi 문서를 위해 특별히 설계된 OCR 시스템을 만드는 노력에 대해 논의합니다. 이 시스템은 문서의 품질 불량, 노이즈의 존재 및 입력 데이터의 다양한 형식을 포함한 다양한 요인에도 불구하고 효과적으로 수행하는 것을 목표로합니다. 저자들은 그들의 tamizhi OCR이 인쇄 된 텍스트의 91.12 %의 정확도를 달성하여 Tamizhi 캐릭터를 인식하는 유망한 결과를 보여줍니다.

요약하자면, 우리는이 연구를 발표 할 때까지 문헌은 역사적 쿠르드 문서의 OCR을 구체적으로 개발하려는 노력에 대해보고하지 않는다고 언급 할 수 있습니다. 또한 현재 액세스 가능한 데이터 세트는 역사적 쿠르드 문서에서 텍스트를 추출하도록 특별히 설계된 OCR 시스템을 훈련시킬 수 없습니다. 이는 연구에 가장 적합한 접근 방식을 선택할 때 옵션을 크게 제한합니다.

역사적 문서를 위해 특별히 맞춤화 된 OCR 시스템을 개발하기 위해 연구원들은 SVM, LSTM 및 CNN과 같은 다양한 기술과 전략을 사용했습니다. 최대 99.7% CLA에 도달 한 얻은 결과의 변동성은 몇 가지 기여 요인에 기인 할 수 있습니다. 이러한 요인에는 사용 된 데이터 세트의 품질, OCR 시스템 개발 중에 사용되는 특정 방법론 및 처리중인 문서의 본질적인 복잡성이 포함됩니다.

이 장에서 검토 된 연구는 연구원들과 공개적으로 이용 가능한 데이터 세트가 만든 독점 데이터 세트를 사용했습니다. 이러한 데이터 세트에는 TWDB, HWDB, GT4HISTOCR, Stockholm Archive, Dunhuang Data, Tripitaka, TKH, MTH 및 Kana-PRMU가 포함됩니다. 이 분야의 문헌에 따르면, 다양한 종류의 역사적 문서에 대한 OCR 기술을 개선하기위한 지속적인 노력이 있습니다.

우리의 연구를 바탕으로, 우리는 LSTM이 허용 가능한 정확도를 가진 OCR 시스템을 개발하기위한 널리 채택 된 접근법임을 확인했습니다. 결과적으로 LSTM 기능을 통합하는 최신 버전의 TesserAct를 사용하여 프로젝트 연구에서 최적의 성능을 보장했습니다. 또한 데이터 세트에서 미세 조정에 사용할 수있는 미리 훈련 된 모델의 가용성을 발견했습니다. 쿠르드족과 아랍어 스크립트의 유사성을 인식하여 아랍어 미리 훈련 된 모델을 기본 모델로 사용하기로 결정했습니다.

저자 :

(1) Kurdistan University, Kurdistan 지역의 Blnd Yaseen – 이라크 (이라크)[email protected]);

(2) 쿠르드 스탄 짖는 소리 쿠르디스탄 지역의 Hossein Hassani University- 이라크 (이라크)[email protected]).


이 논문은 Arxiv에서 사용할 수 있습니다 Attribution-Noncommercial-Noderivs 4.0 국제 라이센스에 따라.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다