AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 6월 9, 2025 0 Comments

2025 년 10 가지 멋진 OCR 모델

저자의 이미지 | 캔버

OCR 모델은 먼 길을 왔습니다. 예전에는 느리고 결함이 있으며 거의 사용 가능한 도구가 이제 필기 노트에서 다중 언어 PDF에 이르기까지 모든 것을 읽을 수있는 빠르고 정확한 시스템으로 바뀌 었습니다. 구조화되지 않은 데이터, 자동화 구축 또는 텍스트가 포함 된 스캔 된 문서 나 이미지와 관련된 내용을 설정하는 경우 OCR이 핵심입니다.

당신은 이미 Tesseract, Easyocr, Paddleocr 및 Google Vision과 같은 일반적인 이름에 익숙 할 것입니다. 그들은 한동안 주변에 있었고 일을했습니다. 그러나 솔직히 2025 년은 다르게 느낍니다. 오늘날의 OCR 모델은 더 빠르고 정확하며 실시간 장면 텍스트 인식, 다국어 구문 분석 및 대규모 문서 분류와 같은 훨씬 더 복잡한 작업을 처리 할 수 있습니다.

2025 년에 사용해야 할 최고의 OCR 모델 목록을 제공하기 위해 연구를 수행했습니다.이 목록은 Github, 연구 논문 및 오픈 소스 및 상업 옵션을 다루는 업계 업데이트에서 제공합니다. 그래서 시작합시다.

1. minicpm-o

링크: https://huggingface.co/openbmb/minicpm-o–2_6
MINICPM-O는 최근에 가장 인상적인 OCR 모델 중 하나였습니다. OpenBMB에서 개발 한이 경량 모델 (8B 매개 변수 만)은 최대 180 만 픽셀의 모든 종횡비를 가진 이미지를 처리 할 수 있습니다. 따라서 고해상도 문서 검색에 이상적입니다. 현재 버전 2.6으로 OCRBENCH 리더 보드를 차지하고 있습니다. 이는 GPT-4O, GPT-4V 및 Gemini 1.5 Pro를 포함하여 게임에서 가장 큰 이름보다 높습니다. 또한 30 개가 넘는 언어를 지원합니다. 내가 좋아하는 또 다른 것은 효율적인 토큰 사용량 (1.8MP 이미지의 640 토큰)으로, 빠르고 모바일 또는 에지 배치에 적합합니다.

2. 인턴

링크: https://github.com/opengvlab/internvl
InternVL은 OpenGvlab에서 개발 한 강력한 오픈 소스 OCR 및 비전 언어 모델입니다. GPT-4V와 같은 폐쇄 된 모델, 특히 문서 이해, 장면 텍스트 인식 및 멀티 모달 분석과 같은 작업에 대한 강력한 대안입니다. InternVL 2.0은 고해상도 이미지 (최대 4K)를 더 작은 448×448 타일로 나누어 큰 문서에 효율적으로 처리 할 수 있습니다. 또한 8K 컨텍스트 창이 있습니다. 즉, 더 길고 복잡한 문서를 쉽게 처리 할 수 있습니다. Internvl 3은 시리즈의 최신 제품이며 더 많은 것을 취합니다. 이 버전은 더 이상 OCR에 관한 것이 아닙니다.이 버전은 공구 사용, 3D 비전, GUI 에이전트 및 산업 이미지 분석으로 확장됩니다.

3. Mistral OCR

링크: https://mistral.ai/news/mistral-ocr
Mistral OCR은 2025 년 초에 시작되었으며 문서 이해를위한 가장 신뢰할 수있는 도구 중 하나가되었습니다. Mistral AI가 제작 한 API는 PDF, 스캔 된 이미지, 테이블 및 방정식과 같은 복잡한 문서와 잘 어울립니다. 텍스트와 비주얼을 정확하게 추출하여 헝겊에 유용합니다. . Markdown과 같은 형식으로 여러 언어를 지원하고 출력 결과를 명확하게 유지하는 데 도움이됩니다. 가격은 1,000 페이지 당 $ 1에서 시작하며 배치 처리는 더 나은 가치를 제공합니다. 최근의 Mistral-AcroC-2505 업데이트는 필기 및 테이블에 대한 성능을 향상시켜 상세하거나 혼합 형식 문서로 작업하는 사람에게 강력한 선택이되었습니다.

4. QWEN2-VL

링크: https://github.com/qwenlm
Alibaba의 Qwen 시리즈의 일부인 Qwen2-VL은 2025 년 OCR 작업에 매우 유용한 강력한 오픈 소스 비전 언어 모델입니다. 2B, 7B 및 72B 매개 변수를 포함한 여러 크기로 제공되며 90 개가 넘는 언어를 지원합니다. 2.5-VL 버전은 DOCVQA 및 MathVista와 같은 벤치 마크에서 실제로 잘 작동하며 정확도로 GPT-4O에 가깝습니다. 또한 긴 비디오를 처리 할 수 있으므로 비디오 프레임 또는 다중 페이지 문서가 포함 된 워크 플로우에 편리합니다. Hugging Face에서 호스팅되므로 Python 파이프 라인에 쉽게 연결할 수 있습니다.

5. H2OVL- 미시시피

링크: https://h2o.ai/platform/mississippi/
H2O.AI의 H2OVL-Mississippi는 0.8B 및 2B의 두 가지 소형 시력 언어 모델을 제공합니다. 더 작은 0.8B 모델은 순전히 텍스트 인식에 중점을두고 있으며 실제로 특정 작업을 위해 OCRBENCH에서 InternVL2-26B와 같은 훨씬 더 큰 모델을 능가합니다. 2B 모델은 더 일반적인 목적이며 이미지 캡션 및 OCR과 함께 대답하는 시각적 질문과 같은 작업을 처리합니다. 3,700 만 개의 이미지 텍스트 쌍에 대해 교육을받은이 모델은 기기 배포에 최적화되어 엔터프라이즈 설정에서 개인 정보 보호 응용 프로그램에 이상적입니다.

6. 피렌체 -2

링크: https://h2o.ai/platform/mississippi/
H2O.AI의 H2OVL-Mississippi는 0.8B 및 2B의 두 가지 소형 시력 언어 모델을 제공합니다. 더 작은 0.8B 모델은 순전히 텍스트 인식에 중점을두고 있으며 실제로 특정 작업을 위해 OCRBENCH에서 InternVL2-26B와 같은 훨씬 더 큰 모델을 능가합니다. 2B 모델은 더 일반적인 목적이며 이미지 캡션 및 OCR과 함께 대답하는 시각적 질문과 같은 작업을 처리합니다. 3,700 만 개의 이미지 텍스트 쌍에 대해 교육을받은이 모델은 기기 배포에 최적화되어 엔터프라이즈 설정에서 개인 정보 보호 응용 프로그램에 이상적입니다.

7. Surya

링크: https://github.com/vikparuchuri/surya
Surya는 90 개 이상의 언어에서 라인 레벨 텍스트 감지 및 인식을 지원하는 파이썬 기반 OCR 툴킷입니다. 5,000 개가 넘는 Github 스타가 인기를 반영하면서 추론 시간과 정확도로 Tesseract보다 성능이 우수합니다. 문자/단어/라인 경계 박스를 출력하고 레이아웃 분석에서 탁월하여 테이블, 이미지 및 헤더와 같은 요소를 식별합니다. 이로 인해 Surya는 구조화 된 문서 처리를위한 완벽한 선택입니다.

8. MoondReam2

링크: https://huggingface.co/vikhyatk/moondream2
MoondReam2는 자원으로 제한 된 장치 용으로 설계된 20 억 파라미터 미만의 매개 변수를 가진 작고 오픈 소스 비전 언어 모델입니다. 빠르고 실시간 문서 스캐닝 기능을 제공합니다. 최근 OCRBENCH 점수를 61.2로 향상 시켰으며, 이는 인쇄 텍스트를 읽는 데 더 나은 성능을 보여줍니다. 필기는 좋지 않지만 양식, 테이블 및 기타 구조화 된 문서에 적합합니다. 1GB 크기와 Edge 장치에서 실행할 수있는 기능은 모바일 장치에서 실시간 문서 스캔과 같은 응용 프로그램에 실용적으로 선택할 수 있습니다.

9. GOT-ARC2

링크: https://github.com/ucas-haoranwei/got-ocroc2.0
GOT-ACR2 또는 일반 OCR 이론 -ACR 2.0은 평범한 텍스트, 테이블, 차트 및 방정식을 포함한 다양한 OCR 작업을 처리하도록 설계된 5 억 8 천만 개의 매개 변수를 가진 통합 된 엔드 투 엔드 모델입니다. 장면 및 문서 스타일 이미지를 지원하며 간단한 프롬프트를 통해 일반 또는 형식의 출력 (예 : Markdown, Latex)을 생성합니다. GOT-ACR2는 악보 및 분자 공식과 같은 인공 광학 신호를 처리함으로써 OCR-2.0의 경계를 넓히므로 학계 및 산업 분야의 특수 응용 분야에 이상적입니다.

10.

링크: https://www.mindee.com/platform/doctr
Mindee가 개발 한 교리는 문서 이해에 최적화 된 오픈 소스 OCR 라이브러리입니다. DB_RESNET50 및 CRNN_VGG16_BN과 같은 미리 훈련 된 모델과 함께 2 단계 접근법 (텍스트 감지 및 인식)을 사용하여 FUNSD 및 코드와 같은 데이터 세트에서 고성능을 달성합니다. 사용자 친화적 인 인터페이스에는 텍스트를 추출하기 위해 3 줄의 코드 만 필요하며 CPU 및 GPU 추론을 모두 지원합니다. 교리는 영수증 및 양식에 대한 빠르고 정확한 문서 처리가 필요한 개발자에게 이상적입니다.

마무리

이로 인해 2025 년에 볼 수있는 최고 OCR 모델 목록이 마무리됩니다. 사용 가능한 다른 많은 훌륭한 모델이 많이 있지만이 목록은 언어 모델, 파이썬 프레임 워크, 클라우드 기반 서비스 및 리소스 제약 장치를위한 가벼운 옵션과 같은 다양한 범주에서 가장 잘 중점을 둡니다. 포함해야한다고 생각하는 OCR 모델이 있으면 아래의 의견 섹션에서 이름을 공유하십시오.

Kanwal Mehreen Kanwal은 머신 러닝 엔지니어이자 데이터 과학에 대한 열정과 AI의 의학 교차점을 가진 기술 작가입니다. 그녀는 eBook “Chatgpt의 생산성을 극대화하는 것”을 공동 저술했습니다. APAC의 Google Generation Scholar 2022로서 그녀는 다양성과 학업 우수성을 챔피언시킵니다. 그녀는 또한 Tech Scholar, Mitacs Globalink Research Scholar 및 Harvard Wecode Scholar의 Teradata 다양성으로 인정 받고 있습니다. Kanwal은 STEM 분야의 여성에게 힘을 실어주기 위해 펨코드를 설립 한 변화에 대한 열렬한 옹호자입니다.

출처 참조