SaigeOCR

SaigeOCR®
딥러닝 기반 문자인식 시스템

각종 문서부터 제품의 일련번호까지 인쇄된 문자는 거의 모든 곳에서 볼 수 있습니다. 그리고 대부분 자동화 프로세스의 첫 단계는 이런 문자를 사용가능한 데이터로 전환해 주는 것 입니다. SaigeOCR®은 최신 딥러닝 기술을 사용한 문자 인식 솔루션입니다. 자동화 검사를 위해 문자를 데이터화 해주고 비구조화된 문서에서도 문자의 위치와 문자열 정보로 필요한 데이터만 정확하게 추출해 낼 수 있습니다. 그리고 기존 OCR과 다르게 자체 개발한 알고리즘을 통해 이미지의 기하학적 정보도 분석하여 휘어지고 왜곡된 문자도 정확하게 인식할 수 있습니다.

Key Features

1. 기하학적 정보를 사용한 정확한 문자 인식

  • 기존 산업용 OCR은 문자의 위치를 파악하는데 초점을 맞춘 반면 SaigeOCR®는 문자의 위치뿐만 아니라 문자 이미지의 기하학적 정보도 추출해 회전, 왜곡, 휘어짐 등 문자인식 성능을 저하 시킬 수 있는 요소를 보정처리 후 문자 인식을 진행합니다. 이를 통해 기존에 불가능 했던 회전, 왜곡, 휘어짐이 있는 문자 이미지에도 정확한 문자인식이 가능해 집니다.
  • SaigeOCR®은 자체 개발한 매우 가벼운 네트워크를 사용하기 때문에 대규모의 검사가 필요한 제조 생산 프로세스 및 문서 검사 프로세스에서 실시간 문자인식을 진행할 수 있습니다.

2. 강력한 OCR 데이터베이스

가상 OCR 데이터 생성 기술

  • 각 산업별로 각기 다른 텍스트 형식과 인쇄 규칙을 갖고 있습니다. 예를 들어 재무재표는 표준 양식을 따르는 반면 택배운송장은 각 사업장 마다 규격화되지 않은 양식을 사용하고 있습니다.
  • SaigeOCR®은 다양한 OCR 문자 데이터를 갖고 있습니다. 당사의 OCR 문자 데이터베이스에는 실제 문자 데이터뿐만 아니라 가상 이미지 생성 기술을 활용한 가상 문자 데이터도 추가되어 있습니다. 이를 사용하여 일반 문자 이미지는 물론 회전, 왜곡, 휘어짐이 있는 문자 이미지도 빠르고 정확하게 인식할 수 있습니다.

3. 위치 및 문자열 정보를 활용한 데이터 정형화

  • 필드 위치가 고정된 문서에서 key-value 형식의 데이터 추출은 매우 쉽습니다. 그러나 영수증, 처방전, 통장사본과 같이 업체마다 다른 형식을 갖는 문서의 경우 사용자가 원하는 필드에 상응하는 데이터를 추출하는게 쉽지 않습니다.
  • SaigeOCR®은 뛰어난 OCR 성능과 위치 및 문자열 정보를 활용하는 데이터 정형화 기술을 사용하여 형식이 통일되지 않은 문서에서도 사용자가 필요로하는 필드 및 해당 값을 빠르게 key-value 방식으로 출력해 냅니다.