기술소개

Technology Introduction


- OCR[optical character reader/recognition] 광학적 문자 판독

OCR은 서면문서의 스캔이미지, 카메라촬영이미지, 컴퓨터 스크린 캡처이미지에서 문자를 추출하는 기술이다.

OCR은 수많은 폰트종류 및 크기, 이미지 해상도, 기울기, 노이즈 등 수 많은 변수들로 인하여 인식률 100%의 엔진은 전 세계 어디에도 존재하지 않는다.

최근 모든 데이터가 종이가 아닌 디지털로 생산되고 있기 때문에 서면 스캔 OCR의 활용도는 갈수록 감소하고 있으며, 컴퓨터 화면에 표출되는 데이터를 추출하는 스크린 OCR의 이용이 점진적으로 증가하고 있다.

(주)비즈웍스는 스캔이미지 OCR을 배제하고 스크린 OCR 기술에 집중하여 세계 최초로 인식률 100%의 SCREEN 전용 OCR엔진 개발에 성공하였습니다.

- 웹스크래핑만을 지칭, HTML소스를 기반으로 데이터 추출
- 웹브라우저에서 제공하는 데이터라도 웹컴포넌트 및 DRM이 적용된 웹페이지는 스크래핑 불가

- 응용 프로그램 내부 데이터, 웹컴포넌트 및 DRM 적용 웹페이지, PDF문서 등 스크린에 표시된, 모든 데이터 100% 추출
- 웹스크래핑과 병행하여 완벽한 스크래핑 구현

·

ERP 등 모든 윈도우 응용 소프트웨어에 표출된 데이터 추출

·

WEB COMPONENT, DRM이 적용된 웹사이트의 데이터 추출

·

PDF 등 문서의 데이터 추출

·

로컬 프린터로 출력만 되는 데이터의 추출 (홈텍스 사이트의 각종 증명서, 건보/연금 증명서 등)