本文へジャンプ

ニュースリリース

手書き文字認識精度を飛躍的に向上させたAI OCR文字認識サービスV2.0の
提供を開始 ~ 50年以上のOCR技術の開発ノウハウに、ディープラーニング技術を融合 ~

2020年1月30日

東芝デジタルソリューションズ株式会社

別ウィンドウで開きます マークの付いたリンクは別ウィンドウで開きます

 東芝デジタルソリューションズ株式会社(以下、当社)は、クラウド型OCR「文字認識サービス」の新バージョンとして、申請書や届出書などに記載された手書き文字列の認識精度を飛躍的に向上させた「AI OCR文字認識サービス V2.0(以下、AI OCR V2.0)」の提供を本日から開始します。ディープラーニング技術を活用した文字認識エンジンの搭載により、乱雑に書かれた手書き文字やつづけ字もさらに高精度に認識できるようになりました。

 近年、OCR(光学的文字認識)は多様化した書類のデータ化の要望に応えるため、認識精度の向上などの技術的な進化やRPA(ソフトウェアロボット)との組み合せによる業務効率化が期待されています。そのような中、当社は、機械学習などのAI技術を含む50年以上のOCR関連技術の開発成果と業務適用ノウハウを持ち注1、ハードウェア型/ソフトウェア型のOCRを長年提供しています。2019年1月からは、読み取る範囲のマウス指定や読み取る項目のキーワード登録など、簡単な操作で、活字・手書き文字の読み取り・データ化をサポートするクラウド型OCR「文字認識サービス」の提供を開始し注2、RPAと連携したサービスも提供しています注3

 今回リリースするAI OCR V2.0では、当社の長年のOCR技術と業務適用ノウハウに、当社が得意とするディープラーニング技術を組み合わせることで、手書き文字列の読み取り精度を大幅に向上しました注4。ディープラーニング技術を活用した文字認識エンジンの搭載により、これまで読み取りが難しかった乱雑に書かれた「接触文字」や「枠線にかかった文字」や、文字がつながった「つづけ字」なども、高い精度で認識できるようになり、誤認識率が従来に比べ半減しました注5
 また、当社OCR技術の強みである帳票を自動で識別し仕分ける機能をAI OCR V2.0にも搭載し、利便性を高めました。

このページのトップへ

AI OCRの主な特長 (①②はV2.0での強化点。③は従来からの特長)

ディープラーニング技術で、手書き文字列の読み取り精度向上
従来の「1文字単位」の文字認識から、ディープラーニングを活用した「複数文字単位」の文字認識にすることで、1文字単位への切り出しが難しい「接触文字」「枠線にかかった文字」「つづけ字」の認識精度を向上しました。(図1図2
帳票識別機能で一括読み取りを実現
当社製OCRスキャナ装置・OCRソフトで好評を得ている、帳票の種類(申請書や届出書など)を自動で識別し仕分けを行う「帳票識別機能」を、AI OCR V2.0にも搭載しました。事前に帳票を種類ごとに仕分ける必要がないため、さらなる業務の効率化を実現します。(図3
書類に合った読み取りモード、環境に合った運用形態を提供
読み取りモード(非定型読み取り、定型読み取り、請求書自動読み取り)と、利用形態(クラウドサービス、オンプレミス、組込み)を、お客さまの運用に応じて自由に選択することが可能で、さまざまな業務・業態に柔軟に対応できます。

 当社は、幅広いバリエーションの帳票・紙文書を、精度よく効率的に読み取れるよう、ディープラーニングの適用範囲の拡大や設定のさらなる簡素化などを進め、さまざまな業務・業態の働き方改革・利便性向上に貢献していきます。

このページのトップへ

図1 ディープラーニングを活用した「複数文字単位」の読み取りで認識精度を向上
図1 ディープラーニングを活用した「複数文字単位」の読み取りで認識精度を向上

 

図2 「接触文字」「枠線にかかった文字」「つづけ字」などの認識精度が向上
図2 「接触文字」「枠線にかかった文字」「つづけ字」などの認識精度が向上

 

図3 帳票識別機能で仕分けが不要となり、利便性が向上
図3 帳票識別機能で仕分けが不要となり、利便性が向上

このページのトップへ

以上