東芝デジタルソリューションズ株式会社 本文へジャンプ

ヘルプ 別ウィンドウで開きます

Power of US ひとつ上のビジネスを、創る力。

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ
ビジネス・社会に貢献する、トップクラスのOCR技術
プラットフォームソリューション事業部 商品企画部 参事 岩田 義正

保険や通販の申込書、振込依頼書、税金や公共料金の伝票など、私たちの生活の中で使われているこれらの用紙(帳票)に書かれた文字を人に代わって読み取り、情報システムで扱う電子データに変換するために使われるのがOCR(Optical Character Reader:光学的文字認識装置)である。
東芝のコンピュータ事業を前身とする東芝ソリューションは、今から40年以上も前から、このOCRの開発・技術革新に取り組み続け、OCR業界ではトップクラスのランナーとして市場を牽引している。入社してから20年間、設計担当・商品企画担当と、一貫してOCRに携わってきたプラットフォームソリューション事業部 商品企画部 岩田義正に、OCRへの取り組みやその強さの源泉を聞いた。

着実な技術革新を続けるOCR

プラットフォーム ソリューション事業部 参事 岩田 義正

東芝は1967年に世界初の手書きの郵便番号を認識する、郵便番号自動読取区分機を開発した。その技術を応用し、一般の帳票読み取り用途に汎用化したことがOCRの原点である。印刷された数字やカナ文字の読み取りに始まり、手書きの数字・カナ文字さらには手書き漢字まで読み取る進化を遂げるなかで、OCRはその活躍の場面を飛躍的に拡大してきた。「現在では金融機関、官公庁、自治体、流通、医療、製造、文教など様々な業種・業界のお客様にご活用いただいています。自信を持ってお客様にご利用いただくには、やはり当社ならではの技術的な強みが欠かせません」と岩田は語る。

まずは、OCRの基本性能である、文字認識率についてみてみよう。東芝ソリューションのOCR開発チームは、「誤読ゼロへの挑戦。」をスローガンに掲げている。文字認識率はこの20年間で飛躍的に高まったとはいえ、誤読がゼロになったわけではない。例えば、住所の欄に「束京都港区」と書かれていたとしよう。人は「東京都港区」の間違いではないだろうか?と考え、判断する。私たちの中に日本の地名に関する知識が備わっており、その知識を利用するため、「束京都は東京都である」と類推できる。つまり人は「字」だけを見て、その文字を認識しているわけではない。東芝ソリューションは、この「知識処理」をOCRに活かし、OCRに予め知識を持たせておくことで、誤読を防ぐことができ、認識率を向上させている。

また、手書き数字の認識ではたとえば、「1」と「7」は書き手のクセがあるため、人が読んでも間違えやすい。そこで、「1」と「7」の判断基準となる知識サンプルをOCRに持たせることで認識率を高める工夫もしている。このように一つひとつの技術改善を重ねることで認識率を高め、最新モデルでのサンプル読取りテストでは、数字の誤読率を0.002%までに抑えることが出来た。これは、読み取り文字数100万文字に対して、わずか20文字が誤読という計算になる。

岩田は、「文字の認識は大きく分けて2つの方法があります。一つがパターンマッチング。これは記入文字とOCRが持っている文字のテンプレートを照合して判定する方法です。もう一つは構造解析。これは文字を構成する要素を見るという方法です。パターンマッチングを例にとると、文字の輪郭を重視する方法もあれば、文字を構成する線を重視する方法もあります。複数の方式を組み合わせて文字を判定するという当社独自の方式で、より間違いの少ない文字認識ができるようになりました。」と、嬉しそうに語った。



* このページは、毎日新聞社(毎日jp)との連動企画によるものです。

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

Power of US ひとつ上のビジネスを、創る力。

このページのトップへ
Copyright