[新製品・サービス]

OCRは認識率より「人の後処理」を注視すべし、朝日生命に導入したキヤノンマーケティングの現実解

2017年3月13日(月)川上 潤司(IT Leaders編集部)

紙の書類から必要な個所を抜き出してデータ化するのに役立つOCR(光学的文字認識)技術。昨今は精度が向上しているとはいえ、元々の書類のフォーマットがばらばらだと、結局は人手がかかって業務利用が進まないという側面がある。ここに新機軸を打ち出したのが、キヤノンマーケティングジャパン(CMJ)が2017年3月に発表した「定型・非定型帳票OCRエントリーシステム」だ。

 テクノロジーの著しい進化を競争力につなげようと多くの企業が果敢な取り組みを始めている。ここで、ともすると、これまでにない事業モデルを創り出すことばかりにフォーカスしがちだが、既存の社内業務の効率性や合理性にも目を向けることを忘れてはならない。新たな攻めの仕組みを整えたところで、その多くはバックオフィスの業務とも密接に連携する。そこが旧態依然としたままだと全体のボトルネックとなりかねないからだ。

 紙ベースの帳票をやり取りし、必要に応じて人手で再入力するといった作業は今なお散見される非効率的な業務の典型例だ。例えば生命保険会社の契約申し込み手続き。最近でこそ、営業員がタブレット端末を携行し、商品説明やシミュレーション、申し込みまで一貫して電子化する試みが一般化しているが、それでも、健康診断書など社外から取り寄せる必要がある付帯書類はいまだにアナログのままで、社内プロセスとシームレスにはつながっていない。保険の支払い手続きともなると、医療診断書や手術内容報告書、診療明細書など、処理すべき紙の書類はさらに膨れ上がる。

 この領域に注目し、専用ソリューションの開発に力を注いでいるのがキヤノンマーケティングジャパン(CMJ)だ。同社はこのほど「定型・非定型帳票OCRエントリーシステム」をリリースすると共に、それが朝日生命保険に導入されたことを発表した。両社が実証実験を通じてチューニングを繰り返し、実用水準を引き上げてきた経緯がある。

 このシステムは、その名の通りにOCR(光学的文字認識)技術をベースとしている。プリント文字/手書き文字をスキャナで読み取って電子化(文字コード変換)するOCRは、かねてから各社が研究開発を進め、一定の成果を上げてきた。もっとも、認識率100%とはいかず、結局のところ人が目視でチェックしたり変換ミスを修正したりといった作業に手間ひまがかかることから、大規模で本格的な導入になかなか弾みがつかずにきた。

 紙の書類が社内に溢れているとはいえ、今やその大半はプリンタで印字されたもの。フォーマットが一律で、文字認識すべきエリアを特定できるなら精度をぐっと高められる可能性がある。しかし現実には、例えば前述の健康診断書ひとつとっても、発行する医療機関ごとにフォーマットはバラバラ。縦書き/横書きも混在している。「血圧の上の数値」を示す項目にしても「最大血圧」「収縮期血圧」といった表記揺れもあるし、過去数年の実績値が1枚の中に併記されていて読み取り対象を特定しにくいといったケースも多々ある。

図1 非定型の紙書類にまつわる様々な問題(出典:キヤノンマーケティングジャパン)
拡大画像表示

 フォーマットも語彙もバラバラな書類がはびこることに起因する社内業務のムダに、どう切り込むか──。ここでOCR技術を活かしながらも、いたずらに認識率を追求するのではなく、後工程における人によるチェック&修正の作業の効率化に焦点を当てたのがCMJの「定型・非定型帳票OCRエントリーシステム」だ。これまで蓄積してきた紙書類にまつわる実務ノウハウに基づき、「あえて“半自動”という現実的アプローチを採った」と同社は説明する。

 新システムを使った業務の流れを以下に概説しよう。データを取り込みたい紙の書類をスキャニングすると、全体のレイアウトや記載されている項目名などからOCRの対象とすべきエリアを特定し、実際に電子データ(文字コード)へと変換する。「こんな体裁をした書類ならば、データ変換すべきはここ」とシステム側が自律的に判断・処理するわけだ。同社のイメージ処理エンジン「Rosetta-Stone Components」をベースに様々なロジックをソフトウェアで組み込んでおり、現在、特許申請中にあるという。

 もちろん、すべて完璧とはいかないので、ここからは人による確認作業に移る。システム画面に表示されるOCR認識後の文字列をマウス(あるいはTABキー)操作でフォーカスすると、元の帳票のどのデータを自動変換したものなのかが明示される。プリンタ文字からの変換精度が一定水準にあることからすると、「しかるべき位置のデータを対象としているか」「字画が多く間違いやすい文字を正しく変換しているか」といった“ミスが起こりやすい個所”に集中してチェックできる。

 変換すべき場所(項目)が誤っていた場合、目的とする対象をあらためてマウスで選択すると、ただちにOCR機能が働いてデータ化される。TABキーを押してテキストボックスを移動しながら変換結果を目視でチェック。仮に間違いがあったらマウス操作で再変換する──。一連のインタフェースはシンプルながら、極めて分かやすくできている。

 ほかにも、後処理の担当者の手を煩わせないための工夫を随所に凝らしている。例えば、健康診断書に2015年と2016年の受診結果が併記されている場合、直近の2016年のデータを対象にするとロジックで自動判断するが、レイアウトによっては間違える可能性がある。一塊のデータ群のいずれかの項目で「正しくはここ(2016年の項目)を対象とすべし」とマウスで指示すれば、残るすべても2016年のデータを対象に自動的に再変換するといった具合だ。担当者が確定したデータについては、テキストデータとしてエクスポートできるほか、システム間連携の仕組みを別途作り込むことも可能である。

図2 人による後処理を合理化することに主眼を置いている(出典;キヤノンマーケティングジャパン)
拡大画像表示

 朝日生命は、保険加入時に必要となる医務査定業務に「定型・非定型帳票OCRエントリーシステム」を導入した。他聞に漏れず、従来は健康診断書をはじめ、異なるサイズやフォーマットの紙の付帯書類を大量に扱っており、データ入力や原本との付け合わせ作業などに多大な労力を費やしていた。新システムの稼働後は業務効率が大幅に向上し、契約成立までの所要時間を2割程度削減する効果が出ているという。CMJは金融機関を筆頭に、紙ベースの業務の抜本的見直しを急ぐ企業にこのシステムを展開していく計画だ。
 

関連記事

Special

-PR-

OCRは認識率より「人の後処理」を注視すべし、朝日生命に導入したキヤノンマーケティングの現実解紙の書類から必要な個所を抜き出してデータ化するのに役立つOCR(光学的文字認識)技術。昨今は精度が向上しているとはいえ、元々の書類のフォーマットがばらばらだと、結局は人手がかかって業務利用が進まないという側面がある。ここに新機軸を打ち出したのが、キヤノンマーケティングジャパン(CMJ)が2017年3月に発表した「定型・非定型帳票OCRエントリーシステム」だ。

PAGE TOP