[新製品・サービス]

紙書類から機械学習とOCRでデータを自動抽出するソフト―日立ソリューションズ

2017年10月5日(木)日川 佳三(IT Leaders編集部)

日立ソリューションズは2017年10月5日、取引先ごとにフォーマットが異なる請求書などの紙書類から、同じ項目のデータを自動的に抽出するためのソフト「活文 Intelligent Data Extractor」(活文IDE)を強化し、オプションでOCR(光学文字読み取り)機能を追加すると発表した。活字をOCR処理するオプションを10月6日から、手書き文字をOCR処理するオプションを12月1日から販売する。

 活文IDEは、請求書に記された日付や取引先名、支払い金額など、紙の書類に書かれているテキストデータを期待通りに抽出するソフトである。機械学習の活用によって、フォーマットが異なる書類であっても、罫線や周辺の文字情報から候補を抽出する。抽出結果が誤っていた場合は、訂正内容を学習させることで、認識精度を高められる。

図1●活文 Intelligent Data Extractorの概要(出所:日立ソリューションズ)図1●活文 Intelligent Data Extractorの概要(出所:日立ソリューションズ)
拡大画像表示

 今回、オプションで活文IDEにOCR機能を追加した。これまでは別途OCRソフトを導入して組み合わせる必要があったが、活文IDEにOCR機能を組み込んだことにより、スキャナで書類を読み込むだけで文字の認識からテキストデータの抽出までを自動的に行えるようになった。OCRオプションの種類に応じて、活字のテキストデータ化に加えて、手書き文字もテキストデータ化できる。

 価格(税別)は、活文IDEが360万円から。活字をテキストデータ化できる「活字OCRオプション」が200万円から。活字に加えて手書き文字もテキストデータ化できる「活字OCRオプション+手書きOCRオプション」が360万円から。

 背景には、領収書や申請書などのように、手書き文字を含んだ書類が膨大にあるという状況がある。これらの書類を電子データ化するためには、これまでのOCR処理では実現が難しく、また、書類ごとに読み取り位置の設定作業が必要など、さまざまな課題があり、業務効率化の障壁となっていた。活文IDEとOCR処理を組み合わせることで、読み取り位置を設定することなく書類の電子データ化ができるようになる。

関連キーワード

OCR / 機械学習

関連記事

紙書類から機械学習とOCRでデータを自動抽出するソフト―日立ソリューションズ日立ソリューションズは2017年10月5日、取引先ごとにフォーマットが異なる請求書などの紙書類から、同じ項目のデータを自動的に抽出するためのソフト「活文 Intelligent Data Extractor」(活文IDE)を強化し、オプションでOCR(光学文字読み取り)機能を追加すると発表した。活字をOCR処理するオプションを10月6日から、手書き文字をOCR処理するオプションを12月1日から販売する。

PAGE TOP