OTAYORI

楽天市場経済圏を彷徨うブログ

OCRの使用感・業務活用の調査

OCRに求めること

vlookupとかで処理できるように表構造を保ったまま処理したい。

活用の範囲

紙媒体を使用する業務はすべて範囲内となると思うが、データの変換精度がまだまだなところもあり、 手を加える必要があるので、データ変換後をどう扱うか、活用したいかで活用の範囲は変わる。

Acrobat 使用感

有料だが、現時点はこれが最適? 1. acrobatからhtmlなどexcel形式 2. にすると表構造が維持される。その後、google spread sheetに取り込みするとよい 3. 複雑な表構造の請求書をエクセル形式に変換した場合は、元データの鮮明さにもよるが、変換精度は感覚的に70%程度。テキストに文字化けがあったりする。数値は精度高め、アルファベットは大文字・小文字の差異が出たりした。

Google Drive 使用感

  1. pdf→google documentは読み取り精度はかなり低い
  2. 画像ファイルの場合、読み取り制度は上がる
  3. プレーンテキストへの変換はかなり優秀と感じる

まとめ

シンプルなテキストはgoogle driveでもいいと思うが、表構造を保ちながら変換するにはgoogle driveでは不十分。 例えば外部から送付された請求書を、acrobatを使用してエクセルやスプレッドシートにすると、数字の取得ができるようになるのでアレコレできそう。数値を扱うことが多い業務の場合は、acrobatが最適か。