OCRの使用感・業務活用の調査
OCRに求めること
vlookupとかで処理できるように表構造を保ったまま処理したい。
活用の範囲
紙媒体を使用する業務はすべて範囲内となると思うが、データの変換精度がまだまだなところもあり、 手を加える必要があるので、データ変換後をどう扱うか、活用したいかで活用の範囲は変わる。
Acrobat 使用感
有料だが、現時点はこれが最適? 1. acrobatからhtmlなどexcel形式 2. にすると表構造が維持される。その後、google spread sheetに取り込みするとよい 3. 複雑な表構造の請求書をエクセル形式に変換した場合は、元データの鮮明さにもよるが、変換精度は感覚的に70%程度。テキストに文字化けがあったりする。数値は精度高め、アルファベットは大文字・小文字の差異が出たりした。
Google Drive 使用感
- pdf→google documentは読み取り精度はかなり低い
- 画像ファイルの場合、読み取り制度は上がる
- プレーンテキストへの変換はかなり優秀と感じる
まとめ
シンプルなテキストはgoogle driveでもいいと思うが、表構造を保ちながら変換するにはgoogle driveでは不十分。 例えば外部から送付された請求書を、acrobatを使用してエクセルやスプレッドシートにすると、数字の取得ができるようになるのでアレコレできそう。数値を扱うことが多い業務の場合は、acrobatが最適か。