富士通のscansnap+ocr試してみた

scansnapって何よ、OCR機能どんだけ使えるんだよ、お思いの方は、以下のURLの記事の方が詳しいのでそれを見ていただくとして。
http://pc.watch.impress.co.jp/docs/2007/0201/pclabo38.htm
マイナーバージョンアップのPFUScanSnap S510」 - 槻ノ木隆のPC実験室

実際に買ってPDF化+OCRのテキスト認識やってみた。結果どんな感じなのかは写真の添付のとおり。問題あったら消します。


ScanSnap Managerというのがついてるので、
読み取りモード:
画質の選択:
ファイン
カラーモードの選択:
自動
読み取り面の選択:
両面読み取り

ファイル形式:
ゝテキスト認識して検索可能なPDFにします
テキスト認識する言語の選択:
日本語
テキスト認識するページの選択:
◎全ページ

ってした。

原稿は10ページカラーの後18ページモノクロ。
終了まで4分くらいかかった。
PCのスペックは以下のとおり。
Operating System: Windows XP Professional Service Pack 2
Processor: Intel(R) Pentium(R) 4 CPU 2.40GHz
Memory: 2048MB RAM
あとはウィルススキャンのAntiVirが稼動してたぐらいか。
最終的に裏でAcrobatが動いてメモリを150MB以上使ってた。
メモリ1GBくらいはいるんじゃないかな。(多分推奨環境とかそうだと思う。箱捨てたからよく分からないけど)

ざっと見てみて。
半角英語と日本語が混ざるとだめっぽいけど、予想以上にいろいろ認識してくれてる。あとはgoogleデスクトップサーチか何かを使えばPDF原稿ぐらいなら楽に検索できるようになるかな、と思った。
スキャンした原稿は大体捨てることにするからもうちょっと試すけど。

ちなみにWord(2000〜2003まで対応とか書いてあったけど、もうサポート終了だよね)に変換できる機能が付いててすげー、と思ったけど、雑誌の構成を再現しようとした結果、今回はすごく読みづらくなった。

あと、ニコニコ動画見ながらやってたら遅くなった。CPUがDualCoreだったらどうなのか興味あるけどまあいいや。