https://github.com/hiroi-sora/Umi-OCR_plugins
逆に(?)、PuddleOCRのフロントエンド+αであるUmi-OCRには辛うじてTesseractのプラグインがある。他にも何個かあるけどちょっと寂しい感じ。
https://github.com/hiroi-sora/Umi-OCR_plugins
逆に(?)、PuddleOCRのフロントエンド+αであるUmi-OCRには辛うじてTesseractのプラグインがある。他にも何個かあるけどちょっと寂しい感じ。
https://github.com/PaddlePaddle/PaddleOCR/discussions/12174
「OCR結果を使ってなんかやる系ソフト」の中でもメジャーそうなOCRmyPDFと、OCRエンジンの中でもメジャーそうなPaddleOCRですらまだIntegrationはディスカッション段階な辺り、なんかだいぶ厳しさを感じる。
傾き補正、剪断変形、リサイズなどの場合は、実際の加工処理は他のプログラムに任せるとしても、エディタ側でちゃんとパラメータは把握して適切に座標変換しないとマージできなくなる。
GUIエディタ上で単純な加工(トリミング、傾き補正、超解像、ノイズ除去など)を行って、加工した画像に対する処理結果を元画像にマージする機能が欲しいよなー。
さらに言えば、加工処理及びOCR処理は外部の任意のプログラムを選んで使えるともっと嬉しい。けど、そもそもOCR結果を表現するデータフォーマットがあんまり標準化されてないっぽいのでこっちは根本的に厳しいか。
レイアウト・文字認識後に画像編集をやると(例え座標変換を伴わない編集だとしても)認識結果が消えちゃうのもいただけない。
うちはVer.16だけど、Ver.17ではChatGPTによる修正にも対応したそうな。 https://www.sourcenext.com/product/yomitorikakumei/
でも、この書き方を見るになんか単純に出力結果のテキストをChatGPTに投げてるだけな感じもするし、それなら自前でもできる……。
読み取り段階でChatGPTと連携して精度上げてるなら割とすごいけど。
文字認識後にできることとしては、
・4つの表示方法
1.テキスト表示
2.元画像に合わせてテキストボックスを配置する「領域表示」
3.元画像から文字を消したものを2.に重ね合わせる「カラーリアル表示」
4.1行ずつ元画像とプレーンテキストを見比べられる「ハイパーチェッカー」
・文字の区切り位置の修正
・元画像(文字ボックスオーバーレイ付き)を見ながらの各文字の修正(他の有力候補からの選択 OR 手動入力)
・類似する文字(選定基準は謎)の一括置換
ができる。
あとまあ単純な置換と全角半角変換もできる。
読取革命のポストエディット機能は結構良くて、レイアウト認識に関しては
・領域の削除
・指定した範囲内だけでレイアウト認識
・それでもだめなら手動で領域を設定
・領域の属性(文字、表、画像、図形、手書き)だけ修正
・領域同士の統合
・領域の順序変更
など一通りのことはできる。
手動編集用エディタとしてはeScriptorium( https://gitlab.inria.fr/scripta/escriptorium )辺りがプロプライエタリでない中ではまあまあまともそう。
参考: https://www.dhii.jp/DHM/dhm115-2
一部メジャーどころのフォーマットは相互に変換できたり一方向だけ変換できたり。 https://github.com/UB-Mannheim/ocr-fileformat https://github.com/cneud/ocr-conversion
tesseractのGUIフロントエンドであるgImageReader( https://github.com/manisandro/gImageReader )は、hocrファイルの読み書きができるので、OCR後の手動修正用エディタとして使える。
ただし、そういう観点からはお世辞にも使いやすいとは言えず、それ以前にhocrで直接出力できるアプリケーションがtesseract関連以外にあんまり無い。
ざっと調べた感じ、ndlocr( https://github.com/ndl-lab/ndlocr_cli )、Manga OCR( https://github.com/kha-white/manga-ocr )、TEI P5 version 4.2.0( https://tei-c.org/Vault/P5/current/doc/tei-p5-doc/readme-4.2.0.html )辺りがルビを想定している雰囲気。
具体的にどう扱われているかは未調査。
(FFなのに)そういえば試してなかった @lithium03 さんのbunkoOCRを使ってみたら、これもなかなか良い。
一応YomiTokuや読取革命もルビを認識してくれることはある。しかし、bunkoOCRと違ってそもそもルビという概念(属性)を持ってないのか、単純に「上にある小さな文字」として出力しちゃうんだよね。順番もそれに準じた形になる。
このアカウントは、notestockで公開設定になっていません。