18:18:50
icon

github.com/hiroi-sora/Umi-OCR_
逆に(?)、PuddleOCRのフロントエンド+αであるUmi-OCRには辛うじてTesseractのプラグインがある。他にも何個かあるけどちょっと寂しい感じ。

Web site image
GitHub - hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库
18:14:07
icon

github.com/PaddlePaddle/Paddle
「OCR結果を使ってなんかやる系ソフト」の中でもメジャーそうなOCRmyPDFと、OCRエンジンの中でもメジャーそうなPaddleOCRですらまだIntegrationはディスカッション段階な辺り、なんかだいぶ厳しさを感じる。

Web site image
Integration to ocrmypdf · PaddlePaddle PaddleOCR · Discussion #12174
17:42:01
icon

CATツールと機械翻訳の統合が割と参考モデルになりそう。色々相似点も多いし。

17:07:03
icon

傾き補正、剪断変形、リサイズなどの場合は、実際の加工処理は他のプログラムに任せるとしても、エディタ側でちゃんとパラメータは把握して適切に座標変換しないとマージできなくなる。

16:57:39
icon

GUIエディタ上で単純な加工(トリミング、傾き補正、超解像、ノイズ除去など)を行って、加工した画像に対する処理結果を元画像にマージする機能が欲しいよなー。
さらに言えば、加工処理及びOCR処理は外部の任意のプログラムを選んで使えるともっと嬉しい。けど、そもそもOCR結果を表現するデータフォーマットがあんまり標準化されてないっぽいのでこっちは根本的に厳しいか。

16:52:04
icon

色の反転と手書きペンだけは認識結果を消さずにできるから一貫性も無くて謎。

16:44:40
icon

レイアウト・文字認識後に画像編集をやると(例え座標変換を伴わない編集だとしても)認識結果が消えちゃうのもいただけない。

16:38:39
icon

プリエディット機能も地味に充実してはいるんだけど、別にこのソフトでやる必要は無い。

16:32:31
icon

うちはVer.16だけど、Ver.17ではChatGPTによる修正にも対応したそうな。 sourcenext.com/product/yomitor
でも、この書き方を見るになんか単純に出力結果のテキストをChatGPTに投げてるだけな感じもするし、それなら自前でもできる……。
読み取り段階でChatGPTと連携して精度上げてるなら割とすごいけど。

16:22:24
icon

文字認識後にできることとしては、
・4つの表示方法
1.テキスト表示
2.元画像に合わせてテキストボックスを配置する「領域表示」
3.元画像から文字を消したものを2.に重ね合わせる「カラーリアル表示」
4.1行ずつ元画像とプレーンテキストを見比べられる「ハイパーチェッカー」
・文字の区切り位置の修正
・元画像(文字ボックスオーバーレイ付き)を見ながらの各文字の修正(他の有力候補からの選択 OR 手動入力)
・類似する文字(選定基準は謎)の一括置換
ができる。
あとまあ単純な置換と全角半角変換もできる。

16:04:52
icon

読取革命のポストエディット機能は結構良くて、レイアウト認識に関しては
・領域の削除
・指定した範囲内だけでレイアウト認識
・それでもだめなら手動で領域を設定
・領域の属性(文字、表、画像、図形、手書き)だけ修正
・領域同士の統合
・領域の順序変更
など一通りのことはできる。

15:43:27
icon

手動編集用エディタとしてはeScriptorium( gitlab.inria.fr/scripta/escrip )辺りがプロプライエタリでない中ではまあまあまともそう。
参考: dhii.jp/DHM/dhm115-2

Web site image
scripta / eScriptorium · GitLab
DHM 115【後編】 | 人文情報学月報 / Digital Humanities Monthly
15:33:09
icon

一部メジャーどころのフォーマットは相互に変換できたり一方向だけ変換できたり。 github.com/UB-Mannheim/ocr-fil github.com/cneud/ocr-conversio

Web site image
GitHub - UB-Mannheim/ocr-fileformat: Validate and transform various OCR file formats (hOCR, ALTO, PAGE, FineReader)
Web site image
GitHub - cneud/ocr-conversion: Conversions between various OCR formats
15:30:49
icon

tesseractのGUIフロントエンドであるgImageReader( github.com/manisandro/gImageRe )は、hocrファイルの読み書きができるので、OCR後の手動修正用エディタとして使える。
ただし、そういう観点からはお世辞にも使いやすいとは言えず、それ以前にhocrで直接出力できるアプリケーションがtesseract関連以外にあんまり無い。

Web site image
GitHub - manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.
15:12:39
icon

ざっと調べた感じ、ndlocr( github.com/ndl-lab/ndlocr_cli )、Manga OCR( github.com/kha-white/manga-ocr )、TEI P5 version 4.2.0( tei-c.org/Vault/P5/current/doc )辺りがルビを想定している雰囲気。
具体的にどう扱われているかは未調査。

Web site image
GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)
Web site image
GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
TEI P5 version 4.2.0 and Stylesheets version 7.51.0 release notes
14:54:24
icon

(FFなのに)そういえば試してなかった @lithium03 さんのbunkoOCRを使ってみたら、これもなかなか良い。
一応YomiTokuや読取革命もルビを認識してくれることはある。しかし、bunkoOCRと違ってそもそもルビという概念(属性)を持ってないのか、単純に「上にある小さな文字」として出力しちゃうんだよね。順番もそれに準じた形になる。

13:03:09
2024-12-19 13:02:43 ミー&ハーVer2.0の投稿 meandherv2@infosec.place
icon

このアカウントは、notestockで公開設定になっていません。