2024年12月19日 - @meandherv2@mastodon.cloudの投稿

18:18:50 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

https://github.com/hiroi-sora/Umi-OCR_plugins
逆に(?)、PuddleOCRのフロントエンド+αであるUmi-OCRには辛うじてTesseractのプラグインがある。他にも何個かあるけどちょっと寂しい感じ。

https://github.com/hiroi-sora/Umi-OCR_plugins

GitHub - hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库

18:14:07 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

https://github.com/PaddlePaddle/PaddleOCR/discussions/12174
「OCR結果を使ってなんかやる系ソフト」の中でもメジャーそうなOCRmyPDFと、OCRエンジンの中でもメジャーそうなPaddleOCRですらまだIntegrationはディスカッション段階な辺り、なんかだいぶ厳しさを感じる。

https://github.com/PaddlePaddle/PaddleOCR/discussions/12174

Integration to ocrmypdf · PaddlePaddle PaddleOCR · Discussion #12174

17:42:01 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

CATツールと機械翻訳の統合が割と参考モデルになりそう。色々相似点も多いし。

17:07:03 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

傾き補正、剪断変形、リサイズなどの場合は、実際の加工処理は他のプログラムに任せるとしても、エディタ側でちゃんとパラメータは把握して適切に座標変換しないとマージできなくなる。

16:57:39 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

GUIエディタ上で単純な加工(トリミング、傾き補正、超解像、ノイズ除去など)を行って、加工した画像に対する処理結果を元画像にマージする機能が欲しいよなー。
さらに言えば、加工処理及びOCR処理は外部の任意のプログラムを選んで使えるともっと嬉しい。けど、そもそもOCR結果を表現するデータフォーマットがあんまり標準化されてないっぽいのでこっちは根本的に厳しいか。

16:52:04 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

色の反転と手書きペンだけは認識結果を消さずにできるから一貫性も無くて謎。

16:44:40 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

レイアウト・文字認識後に画像編集をやると(例え座標変換を伴わない編集だとしても)認識結果が消えちゃうのもいただけない。

16:38:39 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

プリエディット機能も地味に充実してはいるんだけど、別にこのソフトでやる必要は無い。

16:32:31 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

うちはVer.16だけど、Ver.17ではChatGPTによる修正にも対応したそうな。 https://www.sourcenext.com/product/yomitorikakumei/
でも、この書き方を見るになんか単純に出力結果のテキストをChatGPTに投げてるだけな感じもするし、それなら自前でもできる……。
読み取り段階でChatGPTと連携して精度上げてるなら割とすごいけど。

https://www.sourcenext.com/product/yomitorikakumei/

Access Denied

16:22:24 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

文字認識後にできることとしては、
・4つの表示方法
1.テキスト表示
2.元画像に合わせてテキストボックスを配置する「領域表示」
3.元画像から文字を消したものを2.に重ね合わせる「カラーリアル表示」
4.1行ずつ元画像とプレーンテキストを見比べられる「ハイパーチェッカー」
・文字の区切り位置の修正
・元画像(文字ボックスオーバーレイ付き)を見ながらの各文字の修正(他の有力候補からの選択 OR 手動入力)
・類似する文字(選定基準は謎)の一括置換
ができる。
あとまあ単純な置換と全角半角変換もできる。

16:04:52 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

読取革命のポストエディット機能は結構良くて、レイアウト認識に関しては
・領域の削除
・指定した範囲内だけでレイアウト認識
・それでもだめなら手動で領域を設定
・領域の属性(文字、表、画像、図形、手書き)だけ修正
・領域同士の統合
・領域の順序変更
など一通りのことはできる。

15:43:27 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

手動編集用エディタとしてはeScriptorium( https://gitlab.inria.fr/scripta/escriptorium )辺りがプロプライエタリでない中ではまあまあまともそう。
参考: https://www.dhii.jp/DHM/dhm115-2

https://gitlab.inria.fr/scripta/escriptorium

scripta / eScriptorium · GitLab

https://www.dhii.jp/DHM/dhm115-2

DHM 115【後編】 | 人文情報学月報 / Digital Humanities Monthly

15:33:09 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

一部メジャーどころのフォーマットは相互に変換できたり一方向だけ変換できたり。 https://github.com/UB-Mannheim/ocr-fileformat https://github.com/cneud/ocr-conversion

https://github.com/UB-Mannheim/ocr-fileformat

GitHub - UB-Mannheim/ocr-fileformat: Validate and transform various OCR file formats (hOCR, ALTO, PAGE, FineReader)

https://github.com/cneud/ocr-conversion

GitHub - cneud/ocr-conversion: Conversions between various OCR formats

15:30:49 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

tesseractのGUIフロントエンドであるgImageReader( https://github.com/manisandro/gImageReader )は、hocrファイルの読み書きができるので、OCR後の手動修正用エディタとして使える。
ただし、そういう観点からはお世辞にも使いやすいとは言えず、それ以前にhocrで直接出力できるアプリケーションがtesseract関連以外にあんまり無い。

https://github.com/manisandro/gImageReader

GitHub - manisandro/gImageReader: A Gtk/Qt front-end to tesseract-ocr.

15:12:39 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

ざっと調べた感じ、ndlocr( https://github.com/ndl-lab/ndlocr_cli )、Manga OCR( https://github.com/kha-white/manga-ocr )、TEI P5 version 4.2.0( https://tei-c.org/Vault/P5/current/doc/tei-p5-doc/readme-4.2.0.html )辺りがルビを想定している雰囲気。
具体的にどう扱われているかは未調査。

https://github.com/ndl-lab/ndlocr_cli

GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ（ソースコードを含む）

https://github.com/kha-white/manga-ocr

GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga

https://tei-c.org/Vault/P5/current/doc/tei-p5-doc/readme-4.2.0.html

TEI P5 version 4.2.0 and Stylesheets version 7.51.0 release notes

14:54:24 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

(FFなのに)そういえば試してなかった @lithium03 さんのbunkoOCRを使ってみたら、これもなかなか良い。
一応YomiTokuや読取革命もルビを認識してくれることはある。しかし、bunkoOCRと違ってそもそもルビという概念(属性)を持ってないのか、単純に「上にある小さな文字」として出力しちゃうんだよね。順番もそれに準じた形になる。

13:03:09 ミー＆ハーVer2.0 @meandherv2@mastodon.cloud

2024-12-19 13:02:43 ミー＆ハーVer2.0の投稿 meandherv2@infosec.place

このアカウントは、notestockで公開設定になっていません。

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31