22:34:56
icon

(議題、というキーワードからふと連想してしまったけど…でも議事録の内容はちょっと偏りがあるかなあ?)

22:32:40
icon

議会の議事録って言語資源として使えないのかな…?

22:32:02
2023-09-25 22:31:24 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

国会の議題が公開されていても人々は見ないし、ソフトウェア開発の課題リストが公開されていても人々は見ないし、どちらも正式版がリリースされてから大騒ぎになるということなのかもしれない

22:28:16
icon

ChaSen対応は意外に簡単にできたけど…どうも漢字かな変換に癖があるな。MeCab, kakasiと比べてみたけど…なんとなく、雑にフリガナを振るならkakasiが良い気がする。まあ形態素解析器を辞書代わりに使うのと、漢字仮名交じり文を平仮名に変換することを目的としたプログラムなら、後者の方が良いのでは?というのは特に不思議な話ではないだろうし。

21:35:14
icon

出力結果をパースしないといけないのかと思ったけど、chasen、出力フォーマットを指定すれば読みだけ簡単に取れるのね…

uaa@emeraude:~$ echo "生麦生米生卵" | chasen -F "%y"
ナマムギナマヨネオタマゴ
uaa@emeraude:~$

ナマヨネオはともかくとして。

21:21:17
icon

uaa@emeraude:~$ echo "生麦生米生卵" |chasen -b -c
生麦 ナマムギ 生麦 7 0 0
生 ナマ 生 42 0 0
米生 ヨネオ 米生 11 0 0
卵 タマゴ 卵 2 0 0
EOS
uaa@emeraude:~$

…ちょ

06:59:31
icon

juman対応入れてはみたけど一晩回しても結果が出ないのは流石に遅すぎて使えないのでテスト用のブランチに放り込んで寝かせておくことにします。代わりにkakasi使用時に「ヴ」を含む文字列がちゃんと処理できなかったバグを見つけて潰せたので、無駄な作業ではなかった。

06:50:06
2023-09-25 04:27:59 KOBA789の投稿 koba789@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。