2023年9月17日~2023年9月23日 - @uaa@social.mikutter.hachune.netの投稿

SASANO Takayoshi(@uaa@social.mikutter.hachune.net)の投稿

OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)

Another side: https://social.tchncs.de/@uaa

npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890

Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w

年月 Asia/Tokyo

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

2023年9月23日

2023-09-23 21:00:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-22 13:01:00 alt　@1日目東テｰ34bの投稿 altctrdel@misskey.io

このアカウントは、notestockで公開設定になっていません。

2023-09-23 18:54:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Compiling and building Palm-OS-Applications on Ubuntu 20.04 LTS (64 Bit) (07.06.2020) https://palm2000.com/projects/compilingAndBuildingPalmOsAppsOnUbuntu2004LTS.php
…なん…ですと…（やったのか……）

https://palm2000.com/projects/compilingAndBuildingPalmOsAppsOnUbuntu2004LTS.php

Compiling and bulding Palm-OS-Applications on Ubuntu 20.04 LTS (64 Bit)

2023-09-23 18:46:49 SASANO Takayoshi @uaa@social.mikutter.hachune.net

6502と68000はプログラマーの一般教養です、と言われているらしいけど（言われていないかも）、どっちも未経験なのです。

2023-09-23 18:45:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Palmくらいかなあ、手元にあったm68k機。実はメガドライブもMacintoshもX68000もSun3も未経験なんですよね…

2023-09-23 18:44:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーむ、PHEMが動いていたはずなのだがなんかうちのAndroid機で動かなくなってるぞぉ…？ https://play.google.com/store/apps/details?id=com.perpendox.phem&hl=ja

https://play.google.com/store/apps/details?id=com.perpendox.phem&hl=ja

見つかりませんでした

2023-09-23 18:41:46 SASANO Takayoshi @uaa@social.mikutter.hachune.net

イマドキの環境でgcc-2.95するのって相当難しそうな気がするんだけど、どうなんだろう。仮想マシンで動かすったって、当時のOSが仮想マシンを知らないので動きませーんというケースもあるし…

2023-09-23 18:39:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（m68kなPalmのgccって、2.95系に魔改造パッチ当ててるからあれをもう少しモダンなgccに当てるとかどう考えても労力と得るものが見合わないんじゃね？という気がしなくもなく。お金出してCodeWarrior買うにしても限界はあるだろう…出物的にも、開発環境を動かすOS的にも）

2023-09-23 18:37:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

レトロコンピューティング的に生き残りやすいかどうか、という意味で解釈してほしいです…

2023-09-23 18:37:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 18:36:47 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-23 18:37:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

LeftHackが使えるという理由でVisor Platinumを買った身には、これが使えないPalmには「…」と感じてしまうのだけども。

（スタイラスは意地でも左持ち、普通の鉛筆などの筆記具は右持ちなんですけど）

2023-09-23 18:35:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

やっぱり今後はARM系のPalmOSの方が生き残るかな…m68kは開発環境がかなり特殊だし…

2023-09-23 18:34:30 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 18:32:59 mitsukiの投稿 mitsuki64@fedibird.com

PalmOS 5.2.8だとTungsten T3あたりのGraffitiエリアが仮想化(液晶で表示)するようになったあたりかな。
元々ARM化されてるはずだけどなんでJIT？と思ったら、CortexM0+はThumb2 subsetしかないけど、PalmOSはARM32とThumb1の混在なので動かないのか、しらなかった。まあどのみちI/Oのエミュレーションとかは必要だろうけど。
http://dmitry.gr/?r=05.Projects&proj=27.%20rePalm

http://dmitry.gr/?r=05.Projects&proj=27.%20rePalm

rePalm - Dmitry.GR

2023-09-23 18:34:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

自作キーボード沼が、口をあんぐりとあけてそこに存在してるんですが…（怖

2023-09-23 18:32:42 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 18:10:38 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io

このアカウントは、notestockで公開設定になっていません。

2023-09-23 18:31:51 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-16 14:33:09 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io

このアカウントは、notestockで公開設定になっていません。

2023-09-23 17:39:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

もーやだーかえるー（流石にこんな面倒なのは関わりたくないからそっ閉じ）

2023-09-23 17:38:30 SASANO Takayoshi @uaa@social.mikutter.hachune.net

もしかしてさあ…Juman.pmって…Cのバインディングとかそういうのじゃなく、いちいち/usr/bin/juman呼び出してその結果を受け取るとかそういう奴…？（めんどくさ…） https://github.com/ku-nlp/juman/blob/master/perl/lib/Juman.pm

https://github.com/ku-nlp/juman/blob/master/perl/lib/Juman.pm

2023-09-23 15:40:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

静岡県庁「やさしい日本語」の手引き(平成30年2月) https://www.moj.go.jp/isa/content/930005563.pdf ここに「日本語読解学習支援システムリーディングチュウ太」http://language.tiu.ac.jp なるサイトがあるけど繋がらない…検索エンジンだと https://chuta.cegloc.tsukuba.ac.jp/ になるけど、こちらも繋がらない。

https://www.moj.go.jp/isa/content/930005563.pdf

http://language.tiu.ac.jp

Not Found

http://language.tiu.ac.jp

Not Found

2023-09-23 14:54:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 14:54:10 weepjp 🟣の投稿 weepjp@fedibird.com

このアカウントは、notestockで公開設定になっていません。

2023-09-23 14:45:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

人手を介して構築されたコーパスだと多分「開いた口が塞がらない」→「あいたくちがふさがらない」になるんだろうけど、機械的にやるとこの辺が限界なんだろうなあ。

2023-09-23 14:42:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ががが助詞 9 格助詞 1 * 0 * 0 NIL
塞がらふさがら塞がる動詞 2 * 0 子音動詞ラ行 10 未然形 3 "代表表記:塞がる/ふさがる自他動詞:他:塞ぐ/ふさぐ反義:動詞:空く/あく"
ないないない接尾辞 14 形容詞性述語接尾辞 5 イ形容詞アウオ段 18 基本形 2 "代表表記:ない/ない"
EOS
uaa@DESKTOP-251U0UF:~$

2023-09-23 14:42:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@DESKTOP-251U0UF:~$ echo "開いた口が塞がらない" | juman
開いたあいた開く動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:開く/あく自他動
詞:他:開ける/あける反義:動詞:閉じる/とじる;動詞:閉まる/しまる"
@ 開いたひらいた開く動詞 2 * 0 子音動詞カ行 2 タ形 10 "代表表記:開く/ひらく
自他動詞:同形反義:動詞:閉じる/とじる"
口くち口名詞 6 普通名詞 1 * 0 * 0 "代表表記:口/くち漢字読み:訓カテゴリ:動物-部位;抽象物;形・模様"
@ 口こう口名詞 6 普通名詞 1 * 0 * 0 "代表表記:口/こう漢字読み:音カテゴリ:抽象物"

2023-09-23 14:41:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

「開いた口が塞がらない」、これkakasiもjumanもmecabも「ひらいたくちがふさがらない」になっちゃいますね…

uaa@DESKTOP-251U0UF:~$ echo "開いた口が塞がらない" |nkf -e |kakasi -ieuc -KH -JH | nkf -w
ひらいたくちがふさがらない
uaa@DESKTOP-251U0UF:~$ echo "開いた口が塞がらない" | mecab -Oyomi
ヒライタクチガフサガラナイ
uaa@DESKTOP-251U0UF:~$

2023-09-23 14:37:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

りそう/理想を/をいえば/言えばよみがな/よみがなへんかん/変換こうほ/候補な/なすたいる/スタイルで/でけいたいそ/形態素かいせき/解析すみ/済な/なげんご/言語しげん/資源を/をげんご/言語もでる/モデルこうちく/構築つーる/ツールを/をつかって/使ってを/をつくる/作るってのが/ってのがべすと/ベストなんだよね/なんだよねその/そのしゅほう/手法を/をとらない/採らないとれない/採れないのは/のはたんじゅん/単純に/にすとれーじ/ストレージようりょう/容量の/のもんだい/問題

…って感じに文章が膨れ上がる（句読点及び英数は除いてます）。

2023-09-23 14:32:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

理想を言えば、よみがな/変換候補なスタイルで形態素解析済な言語資源を言語モデル構築ツールを使ってdata.arpaを作るってのがベストなんだよね。その手法を採らない（採れない）のは、単純にストレージ容量の問題。

2023-09-23 14:29:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 14:17:26 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

言語モデル構築Toolメモ - Negative/Positive Thinking
https://jetbead.hatenablog.com/entry/20120331/1333159045

https://jetbead.hatenablog.com/entry/20120331/1333159045

言語モデル構築Toolメモ

2023-09-23 14:14:02 SASANO Takayoshi @uaa@social.mikutter.hachune.net

msrlmのビルド、エラーが多いな。2007年に作られたソフトウェアでgcc-3.4.3/Cygwin, gcc-4.4.4/Linux, VS2010を想定しているというから、適当にメンテナンスをすれば使えるとは思うんだけど（GitHub辺りでやれば良いのに…）。 https://www.microsoft.com/en-us/download/details.aspx?id=52542

https://www.microsoft.com/en-us/download/details.aspx?id=52542

Microsoft

2023-09-23 12:57:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

e-mailの信頼度って、ドメインのつよつよ度と一致するような。

（やっぱ.govとか.milとか…ぉぃ）

2023-09-23 12:55:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-23 12:53:12 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-23 12:05:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

jumanはkakasi/MeCabのようにお手軽には扱えそうにない感じ。放置で良いかな…？

2023-09-23 11:12:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーん、Debianにapt-get install juman juman-dicしてjumanに文字列を食わせてはみたんだが…何食わせても変換せずにEOSだけ返すという現象に遭遇中。WSL上のUbuntuはちゃんと動くんだけどなあ。

2023-09-23 05:23:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そうなんだよあ、あの界隈は奴（鬼籍に入っている）が居るから今更とはいえ参入するのは、というのは…別に気にすることでもないし気にしたら負けなんだろうけど。

前の日 2023年9月23日次の日

2023年9月22日

2023-09-22 22:54:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とりあえず問題点は明らかになったので明日続きやろう…

2023-09-22 22:53:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

wchar_t使ってると、もうUnicodeで良くね？って気分にはなりますねー

2023-09-22 22:51:50 SASANO Takayoshi @uaa@social.mikutter.hachune.net

一応kakasiってUTF-8食えるってことになってたはずなんだが…コマンドラインなら動くけどlibkakasiじゃダメとかそういう話だったりする？

2023-09-22 22:51:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語ウェブコーパス2010→libkkcの辞書作成は一旦終わろうと思っていたのですが、変換候補に読み仮名を振る際にkakasiではなくMeCabを使ったらどうだろう→MeCabならUTF-8で処理できるからEUC-JPへの変換テーブル要らないよね→MeCab/kakasiの比較もしたいし→あーkakasiはUTF-8食わせるとダメかー、という流れで色々面倒なことになってます。

2023-09-22 22:48:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

自分の雑な理解なんですが…kakasiもMeCabも形態素解析なツールなんですが、MeCabは辞書レベルでUTF-8に対応している（のでUTF-8な文字列を食わせてもちゃんと動く）のに対し、kakasiはEUC-JPな辞書そして入出力の部分でUTF-8←→EUC-JP変換を行っているのでUTF-8→EUC-JPへ変換できない要素があるとおかしくなるとかそんな話なんだと思います。

2023-09-22 22:41:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

[Kakasi-dev 236] Re: U+8535で失敗 (09-Dec-2019) https://www.mail-archive.com/kakasi-dev@namazu.org/msg00196.html

「KAKASIのUTF-8対応はかなり強引で、元の設計が古いこともあってEUC-JP, SJISにない文字については考慮していません。」

mecab同様にkakasiにUTF-8な文字列を食わせるとハングするという現象に遭遇しているんだけど（ダメそうな文字をある程度はじいていてもダメっぽい）、当初行っていたUnicode→EUC→Unicodeな処理を復活させる必要を感じている。

https://www.mail-archive.com/kakasi-dev@namazu.org/msg00196.html

[Kakasi-dev 236] Re: U+8535で失敗

2023-09-22 07:22:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

おお、これは良い
Gitで過去に削除したファイルを検索、復元させる方法(2017/Oct/01) https://rcmdnk.com/blog/2017/10/01/computer-git/

https://rcmdnk.com/blog/2017/10/01/computer-git/

Gitで過去に削除したファイルを検索、復元させる方法

2023-09-22 06:59:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なんかkakasiの挙動が怪しい気がするんだけど…EUCで処理させた方が安全とか、なんかバッドノウハウあったりしませんか？

前の日 2023年9月22日次の日

2023年9月21日

2023-09-21 20:10:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

さてと、一旦kakasi→MeCab化したので、これをkakas/MeCab両対応へ持っていこう。MeCabの読み仮名も結果に癖があって、カタカナで返してくることになっている割には「ぁ」に「ぁ」を返してくる…カタカナになってないじゃん！って感じなんだよね。

2023-09-21 18:51:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そういえばなんかそんなのもありましたね…（まだ滅んでいなかったんだろうか）

2023-09-21 18:48:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-21 15:12:34 埼玉ギャル（お局のすがた）の投稿 sota_n@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-21 07:21:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

kakasiでもUTF-8が通るなら、mecab/kakasi両対応というのもちょっと考えないといけないな（とはいえ「蹴っ飛ばす」が「けっ飛ばす」になっちゃう問題への対策を復活させないといけないし…）

2023-09-21 07:06:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@emeraude:~$ echo "かな漢字ヘンカン" |kakasi -iutf8 -KH -JH
かなかんじへんかん
uaa@emeraude:~$

kakasi、ちゃんとUTF-8対応してるじゃん…（多分-iutfみたいに間違ってたオプション指定してたんじゃないのー？＞自分）

前の日 2023年9月21日次の日

2023年9月20日

2023-09-20 21:59:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

C++で書いている以上、うまくまとめられる箇所はまとめられそうな気がするんだけどなあ。

2023-09-20 21:57:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

kakasi→mecabへの変更はしてはみたんだけど、どうなんかねえ…分からなくなってきた。

2023-09-20 21:56:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

これは評価が難しいな…
遊び方、kakasiは「あそびほう」mecabは「あそびかた」
これに対して
遊び/盛り、kakasiは「あそび/さかり」mecabは「あそび/もり」
…kakasiだけ、mecabだけ、という訳にもいかないのかも。
ユーザが好みに応じてkakasi/mecab選べた方が良いのかもな…

2023-09-20 07:35:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://github.com/ueno/libkkc/blob/master/libkkc/rom-kana-utils.vala#L41 を見るに、Unicodeにある片仮名…ヷヸヹヺは読みとして扱わない（扱えない）で良いかな。

- UTF-8であれど、EUC環境で使うこともある以上UTF-8特有というものに対しては配慮しない
- かな漢字変換である以上<unk>（読みを設定できない物）に関しては対応しない

辺りの軸は定める必要があるかね。

https://github.com/ueno/libkkc/blob/master/libkkc/rom-kana-utils.vala#L41

前の日 2023年9月20日次の日

2023年9月19日

2023-09-19 22:10:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

もう少し処理を洗って、考えないと…

2023-09-19 22:06:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

候補のチェックをkakasi/EUC版と同様にするのであれば、結局「候補の文字列をEUCへ変換可能かどうか」というチェックになってしまって、Unicode→EUCテーブルを外せなくなるという問題を抱えてしまう（せっかくUTF-8化するならそんなテーブルは外したい）。

2023-09-19 22:04:55 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ファイルから読みだしたものはwchar_t[]で管理していて、kakasiに渡すときはEUC化(unsigned short[])したものをchar[]と見立てて渡す…MeCabの場合はmulti-byte stringなchar[]に変換して渡す…得られた結果はその逆で。

変換候補と読みのチェックをwchar_t[](Unicode)←→unsigned short[](EUC)変換時に掛けているけど、これをどう再現するかが頭の痛いところ。MeCabの読みは平仮名ではなく片仮名なので結局変換処理を入れる必要があるから…ここで引っかけることはできそうなんだけど。

wchar_t(Unicode)→mbs(UTF-8)/MeCab→wchar_t(Unicode)/カナ→wchar_t(Unicode)/かな

kakasi/EUC版の場合は候補側と読み側の両方でチェックを掛けられたけど、MeCab/UTF-8版だと読み側でしかチェック掛けられないか…？

2023-09-19 21:34:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc2010-libkkc、を利用したCC100-jaのlibkkc辞書化を考えてみたけど…nwc2010-libkkcの読み仮名付与に使うkakasiをMeCabに変えることはできないかというのが一つの課題になりそう。別にkakasiのままでもいいのかもしれないけど、読み仮名を振れない物は変換候補にできない以上大きな辞書を持っているMeCabの支援はやっぱり受けたいなって（形態素解析でもMeCabを使うなら読み仮名もMeCabでというのが自然だし）。

2023-09-19 07:33:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MMDVMHostで自分が手を入れた部分にat()＋try～catchなコードがあるけど、直すか放っておくか…C++0xなので放っておく、でいいのかな（find()はC++11だし）

2023-09-19 07:28:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

find()だとイテレータを返してしまうし（end()のチェックをすれば良いのか）、単に存在チェックするのにat()＋try～catchだと大袈裟だ、ということでcontains()なんだけどC++20ってのがなあ。 https://cpprefjp.github.io/reference/map/map/contains.html

https://cpprefjp.github.io/reference/map/map/contains.html

map::contains - cpprefjp C++日本語リファレンス

2023-09-19 07:08:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

libkkcとしてはtext-bigram-language-model.vala中で<UNK>についての処理は入ってるけど…何か積極的に対処してるようにも見えないなあ。

2023-09-19 07:01:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

まあ、難しいことは後から考えるとしてまずは辞書を作るためにどんな感じの作業が必要かなーというのを洗い出せれば良いや。細かい部分を詰めるとかそういうのは詳しい人がやることだし（と面倒な部分からは逃げる）。

2023-09-19 06:57:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

変換候補にできないものは<unk>に置き換える、という手法は…確かにそうなんだけど、既にN-gram化されている物に関しては複数の「この <unk> は」みたいなエントリが出た場合にどう統合するのかを考えないといけないから厄介。

2023-09-19 06:43:10 SASANO Takayoshi @uaa@social.mikutter.hachune.net

N-gramを作成する以上「この治療法の evidence」に対しては「この/このちりょうほう/治療法の/の evidence/evidence」と出力しないとダメで…「この/このちりょうほう/治療法の/の」（evidenceを切ってしまう）出力はできない。辞書へ含めるに相応しいかどうかの判定は形態素解析よりも後にしないといけない。

既に形態素解析済/N-gram化済というデータだったからkakasiniよる読み仮名付与と合わせて辞書データに入れるかどうかのフィルタリングをしてしまったけど…多分この部分はもう少しマシなやり方はありそう。

2023-09-19 06:27:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

いやいや、元のテキストデータがUTF-8なのでUTF-8辞書入れないとダメでしょ。

2023-09-19 06:25:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

DebianでMeCab(日本語形態素解析システム)を利用する (2017/09/22) http://qs.nndo.jp/2017/09/22/865/

apt-get install mecab mecab-ipadic mecab-utils
と、mecab-ipadic-utf8を敢えて入れないという方針でいくか。libmecab2は依存性により自動インストールなのでいちいち記述しなくていいし、コード書く訳じゃないからlibmecab-devも（今のところ多分）要らないし。

http://qs.nndo.jp/2017/09/22/865/

DebianでMeCab(日本語形態素解析システム)を利用する

2023-09-19 06:18:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ChaSen形式だと処理が楽そうか…最初と二番目を見てればいいから。

2023-09-19 06:12:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MeCabの出力結果、読み仮名がカタカナというのがなあ…これは平仮名に変換しないといけないし、libkkc辞書を作るなら「よみがな/変換対象」形式にしないといけないので結局何かしらのコンバータが要るのは確かそう。

2023-09-19 05:58:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

nwc-toolkitのデフォルトがMeCab分かち書きフォーマットじゃないか…

2023-09-19 05:55:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MeCabは基本的にEUCで動くが生成した辞書の文字コード次第…とにかくEUCなら変換対象はEUCで記されたものに限定されるのはkakasiを使っていた時と同様か。わかち書きモードがあるならそれは（ストレージ容量を食わずに済むので）助かるけど、読み仮名を別途用意するのがなあ… https://taku910.github.io/mecab/#format

https://taku910.github.io/mecab/#format

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

前の日 2023年9月19日次の日

2023年9月18日

2023-09-18 22:42:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

CC100-ja、展開すると75GBのテキストになりますね…

2023-09-18 22:40:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

JUMANはChaSen系の出力フォーマット https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B
GiNZAはCoNLL-U形式 https://megagonlabs.github.io/ginza/
SudachiはMeCabっぽいけど設定次第ではChaSenっぽくもなる？（よく分からない） https://github.com/WorksApplications/Sudachi#sudachi-%E6%97%A5%E6%9C%AC%E8%AA%9Ereadme

https://nlp.ist.i.kyoto-u.ac.jp/?JUMAN%2B%2B

JUMAN++ - LANGUAGE MEDIA PROCESSING LAB

https://megagonlabs.github.io/ginza/

GiNZA - Japanese NLP Library

https://megagonlabs.github.io/ginza/

GiNZA - Japanese NLP Library

2023-09-18 22:35:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

MeCabとChaSenの出力フォーマット (2011-01-02) https://kshi-kshi.hatenadiary.org/entry/20110102/1293920002
これを見るに、JanomeもMeCab形式で出力しているという理解で良いのかな。 https://mocobeta.github.io/janome/

https://kshi-kshi.hatenadiary.org/entry/20110102/1293920002

MeCabとChaSenの出力フォーマット

https://kshi-kshi.hatenadiary.org/entry/20110102/1293920002

MeCabとChaSenの出力フォーマット

2023-09-18 22:04:20 SASANO Takayoshi @uaa@social.mikutter.hachune.net

各種形態素解析器の出力フォーマットを見てみる必要はあるのかもしれない。その前にダウンロードしたCC100-jaを展開して、どのくらいのサイズになるかを調べる必要があるかも（空きがなければ作業はできない）。

2023-09-18 22:03:14 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とはいえ、nwc-toolkitの対応する形態素解析器はMeCabとchasen（ベースとなったJUMANはイケるのか？）と書いてあるのだが…それ以外でも使えるのはあるのだろうか？ https://github.com/xen/nwc-toolkit/blob/master/docs/tools/ngram-counter.html

https://github.com/xen/nwc-toolkit/blob/master/docs/tools/ngram-counter.html

2023-09-18 21:59:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

自然言語処理の形態素解析について調べたまとめ (2020/11/15) https://zenn.dev/megane_otoko/articles/008_morphological_analysis
MeCab以外にもJanome, GiNZA, JUMAN, Sudachiがあると。

https://zenn.dev/megane_otoko/articles/008_morphological_analysis

自然言語処理の形態素解析について調べたまとめ

2023-09-18 21:55:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-18 21:45:49 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io

Firefox OSの後継となったフォークはいくつかあるけれど、Capyloonというプロジェクトは今も活動している

2023-09-18 17:10:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

テスト文字列に「うんこ」と入れるな (2021.Sep.9) https://www.slideshare.net/ketaiorg/ss-250149770
「人類はうんこに打ち勝つことは不可能」

…確かにうんこには勝てない。<unk>をそう読んでしまう程度には。

https://www.slideshare.net/ketaiorg/ss-250149770

テスト文字列に「うんこ」と入れるな

2023-09-18 16:31:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

アヒルヤキを変換してみよう(2015.Mar.1) https://www.slideshare.net/hashimom/open-manyo-ahiruyaki
あひる焼き、そういうことだったのか…

https://www.slideshare.net/hashimom/open-manyo-ahiruyaki

アヒルヤキを変換してみよう

2023-09-18 16:12:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

メルセンヌツイスターは知ってたけどxoroshiro128+は初耳。

xoshiro / xoroshiro generators and the PRNG shootout https://prng.di.unimi.it/

https://prng.di.unimi.it/

xoshiro/xoroshiro generators and the PRNG shootout

2023-09-18 16:08:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-18 08:14:49 負けヒロイン@がんばらないの投稿 kelvin27315@mstdn.maud.io

このアカウントは、notestockで公開設定になっていません。

2023-09-18 16:07:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

外部からlookup()呼べれば良いじゃんとか思ったけど、class Stateの中でinternal属性付いちゃってるから手も足も出せない…（プロジェクトの中からは自由に呼べるけど、public APIとしての呼び出しはできない）

2023-09-18 15:34:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

lookup()はinitial-state-handler.valaとconvert-sentence-state-handler.valaから呼んでる

2023-09-18 15:33:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

トラ技の厚さは国の豊かさと国力によって変化する #あながち嘘ではないと思う

2023-09-18 15:32:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

噂じゃなく事実…（CQ Ham radioに関しても薄くなっているけど）

2023-09-18 15:31:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-18 04:11:42 両切りの投稿 scissors@homoo.social

このアカウントは、notestockで公開設定になっていません。

2023-09-18 13:48:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

変換処理（辞書の優先順位）はlibkkc/state.valaのlookup()に書いてあるね。 https://github.com/ueno/libkkc/blob/master/libkkc/state.vala#L378
ユーザ辞書が最優先になる（そりゃそういうもんだけど）。lookup()はどこから呼んでるかな…

https://github.com/ueno/libkkc/blob/master/libkkc/state.vala#L378

2023-09-18 13:37:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

libkkc/system-segment-dictionary.valaってMappedFile()使ってるけど、これってSKK辞書の処理…？ https://github.com/ueno/libkkc/blob/master/libkkc/system-segment-dictionary.vala

https://github.com/ueno/libkkc/blob/master/libkkc/system-segment-dictionary.vala

2023-09-18 13:32:41 SASANO Takayoshi @uaa@social.mikutter.hachune.net

過去の自分のツイート（当時）に立ち返ってみる。
https://twitter.com/uaa/status/1442001949562322947

libkkc UTと日本語入力の話(2021.1.10) https://chienomi.org/articles/linux/202101-kkc-ut.html にある、UT辞書をlibkkcに載せる話…ユーザ辞書自体の扱い、システム辞書との兼ね合いについてはコードを見ておきたいなって。大きなユーザ辞書でフリーズすること、まともに変換できなくなるというのは流石にどうなのって思う訳で。

https://chienomi.org/articles/linux/202101-kkc-ut.html

libkkc UTと日本語入力の話 - Chienomi

-
-X

2023-09-18 12:53:38 SASANO Takayoshi @uaa@social.mikutter.hachune.net

CC100-jaのダウンロードは終わり。これからは一般家庭であっても言語資源やテキストマイニングを行える体制を有していないといけない時代なんだろうか…（んなこたない

2023-09-18 12:25:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

X(ex. Twitter)の呟きをこちらでもリサイクル。
短単位自動解析用辞書を作る（４） (2023/7/15) https://note.com/teruaki_oka/n/n8b791966aa52
CC100-jaをnwc-toolkit他を使ってUniDicの改良に使用する話…でいいのかな？

https://note.com/teruaki_oka/n/n8b791966aa52

短単位自動解析用辞書を作る（４）｜Teruaki Oka

2023-09-18 11:53:24 SASANO Takayoshi @uaa@social.mikutter.hachune.net

HTMLパース→テキスト抽出→Unicode正規化→形態素解析（分かち書き）→N-gramコーパス作成、なんだろうけど…ただのテキストマイニングならそれで良いとして、libkkc向けに「よみがな/単語」形式にしないといけないっていうのをどうしたもんかね。

別に今と同じ、n-gramコーパス構築後にkakasiで付加、でも良いんだろうけど。

2023-09-18 11:45:22 SASANO Takayoshi @uaa@social.mikutter.hachune.net

CC100-jaをnwc-toolkitで処理してコーパスを作る、というのはどうなんだろうかね。本家(https://code.google.com/archive/p/nwc-toolkit/)にtoolkitソースのアーカイブがあるけど、簡単に中身を確認するなら誰かのmirrorなのかforkなのか https://github.com/xen/nwc-toolkit を見るのが手っ取り早いか。

https://code.google.com/archive/p/nwc-toolkit/

Google Code Archive - Long-term storage for Google Code Project Hosting.

https://code.google.com/archive/p/nwc-toolkit/

Google Code Archive - Long-term storage for Google Code Project Hosting.

2023-09-18 11:41:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ミリンの焼酎割りが旨いとは思わなかった (2013.10.27) https://dailyportalz.jp/kiji/131025162167 流石デイリーポータルZ(?)、焼酎だけでなく日本酒・ビール・ウイスキー割りを試している。

https://dailyportalz.jp/kiji/131025162167

ミリンの焼酎割りが旨いとは思わなかった

2023-09-18 11:38:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Wikipediaだと「柳蔭（やなぎかげ）」ではなく「本直し（ほんなおし）」の項に記されてる。 https://ja.wikipedia.org/wiki/%E6%9C%AC%E7%9B%B4%E3%81%97

https://ja.wikipedia.org/wiki/%E6%9C%AC%E7%9B%B4%E3%81%97

%E6%9C%AC%E7%9B%B4%E3%81%97

2023-09-18 11:36:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

夏の終わりに、風流な和製カクテル「柳陰」で夏の余韻を。(2018.8.17) https://www.fukumitsuya.co.jp/komekara/article/1365/ 「氷を入れたロックグラスに味醂1、焼酎2の割合で注ぎ、軽く混ぜます。大切なのは、一切の調味や添加物を加えていない「本味醂」を使うこと。」
結構みりんを使う…？

https://www.fukumitsuya.co.jp/komekara/article/1365/

夏の終わりに、風流な和製カクテル「柳陰」で夏の余韻を。

2023-09-18 11:34:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-18 07:29:20 猫山ぽるかの投稿 nekonyanma@pawoo.net

このアカウントは、notestockで公開設定になっていません。

2023-09-18 11:11:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度750辞書(100M)→500辞書(180M)、やっぱメモリ喰うな…

2023-09-18 10:14:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-18 10:11:50 こおしいずの投稿 kcz146@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-18 10:12:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ま、多少主語がデカくてもいいかな…？

2023-09-18 10:05:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

とはいえ、s3-ap-northeast-1.amazonaws.comは日本国内かと言われると分からんのだけどな…

2023-09-18 10:04:50 SASANO Takayoshi @uaa@social.mikutter.hachune.net

個人で利用可能な日本語の言語資源が海外にある以上、例の「はじめに」も修正が必要だな…という訳で、「日本国内にあるものに関しては」の文言を付けて直しておくとしよう。

2023-09-18 09:39:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

どれどれ…

2023-09-18 08:53:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

逆に言えば、素材から一貫して自分の納得いく形に加工できるってことでもあるな…本っ当に「ナマ」の素材…

2023-09-18 08:50:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

CC-100の日本語テキスト、本当に日本語テキストだこれ…MeCabで形態素解析するところから始めないといけないやつだ…（そう考えると形態素解析が終わってN-gram化してる日本語ウェブコーパス2010ってすごく便利なんじゃ）

2023-09-18 08:38:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語の言語資源を海外から手に入れないといけないとか、「日の丸〇〇」的にそれってどーよとか突っついてみようか。

2023-09-18 08:35:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

CC-100とか扱いやすそうに見える（といってもトップページから目的とする言語へのリンクが張られているからという理由でデータの中身はこれから見る） https://data.statmt.org/cc-100/ mC4はよく分からない… https://github.com/allenai/allennlp/discussions/5056 JSONでも9.7TB(multilingual)なので、落としてから日本語だけ抜き出すとかしないといけないのかな。

https://data.statmt.org/cc-100/

CC-100: Monolingual Datasets from Web Crawl Data

https://data.statmt.org/cc-100/

CC-100: Monolingual Datasets from Web Crawl Data

2023-09-18 08:32:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OSCAR23.01にある日本語の資源(?)は181.2GBか… https://oscar-project.github.io/documentation/versions/oscar-2301/

https://oscar-project.github.io/documentation/versions/oscar-2301/

OSCAR 23.01 - OSCAR Documentation

2023-09-18 08:29:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Bing AI chatで「無料で使用可能な日本語の言語資源はありますか？」と聞いてみると、国語研はともかくとして、日本語LLMまとめ https://github.com/llm-jp/awesome-japanese-llm と【自然言語処理】フリーで使える大規模な日本語テキストコーパス(2023/01/08) https://tma15.github.io/blog/2023/01/08/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86%E3%83%95%E3%83%AA%E3%83%BC%E3%81%A7%E4%BD%BF%E3%81%88%E3%82%8B%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%81%AA%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9/ をおすすめされた

https://github.com/llm-jp/awesome-japanese-llm

GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ

https://github.com/llm-jp/awesome-japanese-llm

GitHub - llm-jp/awesome-japanese-llm: 日本語LLMまとめ

2023-09-18 08:15:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

犬と同居している人は活動的でiPhoneユーザーが多い、猫と同居している人はスマホ利用時間が長くAndroidスマホユーザーが多い (2023/9/14) https://www.moba-ken.jp/project/lifestyle/20230914.html

そうなの…？

https://www.moba-ken.jp/project/lifestyle/20230914.html

Not Found

2023-09-18 07:09:45 SASANO Takayoshi @uaa@social.mikutter.hachune.net

えー…

2023-09-18 07:09:40 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 23:46:20 さわじりの投稿 imgssy@misskey.io

このアカウントは、notestockで公開設定になっていません。

前の日 2023年9月18日次の日

2023年9月17日

2023-09-17 21:11:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 21:02:09 もちゃ(あと-9.20Kg)の投稿 mot@mastodon.motcha.tech

このアカウントは、notestockで公開設定になっていません。

2023-09-17 15:48:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りの除外はとりあえず保留。なんか害があるようならその時に除外を考えることにしよう。

2023-09-17 15:46:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

大判焼のことか…（解釈に５秒以上かかった）

2023-09-17 15:45:44 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 11:39:39

の投稿 pizzayousei@misskey.io

このアカウントは、notestockで公開設定になっていません。

2023-09-17 14:16:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度 750辞書くらいがバランスとしては良いのかなあ（よく分かってません）

2023-09-17 14:13:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

辞書のデカい影響だと思うけど、 fcitx5が600M以上もメモリ喰ってるのは流石に…

2023-09-17 14:09:06 SASANO Takayoshi @uaa@social.mikutter.hachune.net

形態素解析で単語を得ているからかは分からないけど、「ぁぁぁぁ」「ぁあっしだってそんなこたぁ」「ああああああああああああああああああああああああ」ですら一単語になってしまうから、なんかうまいことやらないといけない気がする。

読みの最初が「ぁぃぅぇぉっゃゅょ」辺りは除外した方が良いのかなあ（「ー」で始まるのは除いてたんだけど、これらの文字は考えてなかった）。

2023-09-17 14:03:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

canna辞書（標準）が4万語、強化して26万くらいか…
https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html
https://ja.osdn.net/projects/alt-cannadic/wiki/FrontPage

https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html

4 canna辞書の強化

https://www.stex.phys.tohoku.ac.jp/~ohba/canna/node4.html

4 canna辞書の強化

2023-09-17 13:47:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーむ、頻度100辞書、できちゃったのは良いけど…これ生成するのにRAM16GBじゃ厳しそうな感じ（32GBマシンでtop見てると16GB近く使ってるとか表示される）。data.3gramが290M、data.3gram.filterが24Mと当然デカいし…

2023-09-17 12:18:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

日本語ウェブコーパス2010、頻度100以上から辞書を作れるかも試してみるか…

2023-09-17 10:45:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.1000/
total 51172
448 data.1gram 864 data.2gram.filter 160 data.input
704 data.1gram.index 34464 data.3gram 4 metadata.json
11616 data.2gram 2912 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

~~2023-09-17 10:44:41~~ 2023-09-17 10:45:01 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/local/lib/libkkc/models$ ls -sk sorted3.orig/
total 30892
736 data.1gram 672 data.2gram.filter 264 data.input
1184 data.1gram.index 17408 data.3gram 4 metadata.json
9120 data.2gram 1504 data.3gram.filter
uaa@framboise:/usr/local/lib/libkkc/models$

2023-09-17 10:38:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

オリジナルの辞書だと30Mくらい、とはいえ日本語ウェブコーパスで生成した辞書と比べると1-gramの量が1.5倍くらいオリジナルの方が大きかったりするので単純に辞書の「総量」で比べてもあんまり比較にならない気がする。

2023-09-17 10:13:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

頻度1000辞書載った…

2023-09-17 10:03:35 SASANO Takayoshi @uaa@social.mikutter.hachune.net

うーむ、生成元のdata.arpa付きでアーカイブ作ってみるにしても、data.arpa自体がデカすぎる…出現頻度1000でバイナリは50M程度、data.arpaは260M。

2023-09-17 09:58:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

LinuxでもOpenBSDでも、amd64なので生成されたlib/libkkc/models/sorted3/*の内容は同一…Linux上で、出現頻度を1000, 1800, 1500, 1250に調整して辞書を生成し、それをOpenBSD上に持っていって評価というのはできそうだな。1000で以前動かなかったけど、これが動くなら…だいぶ変わりそうな予感。

2023-09-17 09:49:19 SASANO Takayoshi @uaa@social.mikutter.hachune.net

__attribute__(hogefuga)とか、使うこと多いかも…

2023-09-17 09:48:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-17 09:44:07 hfpの投稿 hfp@social.mikutter.hachune.net

このアカウントは、notestockで公開設定になっていません。

2023-09-17 09:13:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

web上の文章とか活動とか集めるだけ集めたくせに、その成果を限られた人間にしか公開してやらねえ、という態度が非常にムカついているので「言語資源を特定の属性を持った云々しか公開しない」ということに対して激しく攻撃したくなるんですよね。ザケんなコラ💢って。

2023-09-17 09:10:07 SASANO Takayoshi @uaa@social.mikutter.hachune.net

不満調査データセット、ちょっと気になる。何に対して不満を持っているのか… https://www.nii.ac.jp/dsc/idr/fuman/

https://www.nii.ac.jp/dsc/idr/fuman/

情報学研究データリポジトリ不満調査データセット

2023-09-17 09:09:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（こっちでも書いちゃう）
情報学研究データリポジトリ https://nii.ac.jp/dsc/idr/ の中にあるのだと、ニコニコデータセットくらいしか個人で使えそうな言語資源が見当たらないんだけど（これですら蹴られそうな気がする）。 https://www.nii.ac.jp/dsc/idr/nico/nico-user.html

https://nii.ac.jp/dsc/idr/

Not Found

https://nii.ac.jp/dsc/idr/

Not Found

2023-09-17 07:30:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSDのportsがkakasi 2.3.4だったりするのでここはメンテしないといけないのかもしれんな…？

2023-09-17 07:29:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

NetBSD/pkgsrcはjapanese/kakasi→textproc/kakasiへ引っ越してるのか。とはいえ、libkakasiは非対応なのか…？（NetBSDに詳しい方のツッコミ希望） http://cvsweb.netbsd.org/bsdweb.cgi/pkgsrc/textproc/kakasi/?only_with_tag=MAIN

http://cvsweb.netbsd.org/bsdweb.cgi/pkgsrc/textproc/kakasi/?only_with_tag=MAIN

pkgsrc/textproc/kakasi/

2023-09-17 07:22:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

そういえばOpenBSDにlibkakasiのportsってあったっけ…（見当たらない？）これがあるともう少し作業が楽なんだけど…いちいちDebian上でやらないで済むし…

2023-09-17 07:19:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

（出来上がっている辞書の利用については、class defaultで大丈夫なんだろうか…？という疑問があったので試してる。基本的にclass staffで使っているからよく分かんないんだよね）

2023-09-17 07:17:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

libkkc-dataの生成、デフォルトユーザだとPythonのMemoryErrorで生成できないんだけど…組み合わせの出現頻度数を1800以上に絞っても生成できないっていうのはどうなんだろう（package生成時はrootで行っているので制限に引っかかってないというのはある）。

2023-09-17 07:14:59 SASANO Takayoshi @uaa@social.mikutter.hachune.net

class staffでもこんなもん
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1572864
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 256
virtual memory (kbytes, -v) 1576960
bash-5.2$

2023-09-17 07:14:03 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSDにおけるデフォルトのリソース（ulimit -aで表示されるやつ）って結構厳しめだな。unlimitでないのはこんな感じ。
bash-5.2$ ulimit -a |grep -v unlimited
data seg size (kbytes, -d) 1048576
max locked memory (kbytes, -l) 87381
max memory size (kbytes, -m) 978512
open files (-n) 512
pipe size (512 bytes, -p) 1
stack size (kbytes, -s) 4096
max user processes (-u) 128
virtual memory (kbytes, -v) 1052672
bash-5.2$

2023-09-17 07:02:21 SASANO Takayoshi @uaa@social.mikutter.hachune.net

@trondd looks no problem...?

openbsd-current-vm$ df -i
Filesystem 512-blocks Used Avail Capacity iused ifree %iused Mounted on
/dev/sd0a 146237396 30294360 108631168 22% 1068616 8392182 12% /
openbsd-current-vm$

前の日 2023年9月17日次の日

コピーしました

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30