2023-09-16 21:54:23
icon

寝るべ(これはWindows上…なんかこっちの方が意図した変換になってないような…?)

2023-09-16 21:52:30
icon

@hadsn それハイリスクノーリターンじゃないですかやだー

2023-09-16 21:51:48
icon

しっかし、自分で構築してみた補正がかかってるのでアレなんだけど、意外に使えますね…快適ではないんですが、不快でもない。コマンドラインでテストした感じではイケてないなーとは思ったけど、実際に使ってみるとそこまで悪かない。でも他人が評価すると「クソ」と言われてもおかしくないかも。

2023-09-16 21:49:23
icon

完全に新しい世界だと、まだ誰も手をつけてない云々という主張も通りやすいんだけど…流石に年月を経たsceneだと下手に「まだこれ誰もやってないですよね」とか言おうものならイタい子扱いされてもおかしくはないし。

2023-09-16 21:42:05
icon

なんせlibkkcが登場してから今まで相応の時間が経っていて、それでこの(辞書の生成方法があんまり明確でない)状況なんだもん。

明らかに「なんか(政治か技術的な問題が)ある」と疑うしかないでしょ。

単に今まで誰も手をつけてなかっただけとか思うのは流石に脳味噌お花畑だよね?

2023-09-16 21:38:15
icon

なんとなくだけど、data.arpaの生成方法は今まで誰も見つけてなかったというよりは、知られていても秘されていたとかそんな気がするので。

2023-09-16 21:37:30
icon

OpenBSD上で動いてるlibkkcの辞書を日本語ウェブコーパス2010から生成したものに入れ替えて、ちょっとあちこちに雑文を書き散らかしてるところ。

良いとはいえないけど悪くもない感じ…かなあ。SKK辞書によるドーピングも効いてるから素の性能は分からないのと、今までの辞書もそれほど使い込んでいた訳ではないから評価しようがないという。

でもSKK辞書無しで、素の辞書をどう強化するかっていうのは言語モデル越しにやっている以上は簡単じゃなさそうな気がするんだけどその辺は詳しい人達にぶん投げちゃっていいよね?

2023-09-16 19:25:27
icon

お?
(before)
uaa@framboise:~$ ./a.out ちみもうりょう
0: <地/ち><み/み><魍魎/もうりょう>
uaa@framboise:~$

(after)
[uaa@archlinux-vm ~]$ ./a.out ちみもうりょう
0: <魑魅魍魎/ちみもうりょう>
[uaa@archlinux-vm ~]$

2023-09-16 19:23:14
icon

で、日本語ウェブコーパス2010から生成した辞書が一応使えるようにはなったんだけど…前よりお馬鹿になってしまった感じなのでどうしたもんかなと。
(before)
uaa@framboise:~$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <貴社/きしゃ><の/の><記者/きしゃ><が/が><汽車/きしゃ><で/で><帰社/きしゃ><した/した>
uaa@framboise:~$
(after)
[uaa@archlinux-vm ~]$ ./a.out きしゃのきしゃがきしゃできしゃした
0: <記者/きしゃ><の/の><記者/きしゃ><が/が><記者/きしゃ><で/で><記者/きしゃ><下/した>
[uaa@archlinux-vm ~]$
まあこういう意地悪な文章で評価するもんでもないんだろうが…?

2023-09-16 19:19:34
icon

一応これで良いのかなー。data.arpaに<s>とか</s>が無い場合は勝手に補完するようsortlm.pyに突っ込んでみたんだけど。

github.com/ueno/libkkc/pull/46

Web site image
improvement for accept generic arpa language-model data by jg1uaa · Pull Request #46 · ueno/libkkc
2023-09-16 06:49:56
icon

(ValaとかC#とか知らんけど、本当はnullableで<s></s>が存在しないケースも認めてエラーチェック等で対応するのが筋という気がするけど…そうも言ってらんない以上は、sortlm.py側を加工して辞書側で対処するしかないのかもしれない)

2023-09-16 06:47:30
icon

<s>はあるけど</s>が見つからないのでエラー、んでもってbigram-decorderではbos_node, eos_nodeを見てるってことは…1-gram(単語辞書)内では<s></s>必須って話になるのかなあ。

ちょい強引ではあるけど、無かった場合は強制的に追加とかそういう処置も考えないといけない?

2023-09-15 06:59:56
icon

kkc_language_model_get ((KkcLanguageModel*) self, " ", "</s>");
gdbで追うに、これがnullではなくおかしな値を返してるのでSEGVになるということか

2023-09-14 20:58:00
2023-09-14 00:43:10 Xichuanの投稿 xichuan@fedibird.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-14 20:31:39
icon

You make me moveってRide on time(Black Box)っぽいな…

2023-09-14 20:10:34
icon

vala-project.org/doc/vala/Type

?については<type>?…<type>かnullかを取る型、ということになるのかなあ。この辺はC#のnull許容値型を読む方が良いのかも learn.microsoft.com/ja-jp/dotn

2023-09-14 20:07:00
icon

vala-project.org/doc/vala/Over

It is also possible to use language keywords as identifiers, provided they are prefixed with a "@" when used in this way - the "@" is not considered a part of the identifier, it simply informs the compiler that the token should be considered as an identifier.

@は無視される…喩えは悪いけど、予約語でも@を頭に付けちゃえばそれ使っておっけーとかそういうノリと理解した。

2023-09-14 19:59:16
icon

public override LanguageModelEntry? @get (

?とか@の意味って??

2023-09-14 19:54:01
icon

language-model.valaだと
public abstract class LanguageModel : Object, Initable {
(略)
public abstract new LanguageModelEntry? @get (string input,
string output);

@getの実体はbigramしか記述がないからやっぱりここら辺は重要なのかもしれん。

2023-09-14 19:47:48
icon

Valaのデバッグってみんなどうやってるんだろう。Vala→Cに変換してからコンパイルしてるので、Cを見てからまたValaに戻ってしゅうせいとかそういうプロセスにはなるみたいなんだけど…

2023-09-14 19:45:51
icon

でもなんか違う感じもするなー。あの辺の処理にMarisa絡んでないし…

2023-09-14 19:42:19
icon

で、sorted-bigram-language-model.valaのclass SortedBigramLanguageModelは多分LanguageModel, UnigramLanguageModel, BigramLanguageModelを継承していて、public override LanguageModelEntry? @get ()の処理が_eos = get(うあうだ)の実体なんだろうな。ここで何が起きてるのか、を知る必要はありそう。

2023-09-14 19:38:46
icon

KkcLanguageModelEntry* _tmp64_;
KkcLanguageModelEntry* _tmp65_;
KkcLanguageModelEntry _tmp66_;
になっていて、素直に
_tmp66_ = *kkc_language_model_get()にすりゃいーじゃんというのはともかく…

get()に失敗した場合に対する処理が無くて落ちてるのはまあ分かったとして、失敗したらどうするのが適当かっていうのは考えないといけないか。

2023-09-14 19:29:37
icon

sorted-bigram-language-model.valaのpublic override bool parse () throws Errorの最後の方にある
_eos = get (" ", "</s>");
これをC化すると
_tmp64_ = kkc_language_model_get ((KkcLanguageModel*) self, " ", "</s>")
;
_tmp65_ = _tmp64_;
_tmp66_ = *_tmp65_;
kkc_language_model_entry_copy (&_tmp66_, &_tmp67_);
kkc_language_model_entry_destroy (&self->priv->_eos);
self->priv->_eos = _tmp67_;
_kkc_language_model_entry_free0 (_tmp65_);

2023-09-14 19:22:14
icon

すげえな、coreが見つからんと思ったらcoredumpctl debug a.outでデバッガ他一式が起動してくれる…最高じゃないか…! wiki.archlinux.org/title/Core_

2023-09-14 18:11:23
icon

なんというサツバツ

2023-09-14 18:11:14
2023-09-14 18:10:11 Giraffe Beerの投稿 giraffe_beer@mstdn.maud.io
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-14 17:40:17
icon

(単にkkc_decoder_decodeを呼ぶだけのテストコードを作っていたのが、まさかこの場面で役に立つとはね…)

2023-09-14 17:38:12
icon

やっとArch上でlibkkc/libkkc-dataの実験環境ができたので(すでに動いてる環境に入れると何が何やら分からなくなるのでlibkkcを入れてない環境でやる必要がある)、ここから例の辞書入れたりあれこれやればいいよな…

2023-09-14 17:26:27
icon

なんかArchってちょっとレスポンスがきびきびしてる感じがある…最適化とかの問題なのかも?

2023-09-14 17:19:27
icon

githubから落としたlibkkc、Debianだと何故かvapigenを見つけられずにビルドできないんだけどArchだとうまくいく…(distroによってうまくいく/いかないのって、たまにあるんですよね…なので複数のdistroを飼っておく必要があったりする)

2023-09-14 16:02:22
icon

ここ1~2日のports@, tech@, hackers@のメーリングリストも特に変わった様子はないから…とりあえず気にせず放置するか。

2023-09-14 15:58:20
icon

ホスト側大丈夫か?と思って真っ青になったけど、一応1Tのディスクのうち42%使用中なので多分大丈夫。

2023-09-14 15:56:56
icon

tmp周りはこんな感じなのと、120GBのディスクイメージで組んでる仮想マシンなので、余裕はあまりある訳でもないけど簡単にdisk fullにもならんだろと思っていて…

2023-09-14 15:56:17
icon

openbsd-current-vm# df
Filesystem 512-blocks Used Avail Capacity Mounted on
/dev/sd0a 146237396 32294668 106630860 24% /
openbsd-current-vm# ls -l /tmp
total 20
drwxrwxrwt 2 root wheel 512 Sep 14 14:49 .ICE-unix
drwxrwxrwt 2 root wheel 512 Sep 14 14:49 .X11-unix
drwxrwxrwx 2 daemon wheel 512 Sep 14 14:49 .iroha_unix
drwxr-xr-x 2 root wheel 512 Sep 14 14:49 sndio
drwxrwxrwt 2 root wheel 512 Aug 2 20:52 vi.recover
openbsd-current-vm#

2023-09-14 15:47:19
icon

openbsd-current-vm# cvs -q up -Pd -A
uaa@cvs.openbsd.org's password:
cannot create_adm_p /tmp/cvs-serv79012/x11/ports/devel/vanessa
No space left on device
openbsd-current-vm# df
Filesystem 512-blocks Used Avail Capacity Mounted on
/dev/sd0a 146237396 32294668 106630860 24% /
openbsd-current-vm#

…??

2023-09-14 14:28:03
icon

え、以前からあると思っていたけどアレは正式リリース前だったのか…

2023-09-14 14:27:37
2023-09-14 14:15:51 温泉マーク(オートチューンがかかるゆるキャラです)の投稿 on1000mark@fedibird.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-14 13:42:16
icon

(再出スマヌ)アローゼン(下剤)を「波動拳」のイントネーションで読んでしまう呪いを浴びてな…

2023-09-14 13:39:20
2023-09-13 23:11:22 ユーリィ🎸🎹の投稿 YuliyJM@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-14 13:35:10
icon

日本語プログラミング言語は必要か (2011.11.23) fukuchi.org/essay/2011/program

「この経験から考えるに、プログラミング学習の壁は、プログラムを書くための記法の習得にあるのではなく、プログラムとは何なのか、アルゴリズムとはどういうものなのかを素早く体得できるかどうかにあるように思う。記法が英語風であるか日本語風であるかはおそらく小さなことであろう。」

激しく同意なのと、日本語でいちいち入れないといけない(ひらがなカタカナ漢字への変換)コストを考えると、アルファベット主体の英語風プログラミング言語で十分良いんじゃね?ってなってしまう。

Web site image
日本語プログラミング言語は必要か
2023-09-14 13:25:49
icon

「日本語プログラミング言語は必要か」という大学教授さんの記事に感銘をうけた話 (2023/09/11) qiita.com/mylifewithviolin/ite
せめてBトロンはBTRONとちゃんと書こうよ、はともかくとして…

日本語プログラミング言語は必要か (2011.11.23) fukuchi.org/essay/2011/program
ここにある、「日本語プログラミング言語、 およそ20年の歴史と今後」はどうやって読めばよいものか…

これかな? web.archive.org/web/2016030806

Web site image
「日本語プログラミング言語は必要か」という大学教授さんの記事に感銘をうけた話 - Qiita
Web site image
日本語プログラミング言語は必要か
2023-09-14 12:33:55
icon

ま、ツッコミどころの多いREADME.mdではあるんだけど…一応「こういうことやっててこういう問題点にぶつかってる、後は知らん」とぶん投げるという意思表示としてはこれで十分かな。

github.com/jg1uaa/nwc2010-libk

Web site image
GitHub - jg1uaa/nwc2010-libkkc: a trial for libkkc-data with nwc2010 Japanese web corpus
2023-09-14 06:32:26
2023-09-13 18:59:03 Solène :flan_hacker:の投稿 solene@bsd.network
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-13 22:14:50
icon

libkkcが落ちてるから、その巻き添えを食ってるということで良さそうだけど。

2023-09-13 22:11:55
icon

うーん、出現頻度1800に絞ってもfcitx5がsegmentation faultで落ちるな。

2023-09-13 21:59:44
icon

根拠のない個人的な感覚なんだけど、出現頻度1700~1800くらいが良さそうに見える。メモリ不足とかで動かなくなる心配を考えると、1800が適当か。

2023-09-13 21:50:05
icon

出現頻度1700
ngram 1= 55203
ngram 2= 665837
ngram 3= 2289672
出現頻度1600
ngram 1= 56791
ngram 2= 698848
ngram 3= 2460089

ngram=1が単語数そのものなのでこれは削りたくないが、その組み合わせたるn-gram2, 3が爆発してもらっても困る(とはいえこれも削ると「賢さ」が落ちる)。出現頻度1000でも厳しいというなら、それ以上の頻度に制限するしかないのは確かそうなんだけど…

2023-09-13 21:46:11
icon

出現頻度2000
ngram 1= 51095
ngram 2= 585849
ngram 3= 1977021
出現頻度1900
ngram 1= 52359
ngram 2= 609753
ngram 3= 2046937
出現頻度1800
ngram 1= 53745
ngram 2= 636476
ngram 3= 2176045
出現頻度1750
ngram 1= 54440
ngram 2= 650833
ngram 3= 2231599
出現頻度1500
ngram 1= 58509
ngram 2= 735145
ngram 3= 2619441
出現頻度1250
ngram 1= 63540
ngram 2= 847794
ngram 3= 3118175

2023-09-13 21:09:00
icon

オリジナルのデータが
ngram 1=118333
ngram 2=775414
ngram 3=1777469
用意したものが
ngram 1= 70292
ngram 2= 1009331
ngram 3= 3901618
単語数は減っているとはいえ組み合わせた物の数が異様に大きい(なにしろrootじゃないと辞書データを作れない程度にはメモリを食っている)というのがあるので、その辺で悲鳴を上げたのかも。
出現頻度1000以上よりは小さいデータセットが無いので、コードをいじって制限(フィルタ)するという方向にしないとダメかも。

2023-09-13 21:05:48
icon

うごきません!fcitx5がcore吐いて死にます!

2023-09-13 20:42:59
icon

中の人の勘が鋭ければ、あのPRの裏で何をしようとしているかは気づくはず。わざわざIRSTLMとツール名を書いているので。

2023-09-13 20:41:45
icon

(marisa-)trieを使っている以上、辞書の作りとしては確かにそうなるわな…

2-gram: 1-gramに定義された単語でペアを作ること
3-gram: 2-gramに定義された単語ペア+1-gramに定義された単語であること

とはいえその辺の言語資源で適当に作ったN-gramだと場合によっては<unk>とかで切られちゃうので、この条件を平然と満たさなくなる…ノイズが含まれるとでも言えば良いんだろうかね、そのノイズでsortlm.pyが機嫌を悪くしちゃう。

そう理解してる。

2023-09-13 20:39:04
icon

とりあえず、sortlm.pyの修正はおしまい。IRSTLMで変換したarpaの処理もできているので、あとはこれを実際にlibkkcに食わせて何が起こるかを見る…ってことになるな。 github.com/ueno/libkkc/pull/46

Web site image
improvement for accept generic arpa language-model data by jg1uaa · Pull Request #46 · ueno/libkkc
2023-09-13 07:45:40
icon

そうそう、このページ note.nkmk.me/python-list-compr 参考にして、(例にある)最初のsquares = []に相当する部分を省略して痛い目にあったとか、append()でうまくいかなかったのでextend()にしたら全然ダメだったとか(append()使ってさらに()の指定を足したか抜いたした)、Pythonの文法わかんね💢💢💢となってました。

Web site image
Pythonリスト内包表記の使い方 | note.nkmk.me
2023-09-13 07:43:58
2023-09-13 07:43:34 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-13 07:40:48
icon

とりあえず内包表記で書かれていた部分を、内包表記使わない+エラーチェック入れる、で書き直せたけどPython知らない人間にそれやらせるとか…append()とextend()の違いとか知らんし…

2023-09-13 07:21:36
icon

なんなのPythonの内包表記って…すっきり書けるのは理解するけど、エラーチェック入れないといけない場合にはどうしようもないじゃんこれ…

2023-09-12 22:26:01
icon

そういえば14MHz/430MHzしか使わない、移動しない局に関する変更申請はやっと終わりました。あとは局免をもらうための返信用封筒を送らねば…

2023-09-12 22:24:21
icon

Pythonはよく分からないんだけど、まあhow-toなweb見ながらいじるしかないだろうなあ…

2023-09-12 22:23:49
icon

とりあえず、実績がある(と思う)IRSTLMで作った言語モデルのデータを食わせても動かないんですけど、sortlm.pyはその辺どうお考えなんです?ということは言えそう。(こちらで生成したdata.arpaに非は無いってことを言いたい)

2023-09-12 22:22:20
icon

<unk>をOOV(out of vocabulary)なる呼び方をするようだけど、sortlm.pyの作りとしてOOVをあんまり考えてないとかそういうノリなんだろうか。まあ確かに、1-gramの単語に無いものが2-gram, 3-gramに出てきてもらっても困るんすよ、ではあるんだろうけど。

2023-09-12 22:14:21
icon

ああ、これ問題無いんだ…元の3-gramコーパスにunkは入ってないし、IRSTLMのモデル生成結果に<s></s><unk>が入る(しかも小文字で)というカラクリか。

2023-09-12 22:08:52
icon

…おや、<s></s><unk>が素通しになってるけど…ヘンだなこれ。本当は引っかけないといけないはずなんだけど。wcscasecmp()は何をしているのやら。

2023-09-12 21:54:49
icon

あ、読み仮名付け(兼データのクリーニング他)のコード、<unk>未対応だ…

2023-09-12 21:46:10
icon

<unk>って、<unknown>の略なのは分かっていたとしても…ちょっと良からぬものを想像しちゃうんですよその三文字の略だと。

2023-09-12 21:37:01
icon

IRSTLMで3-gramの日本語ウェブコーパスから[123]-gramの表を作る以上、単語表(1-gram)はちゃんとしてると思っていたんだがなあ…確かに<unk>のエントリがあった以上は切り捨てられたものも何かあるとは思ってたんだ。この切り捨てを無効化して.arpaを作れれば御の字なんだが…そうでなければsortlm.pyで対応するしかない。

2023-09-12 21:35:35
icon

もしかしてあれか、sortlm.pyの__read_ngramdのここ
for word in ngram:
agent = marisa.Agent()
agent.set_query(word)
if not self.__vocab_trie.lookup(agent):
continue
ids.append(agent.key_id())
単語表にないものについてはid.append()をngrams分登録できない…それに対し__write_ngramsでは
items = [(struct.pack("=LL", ids[1], unigram_offsets[ids[0]]), ids) for ids in keys]
ids[1]が存在することを前提にしている。故に、IndexErrorが起こる。

2023-09-12 21:25:36
icon

(この件に関しては言葉をオブラートに包む必要は一切ないと判断していますので、そのようにします。反論は一切無視で。)

2023-09-12 21:24:42
icon

件のプロダクションも滅んでいいと思います。マスコミとグルなら、まとめて消えれば良い。跡形も要らない。

2023-09-12 21:23:43
icon

マスコミの何社かが滅んでくれると良いかなーと思ってはいるのですが、なかなかそうはなりませんね…

2023-09-12 21:21:53
2023-09-12 21:16:28 宮原太聖(まち)の投稿 TaiseiMiyahara@matitodon.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 21:21:50
2023-09-12 21:15:14 宮原太聖(まち)の投稿 TaiseiMiyahara@matitodon.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 21:21:48
2023-09-12 21:14:38 宮原太聖(まち)の投稿 TaiseiMiyahara@matitodon.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 21:21:45
2023-09-12 21:12:47 宮原太聖(まち)の投稿 TaiseiMiyahara@matitodon.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 21:03:22
icon

素直にRaspberry Pi用DAC(PIFI DACなどという名称で売られているようだ)買った方が良さそうだな…変に悩むくらいなら。お金ちょっと張るけど。

2023-09-12 20:53:11
icon

@redbrick Arduinoって基本的に5V I/Oなので下手にARM系の基板に繋げない…

2023-09-12 20:34:24
icon

でも同じように見えるI2C CODECなボード、Raspberry Pi用としても売られてるんですが…?
aliexpress.com/item/1005005352

Web site image
4.72US $ 37% OFF|PCM5102 DAC Decoder I2S Player Assembled Board 32Bit 384K Beyond ES9023 PCM1794 Decoder Board Module For Raspberry Pi| | - AliExpress
2023-09-12 20:33:15
icon

だからIngressのアプリロゴが変わったのか…?

2023-09-12 20:32:53
2023-09-12 18:56:06 えあい:evirified::evirified::win98_shrimp:の投稿 Eai@stellaria.network
icon

ingressいつの間にかmachinaっていう人のいないところで繁殖する第三勢力が生まれてたんだけど、見事に人のいないところを示してるな

Attach image
2023-09-12 20:22:35
icon

IRSTLMの吐き出す.arpaなファイル、なんとなくだけど出現率のlog10をdoubleで出してる気がする…-4.6998e-05とか、-0.000145988とか、なんとなくfloatの域超えてるんじゃないかって。で、sortlm.pyはfloat(strv[0])みたいな形で読み取ってるけどpythonのfloatはCでいうところのdouble相当なのでこの部分での齟齬は無いと思いたい。

Pythonの浮動小数点数float型の範囲(最大値・最小値)(2023/7/12) note.nkmk.me/python-sys-float-

Web site image
Pythonの浮動小数点数float型の範囲(最大値・最小値) | note.nkmk.me
2023-09-12 20:16:28
icon

このPCM5102なI2S CODECなボード、Arduino用って書いてあるけど…BCK, DATA, LRCKに入ってる抵抗を取っ払って半田でショートさせたら3.3V I/OなARMのボードに繋がったりしませんかね…? aliexpress.com/item/1005005339

Web site image
5.59US $ 22% OFF|Pcm5102/pcm5102a Dac Decoder I2s Player Board 32bit For Arduino - Integrated Circuits - AliExpress
2023-09-12 07:44:28
icon

まあ、宮崎勉のおかげで「オタク=犯罪者予備軍」という空気が醸成され、パソコンオタクなんて言葉が存在して(今も存在してるか?)オタクを見たら叩いて殺せという扱いの時代にMSXとかいじっていた身には、流石に今のように情報機器が無ければ何もできないという時代に対してちょっとフクザツな気分になってるんだよ。もうイイ歳したオッサンだし…

ま、確かに「あれこれ」あったけど、良い時代になったとは思うよ?それが阿呆な方向へ進んで暗黒時代がまたやって来ないよう、目を光らせておかないといけないよね。歴史改変とかも流行ってるようだし。

2023-09-12 07:34:44
icon

過去も知らず<strike>最低限の敬意も持たずに</strike>に何イキってんの、という「感情」はあるかも。とはいえ、それは自分より経験値が上の人達が自分達に対して抱くものでもあるんじゃないかとは、思う

2023-09-12 07:32:24
2023-09-12 00:02:54 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

「アニメ見てるだけなのに自称オタク」とかそういうやつと同じことよ

2023-09-12 07:32:17
2023-09-12 00:02:31 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

不満に思うのもわからんでもない (それは「選ばれし人間」以外が雑に使うという形での特権性の侵犯に対する抵抗感であるともとれる) けど、どうあれそれは必然の帰結でしょうという感想しかない

2023-09-12 07:32:13
2023-09-12 00:01:17 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

そりゃそういう「選ばれし人間しか使えない称号」みたいなのを用意しちゃったら自分が特別だと思いたい人々がイキるために雑に濫用されるのは当然では?

2023-09-12 07:31:13
icon

個人がモデム使ってパソコン通信するのがやっとの頃、その裏(fjとか)でブイブイ言わせてた人達をインターネット老人というなら理解できるけど…

2023-09-12 07:23:43
2023-09-12 00:01:54 はるかみの投稿 reasonset@uchu-teien.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 07:23:41
2023-09-12 00:00:16 はるかみの投稿 reasonset@uchu-teien.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-12 07:23:23
2023-09-11 23:52:31 はるかみの投稿 reasonset@uchu-teien.com
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-11 21:43:00
icon

IRSTLMで、日本語ウェブコーパス2010の3-gramデータ(出現頻度1000以上)からdata.arpaを生成できたけど…例によって、sortlm.pyがエラー吐きますね…

適当にでっち上げたdata.arpaではない(ちゃんとした言語モデルになってるはずだ)から、sortlm.pyに何か問題がある可能性を考えないといけないのかもー

2023-09-10 23:22:24
icon

IRSTLMのページ、github上のを追うしかなさそう。hlt-mt.fbk.euのはweb archive上でしか見られないけどそんなに有用な情報は見当たらない…

web.archive.org/web/2021012618

2023-09-10 21:30:55
icon

How to distributed LM training: step 3に
「ngt -InputFile=TRAIN -FilterDict=DICT.000 -NgramSize=3
-OutputFile=WWW.000 -OutputGoogleFormat=yes」なんてあるので、どこかでGoogle形式を使っていそうな感じではある。

というか、step4を見るに、Google形式の3-gramのファイルのみを使って1-gram/2-gram/3-gramを生成し、最後にarpa化してる。

…試してみる価値はありそうだな?

2023-09-10 21:10:40
icon

2009年の時点で、SRILMでGoogle N-gramをARPA化できませんか?って話が出てる。
mailman.speech.sri.com/piperma
それに対し、SRILMはあくまでも仮の対応でしかしない(意訳)ので、MSRLMかIRSTLMを使えという返事が来ている。
mailman.speech.sri.com/piperma

2023-09-10 16:51:48
icon

少し…?あんまり変わらない…?うーん…?

2023-09-10 16:51:33
2023-09-10 16:49:26 さわじりの投稿 imgssy@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-10 16:12:38
icon

とりあえず、SRILM-FAQのB6) e)ただし-text tune.ext -vocab tune.vocab抜きでngram-countが通ることは確認した。

…で、ここからどうやってdata.arpa作るのかにゃ?

2023-09-10 16:09:14
icon

github.com/BitSpeech/SRILM/blo ←お前はこの存在を知っていながらちゃんと読んでないだろう?とお叱りを受けそう。

1gms/vocabは1-gramそのもの、
2gms/2gm-0000は2-gramのデータで、2gm.idx以降は各ファイルの先頭にあるN-gram…たとえば2gm-0000の最初のエントリが「<S> ぁ 60447」なら、2gm.idxの中身は「2gm-0000 <S> ぁ」みたいな感じ。

こんなの知るかああああああ💢、というのはただの逆切れですね。お見苦しいものをお見せして申し訳ない。

2023-09-10 15:34:59
icon

Google N-gramデータを持っている人にお願いしてそういう作業をしてもらう以外、なんか方法ないのかなあ。

2023-09-10 15:31:38
icon

日本語ウェブコーパス2010に転がってるN-gramデータをsrilmに食わせて、data.arpa(3-gram)を得られればそれで良いだけなんだがなあ…その作業に必要な情報(データフォーマット)を得るにしても、google謹製のN-gramデータを手にしないといかんとかそういう状況になってる?閲覧するだけでもお金払ってとか言われても無理なんすけど(データセットを使いたいんじゃなく、既にあるデータのフォーマットをgoogle形式に合わせたいだけ)。

2023-09-10 15:27:57
icon

DBpedia, Extremism, Drugなるデータセットを使ってなにやらやったってことまでは読めたけど…うーむむ local.cis.strath.ac.uk/wp/extr Textual Analysis for Document
Forensics (Alice Oberacker, Aug 2017)

2023-09-10 15:26:19
icon

ユーザの自由、というのを認めたくないというのが日本のメーカーの思考だと思ってる。パソコンよりもゲーム機が売れちゃうこのお国ですし。ゲームだってMOD文化を徹底的に否定してきましたよね?

2023-09-10 15:16:36
2023-09-10 15:13:45 hfpの投稿 hfp@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-10 15:15:47
icon

うーん、1gms/vocabは誤魔化したとして、2gms/2gm.idxってなんなのこれ…?

2023-09-10 14:58:00
icon

サディスティック・ミカ・バンド|ライブBlu-ray&DVD『晴天 ライブ・イン・トーキョー1989』11月22日発売 tower.jp/article/feature_item/

これはDVD版を買うべきか、Blu-ray版を買うべきか結構悩む。
PCでのBlu-ray視聴環境が無いので、DVDの方が扱いやすいんだけど居間のTVで見るならBlu-rayの方が良いし…

Web site image
サディスティック・ミカ・バンド|ライブBlu-ray&DVD『晴天 ライブ・イン・トーキョー1989』11月22日発売 - TOWER RECORDS ONLINE
2023-09-10 13:36:26
icon

もう意味が分からない

uaa@DESKTOP-251U0UF:~$ echo 蹴っ蹴っ蹴っ  | nkf -e | kakasi -KH -JH |nkf -w
けっ蹴っけっ 
uaa@DESKTOP-251U0UF:~$

2023-09-10 13:31:22
icon

二度呼びしないとダメ…?

uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる 
uaa@DESKTOP-251U0UF:~$ echo ふっ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっきれる 
uaa@DESKTOP-251U0UF:~$

2023-09-10 13:29:31
icon

自分もC++のヘッダファイルの中に関数の実体書くのは流石にどーよとは思っているんだけど…テンプレート使った場合はヘッダ(クラス定義)の中に書かないとうまくコンパイルしてくれない感じなので仕方なくそーしたっていう話。多分自分のやり方に問題があるだけなんだと思うけど。

2023-09-10 13:28:07
2023-09-10 13:22:14 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-10 13:27:30
icon

これはkakasiのバグなのかなあ?「っ」の後の漢字を仮名変換してくれない。

uaa@DESKTOP-251U0UF:~$ echo 蹴っ飛ばす  | nkf -e | kakasi -KH -JH |nkf -w
けっ飛ばす 
uaa@DESKTOP-251U0UF:~$ echo 吹っ切れる  | nkf -e | kakasi -KH -JH |nkf -w
ふっ切れる 
uaa@DESKTOP-251U0UF:~$

2023-09-10 13:21:39
icon

じゃあ「ヽヾゝゞ」なんかの対応も要らないかなー

2023-09-10 13:16:59
icon

uaa@DESKTOP-251U0UF:~$ echo 代々木  | nkf -e | kakasi -KH -JH |nkf -w
よよぎ 
uaa@DESKTOP-251U0UF:~$ echo 代々  | nkf -e | kakasi -KH -JH |nkf -w
だいだい 
uaa@DESKTOP-251U0UF:~$ echo 々木  | nkf -e | kakasi -KH -JH |nkf -w
き 
uaa@DESKTOP-251U0UF:~$ echo 々  | nkf -e | kakasi -KH -JH |nkf -w
 
uaa@DESKTOP-251U0UF:~$

々、の扱いも…単体では読めないものとしている(これについてはそれで良いのだと思う)

2023-09-10 13:15:52
icon

uaa@DESKTOP-251U0UF:~$ echo 〆切 | nkf -e | kakasi -KH -JH |nkf -w
せつ
uaa@DESKTOP-251U0UF:~$ echo 〆 | nkf -e | kakasi -KH -JH |nkf -w

uaa@DESKTOP-251U0UF:~$

〆切(しめきり)を認識しない…?

2023-09-10 12:05:01
icon

あ、読みに「ヴ」があった場合も考慮してなかったかも

2023-09-10 10:15:41
icon

関数テンプレートで実装される関数の実装のみ.cppに書いてあるのって、これダメ例なんですか…(大した量のコードじゃないので、ヘッダに関数の内容を実装して事なきを得た)

2023-09-10 07:29:35
icon

確かに言われてみれば非可逆の操作だな…ポストに投函。
とはいえ、e-mailも送ったものはよほどのことでない限り取り消せないから、これも非可逆操作と言えるな。
そう考えると怖いな、手紙やメールを送る行為。

2023-09-10 07:28:22
2023-09-10 06:47:59 rinsukiの投稿 rinsuki@mstdn.rinsuki.net
icon

郵便ポスト、非可逆な操作なので怖い