2023-09-30 22:03:17
icon

とりあえず今日は寝るとして…明日の昼くらいまでに終わってなかったら無圧縮でやり直しにしよう。

2023-09-30 22:01:47
icon

マシンは速ければ速いほどいい
ストレージは多ければ多いほどいい

…思いっきり実感させられます、こういうことしてると。

2023-09-30 22:01:03
2023-09-30 22:00:28 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-30 21:55:46
icon

そもそも何故一般の個人が言語資源の入手だのテキストマイニングの真似事だのをしなければいけないんですかね…?(困惑中

2023-09-30 21:54:24
icon

(ただの分かち書きで十分なはずなんだけど、日本語ウェブコーパス2010の作り方では品詞データを付ける(その割には捨ててる)とあるのでそれに倣ったらこうなったんですよ…)

2023-09-30 21:53:23
icon

テキストを圧縮しているので小さくはなるんだろうけど、単に単語を分かち書きするんじゃなく品詞データを付けちゃってるので圧縮対象となるデータ量はもりもり増えているのです…

2023-09-30 21:52:22
icon

しかもよりによって、mecab -Owakatiではなくmecabで食わせているので元のデータより膨れてるw

2023-09-30 21:51:47
icon

何も考えずにxz -cに食わせたので…うっうっ

2023-09-30 21:51:27
2023-09-30 21:51:14 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

xz -0はbzip2よりも速くて小さくなることがあるのでパラメーターが重要

2023-09-30 21:49:33
icon

やっぱそうですよねー(うっかりxzしちゃったので一旦止めようかこのまま放置しようか結構悩んでるところ…明日の朝まで放置かなあ)

2023-09-30 21:48:57
2023-09-30 21:48:25 redbrick@HyZERO3強制解約済みの投稿 redbrick@social.mikutter.hachune.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-30 21:29:00
icon

a8.netをブロックする方法って無いのかなあ。人気ランキングのバナーがデカくてウザい。

2023-09-30 21:20:53
icon

【研究】技術的側面からの検索エンジンの考察 ~第1回 テキストマイニングの基本中の基本、形態素解析とBOWとは~ (2018.04.09) mieruca-ai.com/ai/research-bas JUMAN→ChaSen→MeCab→(Sen)という流れになってたんですね…

Web site image
【研究】技術的側面からの検索エンジンの考察 ~第1回 テキストマイニングの基本中の基本、形態素解析とBOWとは~
2023-09-30 20:36:35
icon

(無圧縮だと4時間くらいで終わったタスクが6時間近く経過しても終わりません…)

2023-09-30 20:36:06
icon

もしかして:xzによる圧縮はクソ遅い

2023-09-30 15:02:14
icon

uaa@emeraude:~/nwc-toolkit/build$ time xzcat ~/ja.txt.xz |./nwc-toolkit-unicode-normalizer |./nwc-toolkit-text-filter |mecab | xz -c > ~/ja.mecab.txt.xz
ここから始めようか

2023-09-30 07:37:51
icon

頻度1以上 707235917
頻度10以上 56327440
頻度25以上 26442415
頻度50以上 14955969
頻度75以上 10679502
頻度100以上8390195
頻度1000以上 1097868

log(75)=1.875, log(395)=2.597、雑に計算して10倍程度の違いがあるから、頻度もそれくらいの違いで考えれば良いってことかなあ

2023-09-30 06:49:46
icon

日本語ウェブコーパス2010で頻度750以上の異なり数が8377628…これを満たす頻度を目指してみれば良いのかな

2023-09-30 06:44:38
icon

出現頻度1000で切ってみて、異なり数を数えてみると1097868、日本語ウェブコーパス2010の形態素N-gram(3-gram)だと6395754…1/6くらいのサイズしかないか。CC100-jaが75GB、nwc2010が396GBのテキストでやっているので、入力量に比例していると言っても良いのかも。

2023-09-30 06:35:14
icon

ソートは要らないかなあ…?どうせ読みを付加した時に付加するツール側でソートかけてるし。

2023-09-30 06:33:29
icon

3-gramだけ取れれば良いからzcat a.gz |awk '$4 {printf("%s %s %s\t%s\n",$1,$2,$3,$4)}'で。

2023-09-30 06:30:35
icon

ngram-counterの-sオプションは必須なのかなあ。これ1-gram, 2-gram, 3-gramを全部まとめて出すので後で分離しないといけないんだけど…

2023-09-30 06:23:40
icon

1-gram(単語)ではなく3-gramでの出現頻度で判断しているけど、出現頻度の一番大きい数が200617497なので、今作った3-gramではこれがどうなるかを調べることかなあ。

2023-09-30 06:13:47
icon

uaa@emeraude:~$ time nwc-toolkit/build/nwc-toolkit-ngram-counter -n 3 -l 24576 ja.txt.1
input: ja.txt.1
sentences: 592537734, tokens: 13797626505 (x23.29) (8105sec)
output: ngms-20230930-031634.0000.gz

real 167m6.627s
user 163m18.095s
sys 0m39.184s
uaa@emeraude:~$

あとはngram-mergerで3-gramの結果を得れば良い訳か。問題は出現頻度の値をどう設定するか、だよなあ。

2023-09-30 03:06:52
icon

uaa@emeraude:~$ !1989
time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1
output: (standard output)
input: (standard input)
output: (standard output)
input: (standard input)
74360361986 / 74359156435 (15614sec)
74359156435 / 70019552893 (15614sec)

real 260m15.239s
user 257m11.925s
sys 17m23.622s
uaa@emeraude:~$

2023-09-29 21:51:57
icon

ジョブ仕掛け直して寝るうううううう

2023-09-29 21:50:31
icon

ああああジョブ実行中のターミナル閉じたあああああ><

2023-09-29 21:45:41
icon

ジョブを仕掛けて寝ちゃいたいし、無駄にディスクを消費したくないことを考えると…

uaa@emeraude:~$ time cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter |mecab -Owakati > ja.txt.1

とでもしとこうかね。

2023-09-29 21:41:26
icon

20分で全体の1/5くらいが処理された感じか…?

2023-09-29 21:37:10
icon

nwc-toolkit-text-filterは必須だな。句点までを一文と認識して区切ってくれる。これで正しく<BOS><EOS>として処理ができるようになる。

2023-09-29 21:21:20
icon

uaa@emeraude:~$ cat ja.txt | ./nwc-toolkit/build/nwc-toolkit-unicode-normalizer |./nwc-toolkit/build/nwc-toolkit-text-filter > ja.txt.1
こんなんでどうかなー

2023-09-29 21:16:45
icon

正規化→文抽出→形態素解析→コーパス作成、の手順で良いんだろうな多分。

2023-09-29 21:15:05
icon

処理を行うたびに75GB近いディスクを食っていくんですけど…w

2023-09-29 21:12:44
icon

Web を母集団とした超大規模コーパスの設計 (浅原 正幸, 前川 喜久雄, 2013) www2.ninjal.ac.jp/past-events/ によると、収集したものを正規化→形態素解析という手順で処理していくとあるので、正規化が先ということで良いみたい。

2023-09-29 20:59:02
2023-09-29 20:57:13
2023-09-29 20:48:59 らりお・ザ・何らかの🈗然㊌ソムリエの投稿 lo48576@mastodon.cardina1.red
icon

デョスコード死んだのにまだ誰も「デスコード」って言ってなかったりする?

2023-09-29 07:54:04
2023-09-29 07:28:48 awayukiの投稿 cd408a69cc6c737ca1a76efc3fa247c6ca53ec807f6e7c9574164164797e8162@mostr.pub
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-28 18:59:53
icon

明るいナショナル (1980) youtube.com/watch?v=LA1-W-HdnG

Attach YouTube
2023-09-28 18:58:09
2023-09-28 18:16:59 餓鬼の投稿 hadsn@mstdn.nere9.help
icon

パナソニック? 贅沢な名前だねえ‥‥ あの時のお前の名前は松下電器産業だ。いいかい、松下電器産業だよ。

2023-09-28 17:50:20
icon

@hfp 害はないんでしょうけど、あんまり好きじゃないんですよね影が付くの…まあ諦めますw

2023-09-28 17:49:31
2023-09-28 17:45:00 FaBEの投稿 fabe@social.tchncs.de
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-28 17:47:46
icon

@hfp それ試してもダメでした…

2023-09-28 17:40:27
icon

そういえばWindows11、デスクトップのアイコン名に影を付けない設定にしているにも関わらず、影が付いてるんですが…これ直らないのかなあ。一旦付ける設定にしてから戻しても変わらないし。

2023-09-28 17:33:17
icon

明日のお宝は今日の空腹を満たしちゃくれない、どっかのTRPG関連の本で見た台詞なんですが…まさにそれ。

2023-09-28 17:32:23
icon

とはいえ、我々の懐が潤わないことにはやる気も上がりませんよ。鶏と卵の関係かもですけど…活力が欲しいんならそれに見合うもんを「先に」寄越せとは日々思っておりますので。

2023-09-28 17:30:24
icon

国力を上げないことにはどうにも…

icon

DSIRNLP06 Nested Pitman-Yor Language Model (2014.10.14) slideshare.net/uchumik/dsirnlp
「ちなみにNPYLMは特許が取られているため、公開される場合には注意が必要です」と最終ページにある(先のpostにあるmusyokuさんの記事でも同様の記述あり)

2023-09-28 17:18:03
icon

<tr1/なんとか>、を<なんとか>に直すのと、error_at_line()はerr()に無理やりまとめるところまではやったんだけど…CMakeが見つけたライブラリのヘッダ(は対応しているが)に加えてライブラリのパスも通さないといけないところで力尽きた…

2023-09-28 17:15:14
icon

nwc-toolkit、OpenBSD対応しようかと思ったけどなんかめんどいからLinux専用で放置しとこう。何かしらの環境で動けば良いし。

2023-09-28 16:57:46
2023-09-28 16:54:32 あっきぃの投稿 akkiesoft@social.mikutter.hachune.net
2023-09-28 16:57:45
2023-09-28 16:53:35 あっきぃの投稿 akkiesoft@social.mikutter.hachune.net
icon

公式ストアのカウンターにPiZero2Wリリース号が飾られてたんだけど、その号のインタビュー記事私なんですよね……(スーッ……)となった

2023-09-28 16:53:31
icon

!!

2023-09-28 16:53:24
2023-09-28 16:52:44 あっきぃの投稿 akkiesoft@social.mikutter.hachune.net
icon

公式ストアで紙版が買えるのと、PDFは無料でダウンロードできる(寄付も可能)。

2023-09-28 16:53:18
icon

異国の雑誌だから格好よく見えてしまう(補正がかかっている)のか、それとも日本のこの手の雑誌があんまし(自粛)なのか…

2023-09-28 16:51:53
icon

MagPi Magazine、面白そう magpi.raspberrypi.com/

Web site image
The MagPi magazine
2023-09-28 16:51:06
2023-09-22 07:11:30 あっきぃの投稿 akkiesoft@social.mikutter.hachune.net
icon

今日のラズピッピストアの戦利品。トート、マウスパッド、ステッカー、マグネットあたりはおみやげに。デバッグプローブはそのうち買おうと思ってたのでついでに。あとCM4。私は8GB RAM/16G eMMCになったのでこれからあそぶ

Attach image
2023-09-28 16:36:38
icon

test.c:11:2: warning: implicit declaration of function 'errc' is invalid in C99 [-Wimplicit-function-declaration]
NWC_TOOLKIT_ERROR("%s", string);
^
test.c:4:2: note: expanded from macro 'NWC_TOOLKIT_ERROR'
errc(-(__LINE__), errno, "%s:%d: " fmt, __FILE__, __LINE__, ## __VA_ARGS__)

2023-09-28 15:41:05
icon

町田某所で見たモバイルCT車から知ったんだけど、東芝メディカルシステムズってキヤノンメディカルシステムズに変わってたんですね…(5年前から)。

2023-09-28 15:36:17
2023-09-28 15:23:48 あっきぃの投稿 akkiesoft@social.mikutter.hachune.net
icon

Raspberry Pi 5 実機レビュー(外観編) | Japanese Raspberry Pi Users Group
raspi.jp/2023/09/raspberry-pi-

外見を舐め回すレビュー記事です

Raspberry Pi 5 実機レビュー(外観編)
2023-09-28 15:22:43
icon

error_at_line(-(__LINE__), 4, __FILE__, __LINE__, "%s", string);
errc(-(__LINE__), 4, "%s:%d: " "%s", __FILE__, __LINE__, string);
完全に同じではないけど大体同じ感じになる。

2023-09-28 15:15:39
icon

errc()はBSD方言…

2023-09-28 14:39:18
icon

statusは必ず-(__LINE__)なので0以外、であれば…
errc(_(__LINE__), errno, "%s:%d" fmt, __FILE__, __LINE__, ## __VA_ARGS__)
みたいな形に置き換えるのも手かなあ(できるんなら)。

2023-09-28 14:31:39
icon

linuxjm.osdn.jp/html/LDP_man-p
error_at_line(status, errnum, filename, linenum, format...)
statusが0以外だとexit(status)する。メッセージは標準エラー出力に吐き出す。

2023-09-28 14:15:38
icon

<error.h>なんていうLinux方言を使うなああああああああ💢💢💢💢💢💢(BSDユーザの叫び)

2023-09-28 14:12:02
icon
Web site image
use CMake instead of autotools to build nwc-toolkit on Debian-12 · jg1uaa/nwc-toolkit@469ea1a
2023-09-28 13:18:27
icon

40行に満たないCMakeLists.txtを書いて、ビルドできちゃいましたね…下手にautotoolsで苦労するくらいなら、CMakeに置き換えちゃうのも手なのかも。

2023-09-28 12:13:39
icon

まあ自虐的に老人って言ってるから老人会なんだろうけど

2023-09-28 12:12:34
icon

オッサンに対する敬意は無くても、爺さんには敬意が伴うもんだし。

2023-09-28 12:11:15
icon

中年よりも老人の方がイメージが良いから、じゃないの…

2023-09-28 12:11:01
2023-09-28 11:33:54 mzpの投稿 mzp@mstdn.nere9.help
icon

中年会がないのなんでだろ、中年は仲悪いんかな

2023-09-28 11:12:44
icon

なんかCMakeでごりっと書き直した方が良いのかこれ…?

2023-09-28 10:37:58
icon

g++ -Wall -Weffc++ -I../include `pkg-config --cflags icu-i18n` -g -O2 `pkg-config --libs icu-i18n` -o nwc-toolkit-text-extractor nwc-toolkit-text-extractor.o ../lib/libnwc-toolkit.a -llzma -lbz2 -lz

ああ、これダメだ。libnwc-toolkit.aより後にicuをリンクしないと。

2023-09-28 10:28:38
icon

C++のことだし、メソッドの引数の型があってないので対応するメソッド呼べないだけっしょ?と雑に考えてるけど果たしてどうかなー…?

2023-09-28 10:27:47
icon

undefined reference to `icu_72::UnicodeString::~UnicodeString()'
/usr/bin/ld: warning: creating DT_TEXTREL in a PIE

この辺の問題を解決できればいいんだとは思うが…

2023-09-28 10:26:48
icon

undefined reference to `icu_72::UnicodeString::extract(int, int, char*, unsigned int, char const*) const'
undefined reference to `icu_72::UnicodeString::UnicodeString(char const*, int, char const*)'
undefined reference to `vtable for icu_72::UnicodeString'
undefined reference to `icu_72::Normalizer::normalize(icu_72::UnicodeString const&, UNormalizationMode, int, icu_72::UnicodeString&, UErrorCode&)'

2023-09-28 10:22:18
icon

ぎゃあああああああああautoupdateしたらconfigure.acがああああああ><

2023-09-28 09:45:07
icon

いやこれ内部でStringクラス作って定義してる…

2023-09-28 09:32:39
icon

イマドキのC++の文字列操作って<string>読み込んでstd::stringの話ばっかりだから、String使ったコードを扱う場合にどうすりゃいいか分からないんだもん(昔のC++の本を引っ張り出せと…?)

2023-09-28 09:29:16
icon

std::stringじゃなく、String型の話ってのはどこにあるんだろ。

2023-09-28 08:47:54
icon

え゛ー、-DU_DISABLE_RENAMING=1でもだめなんか

2023-09-28 08:07:08
icon

C++(g++)のエラーメッセージがやたらと長いので解読に困ってる

2023-09-28 07:33:06
icon

U_DISABLE_RENAMINGについては特に何もないみいたいではある…かどうかは、icu-configじゃないので分からない。

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-i18n

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-io

uaa@emeraude:~/nwc-toolkit$ pkg-config --cflags icu-uc

uaa@emeraude:~/nwc-toolkit$

2023-09-28 07:32:30
icon

こいつはどーしたもんかな…

uaa@framboise:/usr/local$ icu-config --cppflags
-DU_DISABLE_RENAMING=1 -I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-i18n
-I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-io
-I/usr/local/include
uaa@framboise:/usr/local$ pkg-config --cflags icu-uc
-I/usr/local/include
uaa@framboise:/usr/local$

2023-09-28 07:28:43
icon

Debian上でpkg-configすれば…

uaa@emeraude:~/nwc-toolkit$ pkg-config --libs icu-i18n
-licui18n -licuuc -licudata
uaa@emeraude:~/nwc-toolkit$

2023-09-28 07:28:33
icon

uaa@framboise:/usr/local$ icu-config --ldflags
-L/usr/local/lib -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-i18n
-L/usr/local/lib -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-io
-L/usr/local/lib -licuio -licui18n -licuuc -licudata
uaa@framboise:/usr/local$ pkg-config --libs icu-uc
-L/usr/local/lib -licuuc -licudata
uaa@framboise:/usr/local$

OpenBSD上でこれ。

2023-09-28 07:27:13
icon

iconv見つからないんですけど、はiconv無ければ即エラーとするconfigure.acを直せば良いとして…icu探すのにicu-configが無いって問題はちょっと面倒かも。

2023-09-28 04:59:19
icon

とりあえずnwc-toolkit-0.0.2のビルドはOpenBSD上での話は置いといて、Linux(Debian)上でやる訳ですが…iconv見つからないんですけどとか言われる問題を直さないといけなくて。

2023-09-28 04:55:38
icon

configure:5182: c++ -E conftest.cpp
conftest.cpp:22:10: fatal error: 'unicode/unistr.h' file not found
<unicode/unistr.h>
^~~~~~~~~~~~~~~~~~
1 error generated.

CFLAGS/CXXFLAGSは設定しているのに、それを反映せずヘッダ読もうとしてるそちらさんの問題では…?

2023-09-28 04:54:53
icon

checking unicode/unistr.h usability... yes
checking unicode/unistr.h presence... no
configure: WARNING: unicode/unistr.h: accepted by the compiler, rejected by the preprocessor!
configure: WARNING: unicode/unistr.h: proceeding with the compiler's result
checking for unicode/unistr.h... yes

いやいやそんなこと言われてもですね。

2023-09-28 04:45:39
icon

ん-、nwc-toolkit-0.0.2、OpenBSD上だとicu4cを見つけられないぬー。ちゃんと/usr/local/includeにヘッダ置いてるのに(まあいつものことでこのディレクトリを見てくれないだけだと思うけど)。

2023-09-28 04:41:03
icon

なんつーか、「今更あんたそんな古いもん触ってるの?時代はもっと先よ??」、もしくは「バスはとっくに出ちゃってるけど今更乗り場に来た訳?時刻表ちゃんと見た??」感が凄くてすごく嫌なんだけどね。そう思われるのが嫌というのもちょっとあるけど、むしろ間の悪さっていうのかな…祭りの終わった後にのっそりやって来てその虚しさを味わうというか。

いつもいつも、そんなのばっかりで。

2023-09-28 04:38:39
icon

nwc-toolkit、Google Codeへのリンクを張って「使えなさそうで使えません.」というなら…国語研のアレも0.0.2を使っている以上は0.0.2を改修して使うのが筋だろうか。改修ったってエラーが出てビルドできない状態を直すだけですが。 s-yata.jp/projects/

プロジェクト
2023-09-28 04:29:19
icon

ぃゃぃゃぃゃぃゃ、作者居るよねここに。アカウント名違うけど。 github.com/s-yata

Web site image
s-yata - Overview
2023-09-28 04:24:55
icon

nwjc2vec:『国語研日本語ウェブコーパス』 に基づく単語の分散表現データ (浅原 正幸, 岡 照晃, 言語処理学会 第23回年次大会 発表論文集, 2017.3)によれば、nwc-toolkit-0.0.2を使っているが「現在公開停止」の注釈がある。

…どういうことだ…

2023-09-28 04:20:08
icon

中納言やめるってよ masayu-a.github.io/NWJC/
んでもって、データは研究所内に囲っておくと。ほーん…

『国語研日本語ウェブコーパス』
2023-09-28 04:15:56
icon

nwc-toolkit、Google Codeでは0.0.2になっているけど code.google.com/archive/p/nwc- GitHub上でが0.1.0になっていて github.com/xen/nwc-toolkit/com 、ログを見る限りでは作者の手による最新版っぽいものに見えるんだけど… とはいえその作者はGitHub上に居ないか別垢で活動してるかのどっちかといった状態っぽいんだよなあ。

メンテしないことには全く動かせないんだけどそのフィードバック先があるんだか無いんだか分からないしリポジトリも荒らしたくないし、それ以前にどこを作業の起点にすれば良いのやら。

Google Code Archive - Long-term storage for Google Code Project Hosting.
2023-09-27 22:35:20
2023-09-27 22:33:44 uaaの投稿 1f46356a832a4b2d65c12e9f7c6fd8608a285b1efa896773f4f67c6ee9e33e21@mostr.pub
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-27 22:29:33
icon

store.steampowered.com/app/247 Ray'z Arcade Chronogy…待て待て待て待て、そんなの出たって聞いてないぞ(今は無理だけどいつか買う!)。

2023-09-27 22:27:18
icon

ギンガフォースとナツキクロニクルが割引価格で出ていたけど…SHUMP(Shoot 'em ups)フェスの影響なのかなあ。とりあえず積んでみたけど(やれよ>自分)。

2023-09-27 22:24:23
icon

それにしても…Steamの積みゲーが多いな…w

2023-09-27 22:22:28
icon

そういえばSteamポイントって何に使えるんだろう。よく分からんのでとりあえず貯めとくけど、貯めとくだけで役に立たないっていうのもなんかねー…って。

2023-09-27 22:17:10
icon

ラジルギ2(初代ラジルギ収録!) Switch/PS4/PS5だったら何故Steamへ来ないの…? beep-shop.com/sap/radirgy2/

Web site image
スーパーアレンジプロジェクト第二弾『ラジルギ2』
2023-09-27 22:11:37
icon

バテンカイトス/斑鳩はGAMECUBEから他のプラットフォーム(PC)へ来るだろう/とっくに来ているので…あとはラジルギをぜひともお願いしたい。流石に任天堂タイトルのF-ZERO GXは無理だろうけど(それはイマドキの任天堂機でやれば良いって話なんだろうし)。

2023-09-27 22:09:21
icon

バテンカイトス、リメイクが出るって知ったのは実は最近で(3月くらいから話出てたみたいですね)Switch版しかないならSwitch版買うかーって思ってはいたんですが…Steam(PC)配信あるなら当然PCでしょ。

2023-09-27 22:05:10
icon

やっぱ今後もGMOとは距離を置くのが正解っぽいですねー(ConoHa VPSが気になってた時期はあったけどGMO系という理由で手を出さないでいたんですが…この扱いも継続で良いですね)

2023-09-27 22:03:10
2023-09-27 21:58:16 quoizの投稿 quoiz@mastodon.juggler.jp
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-27 22:02:44
icon

ゲームキューブの名作RPGがPCにも?『バテン・カイトス I&II HD Remaster』PC版がオーストラリア等級審査委員会の評価を受ける(2023.9.26) gamespark.jp/article/2023/09/2
PC版出るなら買いますよ?GAMECUBE版は中古で買って最初の方だけ遊んではいましたが…続きをやろうにもGAMECUBE動かなくなっちゃってどうにもならなくなってしまいましたし。

Web site image
ゲームキューブの名作RPGがPCにも?『バテン・カイトス I&II HD Remaster』PC版がオーストラリア等級審査委員会の評価を受ける | Game*Spark - 国内・海外ゲーム情報サイト
2023-09-27 21:57:00
icon

s3-ap-northeast-1.amazonaws.com ってどこにあるんだろう。tracerouteすると、nfgw1-be1.at-dc.zaq.ad.jpの次…J:COM出たらすぐそこって感じの場所にいるみたいなんだけど。国内?

2023-09-27 21:30:00
icon

nwc-toolkitのビルドが通らないですね…

2023-09-27 07:33:10
icon

printf(fpo, "%ls\t%ld\n",
あれか、<inttypes.h>を使えと…あとで直しておこう

2023-09-27 07:31:24
icon

VMware Player上のRaspberry Pi Desktopだと動いちゃいるみたい。fprintfの引数がおかしいと怒られたけど。

2023-09-27 07:08:08
icon

(こういう時に、下手にあれこれ対応するようツールを拡張した自分を呪いたくなる)

2023-09-27 07:07:27
icon

ChaSenとMeCabは置いといて、libkakasiだけでもOpenBSD上で使えるようにしておくべきか…いちいちLinux機へログインして作業するのはすっっっっっっごく不便だし。

2023-09-27 07:02:54
icon

nwc2010-libkkc、なんかWSL2上のUbuntuじゃファイルを生成できないんですけど…その割にエラーも出ないという…どうなってるのこれ。

2023-09-27 07:02:12
icon

POSIX互換だからってことでbashじゃなくdash使ってるのか、Debian/Ubuntu。個人的にLinuxはbashであるべしと思っているので(Slackwareから始めた身だから…刷り込みは怖い)、しれっとdashを混ぜるというのはどうかと思ってしまう。

2023-09-27 06:44:27
icon

bashとdashのエスケープシーケンスの挙動の違いに最近悩まされたような気がする…ウッ

2023-09-26 22:43:49
icon

とはいえ、うちのガキんちょ共にこれ見せても多分「なんでこんなに音質悪いのー?」と言われるのがオチなんだろうなあ。

あの時代の貧弱なハードウェアで、どうにかしてやっちまおうという部分が見ていて燃えるのに(ゲームの内容についてはあんまり考えてないです、すみません)。

逆に言えば、あの時代を見ていないと何が凄いのか全く理解してもらえないってことなんだろうなあ。そこまで説明するのが面倒なのでもういいやって自分はぶん投げちゃうダメな人なんですけど。

2023-09-26 22:35:12
icon

久々に見てはみたが…SFCでこれやったのか…(驚)

SFC テイルズオブファンタジア OP
youtube.com/watch?v=moN-c0DzSi

Attach YouTube
2023-09-26 22:32:36
icon

Tales of Phantasia(SFC)とかオープニングで歌ってましたよね。今の技術だったらSFCでももう少しクリアな音質で歌わせることができるんでしょうか…?(わくわく)

2023-09-26 22:31:39
2023-09-26 22:20:45 kb10uyの投稿 kb10uy@mstdn.maud.io
icon

SFC/GBA 世代だと拡張なくてもサンプル流せるからそういう意味での拡張音源の需要は下がったんだろうか(でも SFC には スーパー FX チップとかがあるな……)

2023-09-26 22:31:12
icon

MSXだってOPLL(MSX-MUSIC)だのY8950(MSX-AUDIO)だのSCCだのといった拡張音源をカートリッジに載せて、PSG鳴らす(のでPSGと拡張音源との音量バランスが問題になった)なんてのがありましたねえ…

2023-09-26 22:29:02
icon

oldshop.switch-science.com/pre こんなのが売られてたのか…NESの音声入力端子に入れられれば何つないでも良いはずなので…そういうのもアリかも(震えてる)

Web site image
ヤマハNSX-1搭載Arduino用音源シールド eVY1シールド - スイッチサイエンス
2023-09-26 22:21:33
icon

悪魔城伝説(VRC7)とかGimmick!(SunSoft5B)は結構イイ音してるし、なんかそういう拡張音源カートリッジを沢山突っ込んで鳴らしてみた系の動画とかもあるようで。

nicovideo.jp/watch/sm19831733

Web site image
ファミコンを「もっと」拡張しまくった。
2023-09-26 22:16:17
2023-09-26 22:15:37 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

ファミコンの拡張音声機能はこんなにたくさんのゲームで使われていたのか。

https://www.nesdev.org/wiki/List_of_games_with_expansion_audio

2023-09-26 22:15:37
icon

Intel ArcのAV1エンコードって画質どうなんだろう…(動画のエンコードってあんまりやらないのでよく分かっていない)

2023-09-26 22:02:34
2023-09-26 21:49:30 kb10uyの投稿 kb10uy@mstdn.maud.io
icon

1) 用法、用量を守ること。
2) 服用する前によく考えること。
3) 大きな薬効には大きな副作用が伴うこと。

2023-09-26 22:02:30
2023-09-26 21:50:38 kb10uyの投稿 kb10uy@mstdn.maud.io
icon

あなたは薬剤師から講習を受けたはずです。
これは通常以下の 3 点に集約されます:

2023-09-26 21:15:32
icon

それにしても、(分かっていることではありますが)その辺のdata.arpaをlibkkc-data製造用のツールにぶち込んでもうまく動かない問題への対処法について、未だ反応無いっすね…まあそーゆうもんなんでしょうが。

2023-09-26 21:13:38
icon

一体どんな言語資源から学ばせたんだよと小一時間問いつめませんけど…この辺りの、資源の選択とかも考えないといけないんだろうなあ。

とはいえ、そもそもdata.arpaの作り方が公表されてるかどうかよー分からんので自力で無理矢理作ってみることが発端ですしそれが分かった以上はあとは誰かにぶん投げたいというのが正直なところなんですよ。終わりがないので。

2023-09-26 21:10:20
2023-09-26 21:10:03 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

語尾をカタカナにするの昔の漫画とかの印象がある

2023-09-26 21:04:05
icon

結局暮らしの中に取り入れて使ってみないことにはこの手のツールの使いやすさは判断しづらいものがあるからなあ。

「あるからなあ」が「あるからなア」になってるムキー…

2023-09-26 21:03:08
icon

出現頻度750辞書にしたせいかは分からないけど、「ですよねー」が「ですよネー」にならない。出現頻度の閾値を下げて単語数を増やしゃいいってもんじゃないのは確かそうだな。

とはいえ、どこで線を引くのがまあまあ使いやすい辞書になるのかというのは正直よく分からない。640は使いにくい感じがあった、さて750はどうなんだろう(ここんとこ750しか使ってないけど)。

2023-09-26 20:28:07
icon

口語体で書くと、語尾の部分を「ですよネー」な形で片仮名化してくれるのがちょっと面倒だな。出現頻度750の時はそんなに感じなかった気がするが…?

2023-09-26 20:26:52
icon

7〜8割の人が抱える問題の、7〜8割くらいが解決できるようなもので十分じゃないのーと割とユルく考えてるんですが…フツーの人は「それって49〜64%しか物事解決できてないですよね、不合格じゃないんですか」とバツつけてくれますよねー…

2023-09-26 20:23:56
icon

nwc2010-libkkcの、kakasiだと「ヴ」をちゃんと扱えない問題を修正したので(面倒なのであんまりやりたくなかった)辞書の作り直し。出現頻度を750→640にして少し単語数を増やしてみたけど使い始めたばかりなので評価しようがない。

2023-09-25 22:34:56
icon

(議題、というキーワードからふと連想してしまったけど…でも議事録の内容はちょっと偏りがあるかなあ?)

2023-09-25 22:32:40
icon

議会の議事録って言語資源として使えないのかな…?

2023-09-25 22:32:02
2023-09-25 22:31:24 Masanori Ogino 𓀁の投稿 omasanori@mstdn.maud.io
icon

国会の議題が公開されていても人々は見ないし、ソフトウェア開発の課題リストが公開されていても人々は見ないし、どちらも正式版がリリースされてから大騒ぎになるということなのかもしれない

2023-09-25 22:28:16
icon

ChaSen対応は意外に簡単にできたけど…どうも漢字かな変換に癖があるな。MeCab, kakasiと比べてみたけど…なんとなく、雑にフリガナを振るならkakasiが良い気がする。まあ形態素解析器を辞書代わりに使うのと、漢字仮名交じり文を平仮名に変換することを目的としたプログラムなら、後者の方が良いのでは?というのは特に不思議な話ではないだろうし。

2023-09-25 21:35:14
icon

出力結果をパースしないといけないのかと思ったけど、chasen、出力フォーマットを指定すれば読みだけ簡単に取れるのね…

uaa@emeraude:~$ echo "生麦生米生卵" | chasen -F "%y"
ナマムギナマヨネオタマゴ
uaa@emeraude:~$

ナマヨネオはともかくとして。

2023-09-25 21:21:17
icon

uaa@emeraude:~$ echo "生麦生米生卵" |chasen -b -c
生麦 ナマムギ 生麦 7 0 0
生 ナマ 生 42 0 0
米生 ヨネオ 米生 11 0 0
卵 タマゴ 卵 2 0 0
EOS
uaa@emeraude:~$

…ちょ

2023-09-25 06:59:31
icon

juman対応入れてはみたけど一晩回しても結果が出ないのは流石に遅すぎて使えないのでテスト用のブランチに放り込んで寝かせておくことにします。代わりにkakasi使用時に「ヴ」を含む文字列がちゃんと処理できなかったバグを見つけて潰せたので、無駄な作業ではなかった。

2023-09-25 06:50:06
2023-09-25 04:27:59 KOBA789の投稿 koba789@misskey.io
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-24 22:09:03
icon

MeCabに倣い、カタカナ化すればいい
uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KK -JK |nkf -w
ヴァイオリン
uaa@emeraude:~/nwc2010-libkkc$

2023-09-24 22:07:32
icon

なるほど、これに引っかかってkakasiだと「ヴ」を含む候補が処理できない…

uaa@emeraude:~/nwc2010-libkkc$ echo "ヴァイオリン" |nkf -e |kakasi -ieuc -KH -JH |nkf -w
う゛ぁいおりん
uaa@emeraude:~/nwc2010-libkkc$

2023-09-24 21:49:14
icon

JUMANの処理が遅すぎる…というか、漢字を含まない(ひらがな/カタカナのみ)ものであればひらがな変換するコードを通せばいい…いちいち形態素解析エンジンにお願いする理由は無いんだよな。

2023-09-24 21:22:43
icon

もしかして:JUMANサーバ、OpenBSD上の実マシンじゃなくnwc2010-libkkcの動くLinuxマシン上のQEMU上で動かした方が実は早いのでは…

2023-09-24 21:01:03
icon

chasen-2.4.5、サーバモード削除してる?2.2.9ではサーバモードあるみたいなんだけど。 whitewell.sakura.ne.jp/semi2/c

2023-09-24 20:48:02
icon

ChaSen(-legacy)、OSDNにあるけど…なんでこんなクソ重いのOSDN。 ja.osdn.net/projects/chasen-le

Web site image
ChaSen legacy プロジェクト日本語トップページ - OSDN
2023-09-24 20:33:22
icon

TCP/IP越しにJUMANサーバへアクセスしているのでこれがまあ遅い遅い遅い遅い…止まっていないだけましなんだろうけど。

2023-09-24 20:28:33
icon

ChaSenのサーバモードって、JUMANと同じプロトコルなのかなあ。同じだとしたら、こっちも楽できるんだけど…

2023-09-24 19:36:38
icon

うーん、JUMANよりChaSenの方が良いのかなあ。

2023-09-24 19:31:41
icon

kakasiですら「菓」を読めているというのに??
uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | nkf -e |kakasi -JH -KH |nkf -w
かたくみろくべえ
uaa@framboise:~/juman/dist/bin$

2023-09-24 19:30:07
icon

これは通るのに?
uaa@framboise:~/juman/dist/bin$ echo "菓子折" | ./juman
菓子 かし 菓子 名詞 6 普通名詞 1 * 0 * 0 "代表表記:菓子/かし カテゴリ:人工物-食 べ物 ドメイン:料理・食事"
折 折 折 未定義語 15 その他 1 * 0 * 0 NIL
EOS
uaa@framboise:~/juman/dist/bin$

2023-09-24 19:29:37
icon

…へ?

uaa@framboise:~/juman/dist/bin$ echo "菓匠禄兵衛" | ./juman
菓 菓 菓 未定義語 15 その他 1 * 0 * 0 NIL
匠 たくみ 匠 名詞 6 普通名詞 1 * 0 * 0 "代表表記:内匠/たくみ カテゴリ:人"
禄 ろく 禄 名詞 6 普通名詞 1 * 0 * 0 "代表表記:禄/ろく カテゴリ:人工物-金銭"
兵 へい 兵 名詞 6 普通名詞 1 * 0 * 0 "代表表記:兵/へい 漢字読み:音 カテゴリ:人 ドメイン:政治"
衛 まもる 衛 名詞 6 人名 5 * 0 * 0 "代表表記:衛/まもる 人名:日本:名:628:0.00025"
EOS
uaa@framboise:~/juman/dist/bin$

2023-09-24 10:47:46
icon

uaa@framboise:~$ echo "生麦生米生卵" |nkf -e |kakasi -JH -KH | nkf -w
なまむぎなまこめなまたまご
uaa@framboise:~$

uaa@framboise:~$ telnet localhost 32000
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
200 Running JUMAN version: 8.0
RUN -b -c
200 OK
生麦生米生卵
生 せい 生 6 1 0 0
麦 むぎ 麦 6 1 0 0
生 せい 生 6 1 0 0
米 こめ 米 6 1 0 0
生卵 なまたまご 生卵 6 1 0 0
EOS

ええええええええええ…

2023-09-24 06:57:06
icon

まあメンテナがnamazuな方なので多分なんとかなる…よね…?

2023-09-24 06:56:37
icon

とりあえずreportbug投げてみる。

bugs.debian.org/cgi-bin/bugrep

あ…文字コードがUTF-8になってない(JISじゃんこれ)

#1052526 - juman: the result is nothing - Debian Bug report logs
2023-09-24 06:25:53
icon

Debian-12で、デフォルトのgcc-12じゃなくgcc-11に落としても状況変わらず。WSL2上のUbuntuはgcc-11だったという理由で試したんだけどねえ。

2023-09-24 06:19:46
icon

juman-serverはIPv4専用っぽいな。v6まで考えなくて良しと。

2023-09-24 06:18:13
icon

OpenBSD上ではちゃんと動いてる。まあ最悪の場合ここでjuman-serverを試すということで良いんだろうけど。Debian-12機が壊れてる可能性もあるので他のDebian-12機でもjuman試しているけど、同様に動いてないのでDebianの問題と言って良いのかも(でもDebianになんか変なクセってあったっけ…?)

2023-09-24 06:09:51
icon

juman(juman++じゃない方)、aptなパッケージじゃなくgithubからビルドしてもDebian-12上だと何突っ込んでもEOSしか返らない現象が起きますねえ。辞書はちゃんと参照できてるみたいなんだけど。

2023-09-24 06:02:09
icon

Cの場合、if (hoge == TRUE)とか(fuga == FALSE)って確かすべきではない(どっちかというと禁じ手)じゃなかったっけ?単にif (hoge)ないしif (!fuga)で足りるんじゃ