2023-9-3 - Posting @uaa@social.mikutter.hachune.net

Sun	Mon	Tue	Wed	Thu	Fri	Sat
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

21:24:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@framboise:/usr/include$ echo ○１ |nkf -e |kakasi -KH -JH | nkf -w
○１
uaa@framboise:/usr/include$

変換できないものは素通しか。

21:20:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT 自体はUnicode Term of Useに従うとして、派生物もそれを継承するって理解で良いんだろうか？
いちいち書くのが面倒なのでSPDX-License-Identifier: Unicode-TOUと書くけど。 https://spdx.org/licenses/Unicode-TOU.html

https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT

https://spdx.org/licenses/Unicode-TOU.html

Unicode Terms of Use | Software Package Data Exchange (SPDX)

20:51:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

https://github.com/loretoparisi/kakasi/blob/master/kakasidict

20:50:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

kakasiはUTF-8に対応するものの、kakasidictはEUCで書かれているが故にEUCの範囲でしか漢字→かな変換はできない。【】などの記号類や全角英数字に対する読みも未定義。

…ってことは、UTF-8をそのまま食わせても良いんだけど、処理可能な文字が含まれているかどうかのチェック＋EUC化みたいなフィルタを入れた方が安全なのかもしれないな。

ASCII(0x00-0xFF)の範囲は蹴るようにしていたけど、JISのひらがな・カタカナ・漢字以外の部分（記号とかアルファベットとか）も蹴った方が良いのかもしれない。

19:34:56 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 19:23:45 Posting Masanori Ogino 𓀁 omasanori@mstdn.maud.io

getwcをwchar_tの変数で受ける（正しくない）コードでもwchar_tがsignedなシステムならWEOFが-1でなんか偶然うまくいくかもしれない

19:15:13 SASANO Takayoshi @uaa@social.mikutter.hachune.net

OpenBSDにおいては、wchar_tはintと定義されてるみたい。負のキャラクタコードもアリなのか…（無いよね？）

19:13:00 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ああ、思考を垂れ流しにしていますが実行するかどうかは別問題ですのでー

19:12:36 SASANO Takayoshi @uaa@social.mikutter.hachune.net

でもdata.arpaを見るに、
-2.131363 おたく/オタク？/？ -0.072304
みたいに変換できなかったものも平然と？で出てくるので、あまり厳しいことをしても意味は無いのかもしれない。

とりあえず何が削られたか、という一覧も要確認か。

19:11:12 SASANO Takayoshi @uaa@social.mikutter.hachune.net

obsoleteだが…ここに定義されている文字が含まれていない（UTF-8→JISへの変換ができない）エントリは無条件で除外、ただし<S></S>の類は除く、みたいな処理にするか？変換テーブルは https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT を使えば良いかな…

https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT

18:48:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

libkkc-data（のdata.arpa）が如何にして作られたか、という作り方がどこかに書かれていれば、その作り方で適当なコーパスを食わせて…ということができるんだろうけど、無い以上は模索するしかない。作者に聞けばすぐに答えが出てくる問題という気もするけど。

18:44:15 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@DESKTOP-251U0UF:/mnt/e/corpus/nwc2010-ngrams/word/over999/3gms$ echo "かな漢字ヘンカン" | nkf -e | kakasi -KH -JH| nkf -w
かなかんじへんかん
uaa@DESKTOP-251U0UF:/mnt/e/corpus/nwc2010-ngrams/word/over999/3gms$

kakasiでまとめて処理、で良さそうだけど…UTF-8非対応って辺りがまた難易度高いな。kakasiで処理が難しそうなデータも、事前に切っておく必要があるんだろうね。

18:35:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

でもsrilmの出力は<s></s>化されているので、ここは気にしなくて良いかな…？

18:34:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

多分問われないとは思うんだけど、日本語webコーパスは</S>、libkkc-dataのdata.arpaは</s>なのでこの辺も似せておく必要がありそうな気がする。

18:31:48 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ngram-format http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html を見るに、ngram 1=n1のn1はエントリ数になるから、後加工でも大丈夫そう。あと、多分半角英数とか記号だけといったデータは元データから省いた方が良さそうな気がする。

http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

18:25:25 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なんだろうこれ…
鼻で息 4389
という元データを、
はな/鼻で/でいき/息 4389
みたいな形に加工してから食わせるのか、あるいは出力された3gram.txtの結果を処理するのか（でもARPAヘッダの存在を考えると元データ側に手を入れてそうな気がする）

18:18:27 SASANO Takayoshi @uaa@social.mikutter.hachune.net

出現頻度1000以上の形態素N-gram(3-gram)をsrilmで処理するのにかかった時間は3分くらい。出力された3gram.txtはARPA形式なので、冒頭が
\data\
ngram 1=236180
ngram 2=5654587
ngram 3=1355192

\1-grams:
-4.257625 " -0.3292079
-7.02774 "" -0.2590316
となってる。一方、libkkc-dataのdata.arpaは
\data\
ngram 1=118333
ngram 2=775414
ngram 3=1777469

\1-grams:
-2.105448 </s>
-99 <s> -0.203198
-4.499434 ’/’ -0.277539
-5.607917 ’’/’’ -0.262133
-5.793264 ’・/’・ -0.118066

…コーパスをそのまま食わせるのでは多分ダメ。

18:03:16 SASANO Takayoshi @uaa@social.mikutter.hachune.net

…ノウハウの確立にそこまでデカい（取り回しの悪い）データ使う必要、無いんじゃないのかなあ自分。
日本語ウェブコーパス2010の、頻度100以上を使っているけど…1000以上で始めた方が…？＞自分

17:56:28 SASANO Takayoshi @uaa@social.mikutter.hachune.net

xzcat *.xz > 3gm
~/srilm/bin/i686-m64/ngram-count -order 3 -text 3gm -lm 3gram.txt
一体何が出てくるのやら

17:42:11 SASANO Takayoshi @uaa@social.mikutter.hachune.net

実は"abc"[1]の代わりに1["abc"]なんて記法ができるなんて、今の今まで知らなかったです…知ったところで使いようがないんですけど。

17:40:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

難読化の話（超！？入門編） (2018/07/26) https://netagent.co.jp/study/blog/hard/20180726.html で紹介されていたUnderstanding Misunderstandings in Source Code https://atomsofconfusion.com/papers/understanding-misunderstandings-fse-2017.pdf 、Table1の「べからず例」は結構やってしまっている箇所があるな…まあstyle(9)で{}の括り方が規定されている以上、これについては言ってくれるなというのがあるけども。

if (4 % 2)みたいな0→falseを前提としているとか、三項演算子は結構好んで使ってたりする。

https://netagent.co.jp/study/blog/hard/20180726.html

難読化の話（超！？入門編）

https://atomsofconfusion.com/papers/understanding-misunderstandings-fse-2017.pdf

17:25:57 SASANO Takayoshi @uaa@social.mikutter.hachune.net

表に出ないソースコードは難読化なんてしないけど、web領域だと見えちゃうことを避けられないみたいだし…開発時は普通に、webサーバ上に上げる時は難読化するとかそういうことくらいはしていてもおかしくない気が。

17:24:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 17:24:16 Posting redbrick@HyZERO3強制解約済み redbrick@social.mikutter.hachune.net

This account is not set to public on notestock.

16:54:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

SystemGear製の抗菌磁気カードリーダー(PDC-30) https://www.systemgear.com/prd/magneticcard/pdc30/pdc30.html に見えますね…面白そう。

https://www.systemgear.com/prd/magneticcard/pdc30/pdc30.html

磁気カードリーダーPDC-30。金融機関、医療機関でのセキュリティーシステムの個人認証、商業施設での会員管理で信頼の実績。JISZ2801準拠の抗菌仕様ですので、食品業界、医療現場にも最適。日本国内製造品。

16:53:53 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 16:52:45 Posting あっきぃ / C106(日)東7S-33b akkiesoft@social.mikutter.hachune.net

アキバはこういうのだよな！ちゅった。が、なんに使うんやこれ

16:52:52 SASANO Takayoshi @uaa@social.mikutter.hachune.net

SXGAからFullHDへ移ってはみたけど…確かに最近、手狭になってきたような気がする。80×30字のコンソールを6つも開けるようになったのは確かに広いっちゃ広いんだが…それだけ開いてる訳でもないし。

16:51:29 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 16:03:47 Posting オガサワラペンギン boronology@social.penguinability.net

This account is not set to public on notestock.

16:51:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 16:03:10 Posting オガサワラペンギン boronology@social.penguinability.net

This account is not set to public on notestock.

16:14:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

デバイス系よりweb系の方が、ソフトウェアによるソフトウェアのって部分があるので色々介入しやすそうですね…最悪の場合、ブラウザに手を入れて動きを見るなんてこともできそうですし。

16:10:39 SASANO Takayoshi @uaa@social.mikutter.hachune.net

んー…
https://js.gsspcln.jp/t/399/201/a1399201.js はかるーく難読化かけてるみたいだけど
https://works.gsspcln.jp/w/ad_format/gnScrollCatch_multi.js ってそういう小細工してないですよね。
こういう手合いについては詳しくないんですけど、この前マクドナルドで飯食ってた時に「素性を抜かれないようにあれこれ細工するのが基本」って女子高生が言ってた気がします。
自分みたいなシロートにどこどこの企業か…なんて突き止められるのって、その基本ができてないってことなんですよね？

https://js.gsspcln.jp/t/399/201/a1399201.js

https://works.gsspcln.jp/w/ad_format/gnScrollCatch_multi.js

16:03:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

gssprt.jpに関しても、同様に http://geniee.co.jp/ が窓口になってますねえ…

http://geniee.co.jp/ https://geniee.co.jp/

株式会社ジーニー Geniee,Inc.

16:01:15 SASANO Takayoshi @uaa@social.mikutter.hachune.net

悪名高きスクロール妨害広告を解析する (2023/8/25) https://qiita.com/reika727/items/5a3cbdd211f79f82fdd5
Javascript中に出てくるgsspcln.jp、whoisすると http://geniee.co.jp/ が連絡窓口って出ますね…

https://qiita.com/reika727/items/5a3cbdd211f79f82fdd5

悪名高きスクロール妨害広告を解析する - Qiita

http://geniee.co.jp/ https://geniee.co.jp/

株式会社ジーニー Geniee,Inc.

15:53:33 SASANO Takayoshi @uaa@social.mikutter.hachune.net

悪名高きスワイプ広告を解析する(2023/8/10) https://qiita.com/huzisuke/items/cdc63b4bf9d2ded5b5ca

このスワイプ広告は本当にウザくって、作った人間ごと滅ぼそうぜって日々思うんだけど…どうせ滅ぼしたところでもっとタチの悪いのが出てくるんだろうなとも思う。

自分の端末だと、これが表示されると記事をスクロールできなくなる（スワイプ広告を上下にスワイプしてもどかすことができない）ので本当に邪魔なんだよね。広告の脇に少しでもマージンがあればまだマシなんだけどそんなのは当然無いし。

https://qiita.com/huzisuke/items/cdc63b4bf9d2ded5b5ca

悪名高きスワイプ広告を解析する - Qiita

15:13:34 SASANO Takayoshi @uaa@social.mikutter.hachune.net

それにしても、GNU/non-GNUの文脈で語られてしまうというのはちょっとどうなのって気はする。

コンパイラだっていつまでも提供され続ける訳じゃないのだから、違うコンパイラでも動かせるようにするという試みって、思想（ライセンス）の問題よりもはるかに重要だと思うんだけど。

15:06:54 SASANO Takayoshi @uaa@social.mikutter.hachune.net

Chimera Linux https://chimera-linux.org/ がそれっぽいな
非 GNU な Linux ディストリビューション (2023/2/15) https://linux.srad.jp/story/23/02/14/190237/
A Non-GNU Linux Distribution Built With LLVM & BSD Software Aims For Alpha Next Month (2023/2/6) https://www.phoronix.com/news/BSD-LLVM-Linux-Alpha-Coming

https://chimera-linux.org/

Chimera Linux

https://linux.srad.jp/story/23/02/14/190237/

非 GNU な Linux ディストリビューション | スラド Linux

https://www.phoronix.com/news/BSD-LLVM-Linux-Alpha-Coming

A Non-GNU Linux Distribution Built With LLVM & BSD Software Aims For Alpha Next Month

15:03:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

GNUあってのLinuxなのでデフォルトのコンパイラはgccを使い続けるんだと思うけど…カーネルからユーザランドまですべてclangで構築したLinux distroってあるんだろうか。

14:41:09 SASANO Takayoshi @uaa@social.mikutter.hachune.net

LPCNet、ベンチマーク取り直して後はぶん投げる（SSE4.1をデフォルトにするか、今まで通りAVX主体でいくかを決めるのはこっちじゃないし…Pentium G4600持ちな身としてはSSE4.1がデフォでいーじゃんとは思うけど）。

https://github.com/drowe67/LPCNet/issues/62

benchmarking between AVX/SSE4.1 · Issue #62 · drowe67/LPCNet

11:54:05 SASANO Takayoshi @uaa@social.mikutter.hachune.net

uaa@slackware-vm:~/LPCNet.drowe67/build.sse/src$ time cat test.out | ./lpcnet_dec -s > /dev/null
direct split VQ
dec: 3 pred: 0.00 num_stages: 4 mbest: 5 bits_per_frame: 52 frame: 30 ms bit_rate: 1733.33 bits/s
64 1 1 16 128 1152 160 160 160 160
ftest cols = 2002

real 0m10.858s
user 0m10.753s
sys 0m0.085s
uaa@slackware-vm:~/LPCNet.drowe67/build.sse/src$

slackware付属のgcc-11.2じゃなくclang-13でビルドしたら、i686でもなかなか実用的なパフォーマンスが出ますね…

08:36:04 SASANO Takayoshi @uaa@social.mikutter.hachune.net

※どういうお仕事をしているかはなんとなくバレていると思っているし、web日記のどこかにきちんと書いてあるからいちいち書かなくても大丈夫ですよね…？（なので尋ねられても言葉を濁します）

08:32:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

ま、お客様なら敬語で遇されて当然、な意識の染みつきまくってるネイティブ日本人にこの考えは到底受け入れられないだろうとは、思う。

接客業なお仕事をしている身としては、高齢者とかちょっと認知症入っちゃったような人だとやさしい日本語レベルまで情報量減らさないと伝わらないという現実があるし、そういう人達が増えてるならもうデフォルトがそのラインで良くね？って気がするんだよね。

労働者が少ない、その割には客が多い（なんかまた増えてるらしいじゃん色々と）となると、減らせる労力は減らして提供すべきサービスをきちんと提供できる体制にしないと滅んでしまうんですよね、みんなが。

08:27:32 SASANO Takayoshi @uaa@social.mikutter.hachune.net

「⑩ 相手の日本語の力が高い場合は「やさしい日本語」を辞める」どうなんだろうこれ、相手の日本語力が高ければ「それは『やさしい日本語』」と解釈してくれる以上問題無いのでは…？と考えてしまうんだけど。

どっちかっつーと、「やさしい日本語」を基準にして、相手に応じて言葉を盛っていくというスタイルが標準、の方が良い気がする。日本語苦手そうだからやさしい日本語on、ネイティブ日本人だからoffというのは、自分の感覚ではなんか違うなーと感じてしまう。

やさしい日本語（医療×｢やさしい日本語｣研究会）(2021-05-24?) https://easy-japanese.info/about-easy-japanese

https://easy-japanese.info/about-easy-japanese

やさしい日本語 - 医療×｢やさしい日本語｣研究会

08:20:42 SASANO Takayoshi @uaa@social.mikutter.hachune.net

「〇〇が好きなやつには申し訳ねえが、俺は〇〇が大っ嫌いなんだ、誰が何と言おうとな。だがまあ〇〇が好きなやつが〇〇が好きだということに対して否定する気も無いし、俺が好きになれない〇〇を好きでいられるというのは正直羨ましいぜ。」って辺りで、どーよ。

08:18:08 SASANO Takayoshi @uaa@social.mikutter.hachune.net

お気持ち→感情論じゃねえか（本文中にもそう書いてある）

08:17:37 SASANO Takayoshi @uaa@social.mikutter.hachune.net

なるほど、腑に落ちた。「お気持ち表明には善悪を持ち込まないことを徹底してください。｢こんなの正しくないよ｣ではなく｢こんなの嫌いだ｣です。（中略）私は好き嫌いの話しかしていないけど正しいのは私だぞの気持ちでいれば大丈夫です。」
今日から始めるお気持ち学 (2022/3/12) https://note.com/noty_ice/n/n4b3e28f465bb

https://note.com/noty_ice/n/n4b3e28f465bb

今日から始めるお気持ち学｜れもん

07:57:31 SASANO Takayoshi @uaa@social.mikutter.hachune.net

実は「やさしい日本語」程度の情報量で足りるのかもしれない。敬語が使えないから人間失格！死ね！殺せ！とかならないで済むわけだし。

07:54:47 SASANO Takayoshi @uaa@social.mikutter.hachune.net

積極的に意思疎通プロトコルの破壊を目論んでいる輩も多そうに見えますねえ…（空気を読め、というのも一種の意思疎通プロトコルの破壊に思えていて、言語*外*という具体的な定義の無いものに意思疎通を大きく委ねてしまっていることを正当化するのは非常に危険だと自分は考えてしまう）

07:52:04 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 01:25:14 Posting らりお・ザ・何らかの🈗然㊌ソムリエ lo48576@mastodon.cardina1.red

オブラートなしで言ってしまうと、誤用や新しい用法それ自体を問題視しているというよりは、「誤用も新しい意味になる」とか言って意思疎通プロトコルの破壊行為を正当化して自己弁護してしまうそのメンタルこそが信用に値しない、だからこそ擁護への不寛容のあらわれとして誤用という表現を使う、みたいなところがある

07:43:26 SASANO Takayoshi @uaa@social.mikutter.hachune.net

まいじゃー推進委員会の全盛期が懐かしいのぅ

07:40:43 SASANO Takayoshi @uaa@social.mikutter.hachune.net

個人的にはとらドラよりも田村くんだなあ…

07:40:18 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 07:32:16 Posting Izumi Tsutsui tsutsuii@social.mikutter.hachune.net

This account is not set to public on notestock.

07:40:17 SASANO Takayoshi @uaa@social.mikutter.hachune.net

2023-09-03 07:30:43 Posting Izumi Tsutsui tsutsuii@social.mikutter.hachune.net

This account is not set to public on notestock.

Sun	Mon	Tue	Wed	Thu	Fri	Sat
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Sun	Mon	Tue	Wed	Thu	Fri	Sat
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Sun	Mon	Tue	Wed	Thu	Fri	Sat
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30