21:24:43
icon

uaa@framboise:/usr/include$ echo ○1 |nkf -e |kakasi -KH -JH | nkf -w
○1
uaa@framboise:/usr/include$

変換できないものは素通しか。

21:20:17
icon

unicode.org/Public/MAPPINGS/OB 自体はUnicode Term of Useに従うとして、派生物もそれを継承するって理解で良いんだろうか?
いちいち書くのが面倒なのでSPDX-License-Identifier: Unicode-TOUと書くけど。 spdx.org/licenses/Unicode-TOU.

Unicode Terms of Use | Software Package Data Exchange (SPDX)
20:50:56
icon

kakasiはUTF-8に対応するものの、kakasidictはEUCで書かれているが故にEUCの範囲でしか漢字→かな変換はできない。【】などの記号類や全角英数字に対する読みも未定義。

…ってことは、UTF-8をそのまま食わせても良いんだけど、処理可能な文字が含まれているかどうかのチェック+EUC化みたいなフィルタを入れた方が安全なのかもしれないな。

ASCII(0x00-0xFF)の範囲は蹴るようにしていたけど、JISのひらがな・カタカナ・漢字以外の部分(記号とかアルファベットとか)も蹴った方が良いのかもしれない。

19:34:56
2023-09-03 19:23:45 Posting Masanori Ogino 𓀁 omasanori@mstdn.maud.io
icon

getwcをwchar_tの変数で受ける(正しくない)コードでもwchar_tがsignedなシステムならWEOFが-1でなんか偶然うまくいくかもしれない

19:15:13
icon

OpenBSDにおいては、wchar_tはintと定義されてるみたい。負のキャラクタコードもアリなのか…(無いよね?)

19:13:00
icon

ああ、思考を垂れ流しにしていますが実行するかどうかは別問題ですのでー

19:12:36
icon

でもdata.arpaを見るに、
-2.131363 おたく/オタク ?/? -0.072304
みたいに変換できなかったものも平然と?で出てくるので、あまり厳しいことをしても意味は無いのかもしれない。

とりあえず何が削られたか、という一覧も要確認か。

19:11:12
icon

obsoleteだが…ここに定義されている文字が含まれていない(UTF-8→JISへの変換ができない)エントリは無条件で除外、ただし<S></S>の類は除く、みたいな処理にするか?変換テーブルは unicode.org/Public/MAPPINGS/OB を使えば良いかな…

18:48:09
icon

libkkc-data(のdata.arpa)が如何にして作られたか、という作り方がどこかに書かれていれば、その作り方で適当なコーパスを食わせて…ということができるんだろうけど、無い以上は模索するしかない。作者に聞けばすぐに答えが出てくる問題という気もするけど。

18:44:15
icon

uaa@DESKTOP-251U0UF:/mnt/e/corpus/nwc2010-ngrams/word/over999/3gms$ echo "かな 漢字 ヘンカン" | nkf -e | kakasi -KH -JH| nkf -w
かな かんじ へんかん
uaa@DESKTOP-251U0UF:/mnt/e/corpus/nwc2010-ngrams/word/over999/3gms$

kakasiでまとめて処理、で良さそうだけど…UTF-8非対応って辺りがまた難易度高いな。kakasiで処理が難しそうなデータも、事前に切っておく必要があるんだろうね。

18:35:29
icon

でもsrilmの出力は<s></s>化されているので、ここは気にしなくて良いかな…?

18:34:32
icon

多分問われないとは思うんだけど、日本語webコーパスは</S>、libkkc-dataのdata.arpaは</s>なのでこの辺も似せておく必要がありそうな気がする。

18:31:48
icon

ngram-format speech.sri.com/projects/srilm/ を見るに、ngram 1=n1のn1はエントリ数になるから、後加工でも大丈夫そう。あと、多分半角英数とか記号だけといったデータは元データから省いた方が良さそうな気がする。

18:25:25
icon

なんだろうこれ…
鼻 で 息 4389
という元データを、
はな/鼻 で/で いき/息 4389
みたいな形に加工してから食わせるのか、あるいは出力された3gram.txtの結果を処理するのか(でもARPAヘッダの存在を考えると元データ側に手を入れてそうな気がする)

18:18:27
icon

出現頻度1000以上の形態素N-gram(3-gram)をsrilmで処理するのにかかった時間は3分くらい。出力された3gram.txtはARPA形式なので、冒頭が
\data\
ngram 1=236180
ngram 2=5654587
ngram 3=1355192

\1-grams:
-4.257625 " -0.3292079
-7.02774 "" -0.2590316
となってる。一方、libkkc-dataのdata.arpaは
\data\
ngram 1=118333
ngram 2=775414
ngram 3=1777469

\1-grams:
-2.105448 </s>
-99 <s> -0.203198
-4.499434 ’/’ -0.277539
-5.607917 ’’/’’ -0.262133
-5.793264 ’・/’・ -0.118066

…コーパスをそのまま食わせるのでは多分ダメ。

18:03:16
icon

…ノウハウの確立にそこまでデカい(取り回しの悪い)データ使う必要、無いんじゃないのかなあ自分。
日本語ウェブコーパス2010の、頻度100以上を使っているけど…1000以上で始めた方が…?>自分

17:56:28
icon

xzcat *.xz > 3gm
~/srilm/bin/i686-m64/ngram-count -order 3 -text 3gm -lm 3gram.txt
一体何が出てくるのやら

17:42:11
icon

実は"abc"[1]の代わりに1["abc"]なんて記法ができるなんて、今の今まで知らなかったです…知ったところで使いようがないんですけど。

17:40:29
icon

難読化の話(超!?入門編) (2018/07/26) netagent.co.jp/study/blog/hard で紹介されていたUnderstanding Misunderstandings in Source Code atomsofconfusion.com/papers/un 、Table1の「べからず例」は結構やってしまっている箇所があるな…まあstyle(9)で{}の括り方が規定されている以上、これについては言ってくれるなというのがあるけども。

if (4 % 2)みたいな0→falseを前提としているとか、三項演算子は結構好んで使ってたりする。

Web site image
難読化の話(超!?入門編)
17:25:57
icon

表に出ないソースコードは難読化なんてしないけど、web領域だと見えちゃうことを避けられないみたいだし…開発時は普通に、webサーバ上に上げる時は難読化するとかそういうことくらいはしていてもおかしくない気が。

17:24:32
2023-09-03 17:24:16 Posting redbrick@HyZERO3強制解約済み redbrick@social.mikutter.hachune.net
icon

This account is not set to public on notestock.

16:54:39
icon

SystemGear製の抗菌磁気カードリーダー(PDC-30) systemgear.com/prd/magneticcar に見えますね…面白そう。

磁気カードリーダーPDC-30。金融機関、医療機関でのセキュリティーシステムの個人認証、商業施設での会員管理で信頼の実績。JISZ2801準拠の抗菌仕様ですので、食品業界、医療現場にも最適。日本国内製造品。
16:53:53
2023-09-03 16:52:45 Posting あっきぃ akkiesoft@social.mikutter.hachune.net
icon

アキバはこういうのだよな!ちゅった。が、なんに使うんやこれ

Attach image
16:52:52
icon

SXGAからFullHDへ移ってはみたけど…確かに最近、手狭になってきたような気がする。80×30字のコンソールを6つも開けるようになったのは確かに広いっちゃ広いんだが…それだけ開いてる訳でもないし。

16:51:29
2023-09-03 16:03:47 Posting '; DELETE FROM users; -- boronology@social.penguinability.net
icon

This account is not set to public on notestock.

16:51:26
2023-09-03 16:03:10 Posting '; DELETE FROM users; -- boronology@social.penguinability.net
icon

This account is not set to public on notestock.

16:14:31
icon

デバイス系よりweb系の方が、ソフトウェアによるソフトウェアのって部分があるので色々介入しやすそうですね…最悪の場合、ブラウザに手を入れて動きを見るなんてこともできそうですし。

16:10:39
icon

んー…
js.gsspcln.jp/t/399/201/a13992 はかるーく難読化かけてるみたいだけど
works.gsspcln.jp/w/ad_format/g ってそういう小細工してないですよね。
こういう手合いについては詳しくないんですけど、この前マクドナルドで飯食ってた時に「素性を抜かれないようにあれこれ細工するのが基本」って女子高生が言ってた気がします。
自分みたいなシロートにどこどこの企業か…なんて突き止められるのって、その基本ができてないってことなんですよね?

16:03:37
icon

gssprt.jpに関しても、同様に geniee.co.jp/ が窓口になってますねえ…

Web site image
株式会社ジーニー Geniee,Inc.
16:01:15
icon

悪名高きスクロール妨害広告を解析する (2023/8/25) qiita.com/reika727/items/5a3cb
Javascript中に出てくるgsspcln.jp、whoisすると geniee.co.jp/ が連絡窓口って出ますね…

Web site image
悪名高きスクロール妨害広告を解析する - Qiita
Web site image
株式会社ジーニー Geniee,Inc.
15:53:33
icon

悪名高きスワイプ広告を解析する(2023/8/10) qiita.com/huzisuke/items/cdc63

このスワイプ広告は本当にウザくって、作った人間ごと滅ぼそうぜって日々思うんだけど…どうせ滅ぼしたところでもっとタチの悪いのが出てくるんだろうなとも思う。

自分の端末だと、これが表示されると記事をスクロールできなくなる(スワイプ広告を上下にスワイプしてもどかすことができない)ので本当に邪魔なんだよね。広告の脇に少しでもマージンがあればまだマシなんだけどそんなのは当然無いし。

Web site image
悪名高きスワイプ広告を解析する - Qiita
15:13:34
icon

それにしても、GNU/non-GNUの文脈で語られてしまうというのはちょっとどうなのって気はする。

コンパイラだっていつまでも提供され続ける訳じゃないのだから、違うコンパイラでも動かせるようにするという試みって、思想(ライセンス)の問題よりもはるかに重要だと思うんだけど。

15:06:54
icon

Chimera Linux chimera-linux.org/ がそれっぽいな
非 GNU な Linux ディストリビューション (2023/2/15) linux.srad.jp/story/23/02/14/1
A Non-GNU Linux Distribution Built With LLVM & BSD Software Aims For Alpha Next Month (2023/2/6) phoronix.com/news/BSD-LLVM-Lin

Web site image
非 GNU な Linux ディストリビューション | スラド Linux
Web site image
A Non-GNU Linux Distribution Built With LLVM & BSD Software Aims For Alpha Next Month
15:03:08
icon

GNUあってのLinuxなのでデフォルトのコンパイラはgccを使い続けるんだと思うけど…カーネルからユーザランドまですべてclangで構築したLinux distroってあるんだろうか。

14:41:09
icon

LPCNet、ベンチマーク取り直して後はぶん投げる(SSE4.1をデフォルトにするか、今まで通りAVX主体でいくかを決めるのはこっちじゃないし…Pentium G4600持ちな身としてはSSE4.1がデフォでいーじゃんとは思うけど)。

github.com/drowe67/LPCNet/issu

Web site image
benchmarking between AVX/SSE4.1 · Issue #62 · drowe67/LPCNet
11:54:05
icon

uaa@slackware-vm:~/LPCNet.drowe67/build.sse/src$ time cat test.out | ./lpcnet_dec -s > /dev/null
direct split VQ
dec: 3 pred: 0.00 num_stages: 4 mbest: 5 bits_per_frame: 52 frame: 30 ms bit_rate: 1733.33 bits/s
64 1 1 16 128 1152 160 160 160 160
ftest cols = 2002

real 0m10.858s
user 0m10.753s
sys 0m0.085s
uaa@slackware-vm:~/LPCNet.drowe67/build.sse/src$

slackware付属のgcc-11.2じゃなくclang-13でビルドしたら、i686でもなかなか実用的なパフォーマンスが出ますね…

08:36:04
icon

※どういうお仕事をしているかはなんとなくバレていると思っているし、web日記のどこかにきちんと書いてあるからいちいち書かなくても大丈夫ですよね…?(なので尋ねられても言葉を濁します)

08:32:31
icon

ま、お客様なら敬語で遇されて当然、な意識の染みつきまくってるネイティブ日本人にこの考えは到底受け入れられないだろうとは、思う。

接客業なお仕事をしている身としては、高齢者とかちょっと認知症入っちゃったような人だとやさしい日本語レベルまで情報量減らさないと伝わらないという現実があるし、そういう人達が増えてるならもうデフォルトがそのラインで良くね?って気がするんだよね。

労働者が少ない、その割には客が多い(なんかまた増えてるらしいじゃん色々と)となると、減らせる労力は減らして提供すべきサービスをきちんと提供できる体制にしないと滅んでしまうんですよね、みんなが。

08:27:32
icon

「⑩ 相手の日本語の力が高い場合は「やさしい日本語」を辞める」どうなんだろうこれ、相手の日本語力が高ければ「それは『やさしい日本語』」と解釈してくれる以上問題無いのでは…?と考えてしまうんだけど。

どっちかっつーと、「やさしい日本語」を基準にして、相手に応じて言葉を盛っていくというスタイルが標準、の方が良い気がする。日本語苦手そうだからやさしい日本語on、ネイティブ日本人だからoffというのは、自分の感覚ではなんか違うなーと感じてしまう。

やさしい日本語(医療×「やさしい日本語」研究会 )(2021-05-24?) easy-japanese.info/about-easy-

Web site image
やさしい日本語 - 医療×「やさしい日本語」研究会
08:20:42
icon

「〇〇が好きなやつには申し訳ねえが、俺は〇〇が大っ嫌いなんだ、誰が何と言おうとな。だがまあ〇〇が好きなやつが〇〇が好きだということに対して否定する気も無いし、俺が好きになれない〇〇を好きでいられるというのは正直羨ましいぜ。」って辺りで、どーよ。

08:18:08
icon

お気持ち→感情論じゃねえか(本文中にもそう書いてある)

08:17:37
icon

なるほど、腑に落ちた。「お気持ち表明には善悪を持ち込まないことを徹底してください。「こんなの正しくないよ」ではなく「こんなの嫌いだ」です。(中略)私は好き嫌いの話しかしていないけど正しいのは私だぞの気持ちでいれば大丈夫です。」
今日から始めるお気持ち学 (2022/3/12) note.com/noty_ice/n/n4b3e28f46

Web site image
今日から始めるお気持ち学|れもん
07:57:31
icon

実は「やさしい日本語」程度の情報量で足りるのかもしれない。敬語が使えないから人間失格!死ね!殺せ!とかならないで済むわけだし。

07:54:47
icon

積極的に意思疎通プロトコルの破壊を目論んでいる輩も多そうに見えますねえ…(空気を読め、というのも一種の意思疎通プロトコルの破壊に思えていて、言語*外*という具体的な定義の無いものに意思疎通を大きく委ねてしまっていることを正当化するのは非常に危険だと自分は考えてしまう)

07:52:04
2023-09-03 01:25:14 Posting らりお・ザ・何らかの🈗然㊌ソムリエ lo48576@mastodon.cardina1.red
icon

オブラートなしで言ってしまうと、誤用や新しい用法それ自体を問題視しているというよりは、「誤用も新しい意味になる」とか言って意思疎通プロトコルの破壊行為を正当化して自己弁護してしまうそのメンタルこそが信用に値しない、だからこそ擁護への不寛容のあらわれとして誤用という表現を使う、みたいなところがある

07:43:26
icon

まいじゃー推進委員会の全盛期が懐かしいのぅ

07:40:43
icon

個人的にはとらドラよりも田村くんだなあ…

07:40:18
2023-09-03 07:32:16 Posting Izumi Tsutsui tsutsuii@social.mikutter.hachune.net
icon

This account is not set to public on notestock.

07:40:17
2023-09-03 07:30:43 Posting Izumi Tsutsui tsutsuii@social.mikutter.hachune.net
icon

This account is not set to public on notestock.