(SSL鍵が怪しいけど) https://deisui.org/~ueno/junk/guadec-2014.pdf に、
Implementation: libkkc
Language model
3-gram language model generated from:
Wikipedia (Japanese): 100,000 sentences
Yahoo! Chiebukuro (Q&A site): 20,000 sentences
って書いてあるな。
OpenBSD(uaa@), Ham(JG1UAA), Ingress(Lv14, RES), Japanese(Sagamihara-city, Kanagawa)
Another side: https://social.tchncs.de/@uaa
npub1rarr265r9f9j6ewp960hcm7cvz9zskc7l2ykwul57e7xa60r8css7uf890
Messages from this Mastodon account can read via mostr.pub with npub1j3un8843rpuk4rvwnd7plaknf2lce58yl6qmpkqrwt3tr5k60vfqxmlq0w
(SSL鍵が怪しいけど) https://deisui.org/~ueno/junk/guadec-2014.pdf に、
Implementation: libkkc
Language model
3-gram language model generated from:
Wikipedia (Japanese): 100,000 sentences
Yahoo! Chiebukuro (Q&A site): 20,000 sentences
って書いてあるな。
N-gram コーパス - 日本語ウェブコーパス 2010 http://www.s-yata.jp/corpus/nwc2010/ngrams/ から、形態素/文字N-gramともに「頻度100以上」の物をダウンロードした。data.arpaは3-gramのようなので、そのデータをSRILMに食わせてarpa化なんだろうか。
Windows環境のPythonでN-gram生成ツール SRILM を使う方法(2022/3/11) https://qiita.com/phiniki/items/440337e6d18f465f688f
WSL2上でもSRILMのビルドはできた。あとはこれに何をどう食わせるか…なんだよな。
MS-DOSからWindows 95にかけてのゲームの機能や互換性を支えた「DOS/4GW」はいったいどんなツールだったのか(2023/9/1) https://gigazine.net/news/20230901-dos-4gw/
うーん、DOSエクステンダの記憶も風化していくのか…DOS/4GWだけでなくPMODE/Wも思い出してあげてください。あとgo32とか。
Arc A770のファンが時々荒ぶってますのぅ…(GPUになーんも負荷かけていないのに、ときどきぶううぅおぉぉんと轟音を立てる、Arc Controlでは回転数0のまま)
@hfp 確かにフルインストール推奨みたい。20GBも行かないならまあ全部突っ込むかって感じではありますね(引用先のスクリーンショットでは9GBくらいになっていますが)。 https://slackware.jp/install/5-selecting_packages_and_installation.html
派生distroは派生元のバージョンアップ後にバージョンが上がるとかあるので結局派生元が一番って結論になる。
PythonでN-gramを作る(Julius)(2022/03/14) https://qiita.com/phiniki/items/9d4fe40389e054385787
Juliusで自作N-gramを使う方法 (2022/03/22) https://qiita.com/phiniki/items/2a5d67a713ae07f6c610
ARPA標準形式のN-gramのフォーマット・バックオフ係数 http://nekomimieditor.gjgd.net/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98%E6%8A%80%E8%A1%93/20131003 (2013/10/03)
ARPA Language models https://cmusphinx.github.io/wiki/arpaformat/
統計的言語モデルツールキットpalmkitマニュアル http://quruli.ivory.ne.jp/document/palmkit_1.0.31/manual.html
https://julius.osdn.jp/juliusbook/ja/mkbingram.html 「mkbingram は,ARPA形式の N-gram 定義ファイルを」
libkkcの辞書ファイルの元って、data.arpaってファイル名なんですが…ARPA形式っていうのがキーワードになりそうですね。
どっかから拾った何か(コーパス?)からARPA形式のN-gram定義ファイルを作る、そういう手順なのでしょうか…?