結構頭使ってるつもりなんだが
For those who wants information about Yuito, subscribe my English posts only (available on account profile, Mastodon v4 or above).
くだらないこと言ってる人格は わんせた 、コード書いてる人格は kyori
呼ぶときは わせたん でもよし。たんってついてればかわいいので
Manages: https://odakyu.app https://nitiasa.com
Maintains: https://accelf.net/yuito (fork of Tusky)
when these instances down see here: @ars42525 @ars42525
Server Status: https://graph.accelf.net
このアカウントは、notestockで公開設定になっていません。
もう眠くなってきた アホ?
~~~~~~~~~~
[https://odakyu.app/@ars42525/112719949921588737]
筋力うんぬんの前に生きるのに必要なタンパク質を摂取していない自覚があるのでプロテインタブレットを置いているんだが、飲むのがめんどくさいせい(物理的に飲み込むのが大変)で全然飲んでないので俺に健康的な生活は無理
肉の塊でも食べたいような気分なんだが、連日家に引きこもっていると肉の塊なんか食えるはずもなく、そのためだけに家を出る気にもなれず…(おしまい)
アプローチとしてはマルチリンガルTTSみたいな形になるのかもしれない
入力音声の箇所によってどのモデルを適用するか切り替えるという方針で
でも別にリアルタイムで切り替える必要はないんだよな〜ってあたりのバランス調整が難しいか
たとえば「ほにゃららを再生して」という発話が行われたときに、とりあえず一度漢字変換を試みて、「〇〇を再生して」という文章から「ほにゃらら」は音楽の名前である前提でDBを検索してほしいわけだ
このとき「ほにゃらら」はもはや日本語であるという仮定すら適用できない(もちろん可能性は高いが)ので、ユーザーが要求しそうな楽曲のキーワードを含むDBから発音ベースの検索をすることが期待される
音声処理の専門家ではないので雑に見ただけだが、Contextual TTSで調べると別の趣旨のタスクが出てきて、当該の問題に関する研究は見つからない