お前が消えて喜ぶものにお前のDockerfileをまかせるな
女性差別発言の件、切り取られた部分を叩きたいだけのハチャメチャ論理 vs 養護したいだけのハチャメチャ論理 しか今のところ見ていないので、誰も本質問題を解決しようとしていないし、挙げ句の果にスポンサー企業へのアンケートとやらでマーケティングにも使われていてもう誰も社会を良くしてくれない
いま Common Voice TL を見返しながら、たぶん reject されてしまったであろう貴重な非ネイティブ音声を思って悲しみに暮れています。そして FAQ を読んだので僕はぼちぼち English してました。
データセットは 7164 個しかないので、 7164 回やれば全制覇できます https://github.com/common-voice/common-voice/blob/main/server/data/ja/sentence-collector.txt
Common Voice Dataset 落としてきたけど、後半になるほどまともなデータになってきてるな。 upvote, downvote ごちゃまぜのディレクトリを丸ごと突っ込んで聞いてるから、どれが validated なのかは見てないけど
5件連続でアップロードされるから、基本的に連番は同じ人になってるっぽいな。合成音声っぽいやつを連続で聞くと突然人間味が現れて、人間だった!ってなるw
最初の4000件くらいまでは 64kbps/48kHz だけど、その後は 48kbps/32kHz になってる。まぁ人間の声を相手にするなら 32kHz でもオーバーなくらいだけど
ユーザーごとに UUID が割り振られてるので、同じ人のデータを集めるのはできるのか。身元を特定しなければ、特定の人のデータを使うのは問題ない
過半数が upvote すれば validated になるので、2人が upvote した時点でデータセット入りが確定するっぽい。逆に言えばこのデータセットは、ほとんどのデータが2人によってしか確認されていない
downvote が過半数のデータも残っているので、例えば文章の読み間違い傾向を調べるのにも使えるかもしれないね
このアカウントは、notestockで公開設定になっていません。