02:45:02 @azyobuzin@xxx.azyobuzi.net
Attach image
03:01:22 @azyobuzin@xxx.azyobuzi.net
icon

いま Common Voice TL を見返しながら、たぶん reject されてしまったであろう貴重な非ネイティブ音声を思って悲しみに暮れています。そして FAQ を読んだので僕はぼちぼち English してました。

03:03:34 @azyobuzin@xxx.azyobuzi.net
icon

データセットは 7164 個しかないので、 7164 回やれば全制覇できます https://github.com/common-voice/common-voice/blob/main/server/data/ja/sentence-collector.txt

Web site image
common-voice/sentence-collector.txt at main · common-voice/common-voice
03:10:44 @azyobuzin@xxx.azyobuzi.net
icon

「身元を特定しない」とCC0って両立するんか?

03:30:03 @azyobuzin@xxx.azyobuzi.net
icon

Common Voice Dataset 落としてきたけど、後半になるほどまともなデータになってきてるな。 upvote, downvote ごちゃまぜのディレクトリを丸ごと突っ込んで聞いてるから、どれが validated なのかは見てないけど

03:31:05 @azyobuzin@xxx.azyobuzi.net
icon

5件連続でアップロードされるから、基本的に連番は同じ人になってるっぽいな。合成音声っぽいやつを連続で聞くと突然人間味が現れて、人間だった!ってなるw

03:32:48 @azyobuzin@xxx.azyobuzi.net
icon

29% 女性ってあるけど、実質数人しかいない説ある。ひとりがめちゃくちゃな件数やってる

03:39:41 @azyobuzin@xxx.azyobuzi.net
icon

最初の4000件くらいまでは 64kbps/48kHz だけど、その後は 48kbps/32kHz になってる。まぁ人間の声を相手にするなら 32kHz でもオーバーなくらいだけど

03:41:39 @azyobuzin@xxx.azyobuzi.net
icon

この声を合成出来たらめちゃくちゃすごいみたいな演技派もいるし、面白いデータセットだなぁこれ

03:42:37 @azyobuzin@xxx.azyobuzi.net
icon

ユーザーごとに UUID が割り振られてるので、同じ人のデータを集めるのはできるのか。身元を特定しなければ、特定の人のデータを使うのは問題ない

03:46:01 @azyobuzin@xxx.azyobuzi.net
icon

過半数が upvote すれば validated になるので、2人が upvote した時点でデータセット入りが確定するっぽい。逆に言えばこのデータセットは、ほとんどのデータが2人によってしか確認されていない

04:04:38 @azyobuzin@xxx.azyobuzi.net
icon

downvote が過半数のデータも残っているので、例えば文章の読み間違い傾向を調べるのにも使えるかもしれないね

05:01:15 @azyobuzin@xxx.azyobuzi.net
icon

三角定規をずっと筆箱に入れてたけど、大学以降使った記憶がない