2022年2月9日 - @azyobuzin@xxx.azyobuzi.netの投稿 - notestock

2022年2月9日

02:45:02 あじょぶじん @azyobuzin@xxx.azyobuzi.net

Attach image

03:01:22 あじょぶじん @azyobuzin@xxx.azyobuzi.net

いま Common Voice TL を見返しながら、たぶん reject されてしまったであろう貴重な非ネイティブ音声を思って悲しみに暮れています。そして FAQ を読んだので僕はぼちぼち English してました。

03:03:34 あじょぶじん @azyobuzin@xxx.azyobuzi.net

データセットは 7164 個しかないので、 7164 回やれば全制覇できます https://github.com/common-voice/common-voice/blob/main/server/data/ja/sentence-collector.txt

Web site image

https://github.com/common-voice/common-voice/blob/main/server/data/ja/sentence-collector.txt

common-voice/sentence-collector.txt at main · common-voice/common-voice

03:10:44 あじょぶじん @azyobuzin@xxx.azyobuzi.net

「身元を特定しない」とCC0って両立するんか？

03:30:03 あじょぶじん @azyobuzin@xxx.azyobuzi.net

Common Voice Dataset 落としてきたけど、後半になるほどまともなデータになってきてるな。 upvote, downvote ごちゃまぜのディレクトリを丸ごと突っ込んで聞いてるから、どれが validated なのかは見てないけど

03:31:05 あじょぶじん @azyobuzin@xxx.azyobuzi.net

5件連続でアップロードされるから、基本的に連番は同じ人になってるっぽいな。合成音声っぽいやつを連続で聞くと突然人間味が現れて、人間だった！ってなるｗ

03:32:48 あじょぶじん @azyobuzin@xxx.azyobuzi.net

29% 女性ってあるけど、実質数人しかいない説ある。ひとりがめちゃくちゃな件数やってる

03:39:41 あじょぶじん @azyobuzin@xxx.azyobuzi.net

最初の4000件くらいまでは 64kbps/48kHz だけど、その後は 48kbps/32kHz になってる。まぁ人間の声を相手にするなら 32kHz でもオーバーなくらいだけど

03:41:39 あじょぶじん @azyobuzin@xxx.azyobuzi.net

この声を合成出来たらめちゃくちゃすごいみたいな演技派もいるし、面白いデータセットだなぁこれ

03:42:37 あじょぶじん @azyobuzin@xxx.azyobuzi.net

ユーザーごとに UUID が割り振られてるので、同じ人のデータを集めるのはできるのか。身元を特定しなければ、特定の人のデータを使うのは問題ない

03:46:01 あじょぶじん @azyobuzin@xxx.azyobuzi.net

過半数が upvote すれば validated になるので、2人が upvote した時点でデータセット入りが確定するっぽい。逆に言えばこのデータセットは、ほとんどのデータが2人によってしか確認されていない

04:04:38 あじょぶじん @azyobuzin@xxx.azyobuzi.net

downvote が過半数のデータも残っているので、例えば文章の読み間違い傾向を調べるのにも使えるかもしれないね

05:01:15 あじょぶじん @azyobuzin@xxx.azyobuzi.net

三角定規をずっと筆箱に入れてたけど、大学以降使った記憶がない

前の日 2022年2月9日次の日

コピーしました