3年多前、私がSovitsを使っていた頃、その時の音声モデルは背景音を分離(環境音を除去)してクリーンな声だけを抽出し、トレーニングを行う必要がありました。
そして、データセットを選別し、ノイズの多い部分を除去してからトレーニングを開始します。
一般的に8000ステップ程度のトレーニングで音色の再現度が最も良くなりますが、8000ステップを超えても評価点が25以下のままだと、そのデータセットとトレーニングはほぼ無意味になります。もし無理に続けて14000ステップを超えると、「発散」と呼ばれる現象が起き、最終的に生成される音声は「電音がひどい」か「人間らしさが失われている」状態になります。
これはまるで量子取引の開発ステップのように見えます。クリーンな声を抽出する過程は、機械に自己学習と予測モデルのためのデータセットを見つけさせる作業であり、ノイズの多い部分を除去するのは、無効な市場(1分間の急騰・暴落部分)をフィルタリングすることに似ています。8000ステップのトレーニングでは過剰適合(オーバーフィッティング)が起きにくく、14000ステップを超えて「発散」する(過剰適合する)と、最終的には実取引の結果がコイン投げのようにランダムになることに近づきます。
たとえ異なる分野に見えても、根底にある論理は同じです。
将来的に、私たちを打ち負かすのは業界そのものの
原文表示