三年多以前,我還在玩sovits的時候, 那個時候聲音的模型是需要分離(去環境背景音)出乾聲, 然後做訓練的。


然後需要對資料集進行一個篩選,去掉底噪大的部分,然後開始進行訓練。
一般訓練8000步左右,音色還原度最佳, 如果超過8000步,評分還在25以下,這個資料集和訓練基本就廢了, 如果你硬要繼續訓練,一口氣訓練到超過14000步, 就會出現所謂的“發散”, 最終導致出來的聲音要么是“電音嚴重”要么就是“人不人鬼不鬼”。
這裡像不像量化交易的開發步驟?提取乾聲的過程, 就是給機器自學習和預測模型找資料集的過程, 去掉底噪大的部分, 就是篩選掉裡面的無效行情(1分鐘暴漲暴跌的部分),訓練8000步, 不會出現嚴重的過擬合,訓練到14000步“發散”(嚴重過擬合) 最終導致實盤結果無限接近於:擲硬幣。
雖然不在一個賽道裡, 但是底層邏輯是相同的。
會不會在未來某一天,擊敗我們的不是行業本身的人, 而是跨行踩過來的人, 就真不好說了。。。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆