こんにちは、ところてんです!
(*‘∀‘)
2022年3月16日に、任意のテキストを読み上げる音声合成ソフト「VOICEVOX」(Ver0.11.4)が公開されました。
本ソフトは無償で利用可能という事で、早速試してみた際の内容を纏めてみました。
「VOICEVOX」のダウンロード
以下のサイトからダウンロード可能です。
利用環境に応じて、任意のものを選択すれば良いと思います。
(どれが良いか迷う際は、初期状態(OS:Windows、対応モード:GPU/CPU、パッケージ:インストーラ)を選べば良いと思います。)
※なお、ダウンロード容量は約2GBとなります。
インストール手順
過去に記載した手順を参照してください。
初回起動時について
初回起動時に、初回設定を行います。
利用規約
利用規約を読んで、問題なければ、同意して使用開始します。
追加キャラクターの紹介
新規キャラクターの紹介が表示されるので「完了」を押下します。
※ここで、利用可能なキャラクターのサンプルボイスを聴く事、並び替えが可能。
なお、キャラクターを並び替えるには、右画面のキャラクター名の枠を、「ドラッグ」(左クリック)したままカーソル移動して、ドロップすれば良いです。
「九州そら」のデフォルトのスタイル(喋り方) の設定
「九州そら」のデフォルトのスタイル(喋り方)を設定する。
「使いやすさ向上のためのお願い」
「使いやすさ向上のためのお願い」を読み、データ収集に協力する際は「許可」、そうでない際は「拒否」を選択する。
「CPU/GPU」の切り替えについて
デフォルトでは、エンジンに「CPU」が選択されています。
動作要件を満たすグラボを所有しているなら「GPU」を選択する事も可能です。
なお、「3GB以上のメモリがあるNVIDIA製GPU」が必要となります。
切り替える際は、上記メニューの「設定」⇒「オプション」を選択後、「エンジンモード」で「GPU」を選択します。
他にも色々と設定項目がありますが、とりあえず動かして遊んでみるのが良いと思います。
ヘルプについて
利用規約、使い方等の情報が載っているので、軽く目を通しておくと良いと思います。
なお、VOICEVOXの公開ページにて、使い方が載っています。
実際に使ってみる
とりあえず、色々喋らせて遊んでみましょう♪
(・∀・)
テキトーに色々喋らせるだけでも、面白いですよね♪
テキスト文字を入れるだけで、ある程度自然な発音で喋ってくれるのは凄いですね!
(*‘∀‘)
辞書機能について
テキスト入力した文言について、ある程度自然な読みをしてくれますが、限界はあります。
例えば、「GAFAMとは米国の巨大IT企業である、google、apple、facebook、amazon、microsoftを指す言葉です。」という言葉を入力すると、「ジイエエエフエエムは・・・」といったように、正しく読ませる事は出来ません。
このような時、カタカナ入力するか、辞書登録する事で解決できます。
※この機能は搭載された事で、使い勝手が向上したと感じます。
「設定」⇒「読み方&アクセント辞書」から、辞書登録します。
初回起動時、「追加」ボタンが押せない事象があるようです。
※筆者の環境のみ発生?
その場合、アプリケーションを再起動(一旦アプリを終了し、再び起動)すると押下できるようになりました。
上記の手順の流れで辞書登録できます。
次回以降、貼り付けされたテキストについて、辞書の内容が優先されて音声変換されます。
VOICEVOXで喋らせた際の所要時間
実際にVOICEVOXで喋らせた際の所用時間を纏めました。
※測定値は、おおよそですので参考程度としてください。
PC構成について
OS | Windows10 Pro 21H1 |
CPU | AMD Ryzen 7 3900 |
GPU | NVIDIA GeFore GTX 1060 3GB |
メモリ | 32GB |
ストレージ | CT1000P5SSD8 (NVMe SSD) |
喋らせた文言、モード別の所要時間
喋らせた文言 | GPU所要時間 | CPU所要時間 |
---|---|---|
おはようございます | 0.1秒 | 0.8秒 |
microsoftのwindows10はスタンダードなOSです | 0.1秒 | 1.0秒 |
お団子の種類で一番なのは、醤油も捨てがたいですけれど、やはり定番の餡団子で決まりですよね | 0.1秒 | 2.0秒 |
何言っているんですか、ずんだ餡が最高に決まっているじゃないですか! | 0.1秒 | 1.5秒 |
過去バージョンから比較すると、GPU/CPUともに、大幅に速度アップしていました。
GPUを使うと一瞬、CPUの場合でも数秒程度と、速度面での不満は出ないレベルであると感じました。
※凄い進化してますね・・・
(;゚Д゚)
素晴らしいと感じた点
以前にも纏めた内容と、ほぼ同内容ですが、改めて纏めてみました。
- 無償利用可能、商用利用も可能である。※条件等はVOICEVOXの各種利用規約を参照。
- 操作が分かり易く、カンタン。
- テキストに漢字や英単語を入れても、正しい読みに自動変換してくれる。(限度あり)
- 無調整でも、ある程度自然な音声で出力される。
- 必要に応じて、音声のアクセント、イントネーション、話速、音高、抑揚も変更できる。
- 利用可能なキャラパターンが多い。(男女、様々なキャラが提供されている)
操作がカンタンで、必要に応じて音声調整できる上に無償利用でき、提供音声データも多い、という事で、非常に魅力的なソフトであると感じています!
「A.I VOICE」との比較
過去に纏めているので、そちらを参照してください。
最後に
初回リリースされた際も、その完成度に驚きましたが、オープンソース化された事により、急速な勢いで進化を遂げていると感じています!
ホントに凄い・・・
Σ(・□・;)
頻繁にアップデートが行われているので、これからの進化が楽しみです!
(=゚ω゚)ノ
テキスト文章⇒音声読み上げソフトについて、「VOICEVOX」「A.I.VOICE」等の様々なソフトウェアがありますが、無償利用可能であったり、試供版が提供されていたりするので、とりあえず触ってみるのがおススメなのかな、と思います。
動画制作だったり、朗読だったり、様々な利用用途があると思いますので、色々遊んでみましょう♪
※そういえば、ドワンゴ社から「SEIREN VOICE」がリリースされて、そっちも気になっているんですよね。
自分が喋った声が、別の音声になるって、それだけで面白そうと感じてますw
それでは!
(=゚ω゚)ノシ
コメント