こんにちは、ところてんです!
(*‘∀‘)
2021年8月1日に、任意のテキストを読み上げる音声合成ソフト「VOICEVOX」が公開されました。
本ソフトは無償で利用可能という事で、早速試してみた際の内容を纏めてみました。
また、有償ソフトの「A.I.VOICE」との比較した所感を纏めています。
★Ver.0.9を試した際の記事も作成しました。
★Ver.0.11.4を試した際の記事も作成しました。
※本記事を執筆した時点と比較して、大幅に機能アップしているので、最新機能が知りたい際は、最新記事を参照してください。
「VOICEVOX」のダウンロード
以下のサイトからダウンロード可能です。
ダウンロードの補足ですが、Googleドライブではなく、ダウンロードサイトからダウンロードするのが確実です。
使い方
VOICEVOXのGoogleドライブ上に「使い方」のファイルがありますので、そのファイルを見れば動かす事が出来ると思います。
また、使い方の動画が公開されていますので、そちらのご視聴頂く事で、理解が深まると思います。
個人的には、ニコニコ動画に公開されている動画が一番詳しくておススメだと感じています。
■「VOICEVOX」公式
■ニコニコ動画
GPUモードとCPUモードについて
GPUモードは、NVIDIA製GPUでメモリ3GB以上が必要です。
※CPUの制限事項は、特にマニュアル等に記載がありません。
参考までに、動作させた際の情報を纏めます。
PC構成について
OS | Windows10 Pro 21H1 |
CPU | AMD Ryzen 7 1700X |
GPU | NVIDIA GeFore GTX 1060 3GB |
メモリ | 32GB |
ストレージ | CT1000P5SSD8 (NVMe SSD) |
ちょうど、GPUモードを試せるギリギリのスペックなので、検証にはちょうど良い環境ですねw
( ゚Д゚)
GTX 3060とか欲しいですけど、今は価格が高騰してますからねぇ・・・
(´・ω・`)
VOICEVOXで喋らせた際の所要時間
上記のPC構成で、実際にVOICEVOXで喋らせた際の所用時間を纏めました。
喋らせた文言は、アタマの中に適当に浮かんだ文言を使いましたw
※団子食べたいなぁ
( ゚Д゚)
喋らせた文言 | GPU所要時間 | CPU所要時間 |
---|---|---|
おはようございます | 1秒 | 2秒 |
microsoftのwindows10はスタンダードなOSです | ※失敗 | 3秒 |
お団子の種類で一番なのは、醤油も捨てがたいですけれど、やはり定番の餡団子で決まりですよね | ※失敗 | 6秒 |
何言っているんですか、ずんだ餡が最高に決まっているじゃないですか! | ※失敗 | 5秒 |
※各所要時間は、喋りだすまでに要する時間(秒)を指します。
「※失敗」としているのは、音声が出なかった為です。
マニュアルにも記載がありますが、GPU版の場合は、高性能な機種を使う必要があるとの事で、今回のようにGPUのスペックがギリギリの場合、短い文言のみ出力可能でした。
なお、CPU版の場合には、GPUより時間が掛かるものの、しっかりと音声が出ました。
素晴らしいと感じた点
特に素晴らしいのが、以下の点だと感じています。
- 無償利用可能、商用利用も可能である。※条件等はVOICEVOXの各種利用規約を参照。
- 操作が分かり易く、カンタン。
- テキストに漢字や英単語を入れても、正しい読みに自動変換してくれる。(限度あり)
- 無調整でも、ある程度自然な音声で出力される。
- 必要に応じて、音声のアクセント、イントネーション、話速、音高、抑揚も変更できる。
操作がカンタンで、必要に応じて音声調整できる上に無償利用できるという事で、非常に魅力的なソフトであると感じています!
マジ凄い・・・
(;・∀・)
自動変換できない文言の対処など
例えば、「GAFAMとは米国の巨大IT企業である、google、apple、facebook、amazon、microsoftを指す言葉です。」
という文言をVOICEVOXに喋らせると、
「GAFAM(ガーファム)とは・・・」と読むところが、「ジイエエフエエエム」と変換されます。
(他に浮かぶ事項として、人名、地名等は自動変換が難しいのでは、と感じます)
なお、こういう場合はカタカナ等で書き直す事で回避できます。
将来的に辞書機能が追加されれば、より便利になるかもしれませんね。
★辞書機能が追加されたので、より便利になりました。
「A.I.VOICE」との比較
ワタクシ「A.I.VOICE」も所有していますので、こちらの比較も記載します。
喋らせた文言 | 所要時間 |
---|---|
おはようございます | 0秒 |
microsoftのwindows10はスタンダードなOSです | 0秒 |
お団子の種類で一番なのは、醤油も捨てがたいですけれど、やはり定番の餡団子で決まりですよね | 0秒 |
何言っているんですか、ずんだ餡が最高に決まっているじゃないですか! | 0秒 |
※「A.I.VOICE」にはGPUモードは無い。
※所要時間が0秒なのは、ほぼ一瞬で再生された為。
「A.I.VOICE」の特徴は以下の通りです。
- テキストからの音声変換に、ほとんど待ち時間が無い
- 無調整時でも発音が、より自然である(必要に応じてイントネーションを変更できる)
- 辞書機能がある
- アカネチャンカワイイヤッター
有償ソフトだけあり、高性能、かつ、機能が充実しています。
音声変換に待ち時間が(ほぼ)無く、無調整時でも自然(=調整が少なく済む)という事、対応している単語も多い(上記の「GAFAM」や「Google」等の単語も自動認識)です。
なので、より本格的に扱いたい場合には、本ソフトを使う事で、音声の加工等の手間を少なくし、時間短縮が出来るのでは、と感じています。
「VOICEVOX」と「A.I.VOICE」のどちらが良いのか?
用途によって、それぞれ利点があるように感じています。
- VOICEVOXは、操作が分かり易く、カンタンに扱える、かつ、無償で扱える。
- A.I.VOICEは、より高度、かつ、沢山の文章を扱う際に効率が良い。
それぞれ、異なる利点があるので、用途に合わせてソフトを選ぶと幸せになると思います。
VOICEVOXは無償でダウンロードできますし、A.I.VOICEも体験版をダウンロード可能なので、気になる方は色々触って遊びましょう♪
(=゚ω゚)ノ
今後、これらを用いた動画が、もっとたくさん増えると予想しているので、今から楽しみです♪
(*’ω’*)
あ、最後に、ワタクシは、ずんだ餡大好きですよw
( ゚Д゚)
参考サイト
今回、紹介したソフトウェアのリンク先を纏めました。
コメント