目次:
定義-音声合成とはどういう意味ですか?
音声合成は、コンピューターまたは他のデバイスによる人間の音声の人工シミュレーションです。 音声認識に対応する音声合成は、主にテキスト情報を音声情報に変換するため、および音声対応サービスやモバイルアプリケーションなどのアプリケーションで使用されます。 これとは別に、視覚障害者がテキストコンテンツを読むのを支援する支援技術にも使用されます。
Techopediaによる音声合成の説明
ベル研究所のボコーダーに基づいたホーマーダドリーのVODERは、最初の完全に機能する音声シンセサイザーと考えられています。 音声合成で使用されるコンピュータは、音声シンセサイザまたは音声コンピュータとして知られています。 音声コンピュータの品質は、人間の声との類似性によって判断されることがよくあります。 1990年代初頭から、ほとんどのコンピューターオペレーティングシステムには音声シンセサイザーが組み込まれています。 通常、合成された音声は、データベースに含まれている録音された音声を連結して生成されます。
音声合成の初期段階は前処理であり、特定の単語を読む必要がある方法を取り巻く曖昧さを排除し、ホモグラフの処理も含みます。 音声合成の次の段階では、コンピューターは音素の助けを借りて、テキストを一連の音に変換します。 最後の段階では、人間の録音または基本的な音声生成技術を使用して、人間の音声メカニズムを模倣し、テキスト全体を読み上げます。 音声合成の人気のある分岐の1つは、視聴覚音声合成またはマルチモーダル音声合成です。これは、合成された音声を補完するために緊密に同期されたアニメーション化された顔を使用します。 マルチモーダル音声合成には、音声に対する非言語的キューなどの追加機能も組み込まれており、ユーザーの単語をより正確に伝えるのに役立ちます。 多くの音声合成システムでは、ユーザーが男性または女性の音声などの音声の種類を選択できます。
ほとんどの音声合成システムはテキストを読み、非常にインテリジェントな方法でテキストを出力できますが、音声は時々鈍くなることがあります。 しかし、音声合成は、人間のイントネーションとリズムの幅広いスペクトルを完全に模倣する能力をまだ開発していません。
