Q:
音声読み上げとチャットボットの違いは何ですか?
A:Speech-to-Textテクノロジーとチャットボットの多くの重要な違いは、チャットボットとボイスボットのプロジェクトの急速な進化で検討されていることの一部です。
スピーチからテキストへのテクノロジーは、口頭でのスピーチをデジタルページ上のテキストに変換するだけのテクノロジーです。 これは完全な機能ですが、設計が簡単なものではありません。 音声をテキストに変換するために、この技術は単語や文章を個々の音素に分解し、複雑なアルゴリズムに従ってそれらを操作して、正確でスピーカーが言ったことを表すテキストを作成する必要があります。
一方、チャットボットは、人間と通信するという目標を達成するテクノロジーです。 チャットボットには、テキストチャットボットとボイスボットの2種類があります。 テキストチャットボットは、音声ボットが利用する音声からテキストへの要素を必要としないため、ずっと長い間使用されてきました。
Speech-to-Textテクノロジーとチャットボットの主な違いはスコープです。 前述のように、音声合成技術で必要なことは、口頭での音声を転写することだけです。 一方、チャットボットは、どのような形式のスピーチも受け入れ、それを理解し、チューリングテストに合格するための応答を提供する必要があります。他の人と話す。
それを念頭に置いて、チャットボットはボイスボットよりもはるかに簡単に作成できます。 チャットボットは人間のテキストを受け取り、テキスト応答を提供します。 比較的単純なチャットボットでさえ、1980年代後半から1990年代初頭にかけて、人間に興味深く楽しい結果を提供することができました。
一方、ボイスボットは、音声を取り込み、テキストに変換し、正確性を確認し、応答を生成し、その応答を機械語から音声に変換する必要があります。 この多数のかなり重要なタスクは、ボイスボットが多くの計算能力と構築に多くの設計を要することを意味します。
Siri、Cortana、Alexaなどのプロジェクトは、ボイスボットテクノロジーの先駆者の一部を示しています。 また、この技術はまだ初期段階にあることも示しています。 Alexaや他の技術は人間の発話に口頭で応答することができますが、一般的に人間の発話と関連付けるという意味では、それらは極端に能力がありません。 つまり、これらのテクノロジーが提供できる応答にはかなりの制限があります。 たとえば、電子メールの文字起こしや、手を使わずに誰かがエッセイを書くのを支援するために、スピーチからテキストを実際に生成する今日のパーソナルアシスタントの能力は限られています。 市場にある特定の音声読み上げプログラムのいくつかは、おそらくリソースの割り当てが原因で、SiriやCortanaよりも優れています。 ただし、ボイスボットの進歩は間もなく開始される兆候があります。たとえば、この種のテクノロジーを構築するためのスタジオ環境を可能にするAmazonのLexプラットフォームなどです。
トビアス・ゲーベルは、このテーマに関する賢明で有益なエッセイで、これらのテクノロジーの違いについて語ります。スピーチからテキストへの「転写」のプロセスと、チャットボットが行うはずの理解の仕事を対比しています。
「音声認識の必要性を排除することでチャットボットの作業が容易になりますが、機能するボットを構築する主な課題は自然言語の理解にあります」とGoebel氏は述べています。
Goebelは、業界の現在のプレーヤーの多くも特定しています。
音声認識のマーケットリーダーはNuanceで、Dragon NaturallySpeaking for PCのディクテーションなどの有名なシステムの背後にあり、90年代から使用されていますが、Siri:Appleクラウドで行われる音声認識/転写タスクも舞台裏のNuanceテクノロジー。 その他にはLumenVox、Verbio、またはInteractionsがありますが、音声認識は現在、Amazon、Google、Microsoft、IBMなどのAPIを介してクラウドサービスとしても提供されています。
チャットボットの開発に伴い、ある程度の軌跡で理解が深まると想定されています。また、より多くのボットテクノロジーがテキストインターフェイスから言語インターフェイスに移行し、追加の計算能力が必要になることも想定されます。
