ソフトウェア 音声認識技術:役に立つか苦痛ですか?

音声認識技術:役に立つか苦痛ですか?

目次:

Anonim

助けを求めたり、請求書を支払うために会社に電話をしたことがありますか?あなたと会話したい気持ちの良い録音された声で迎えられますが、あなたが言っていることの半分を理解できませんか? または、iPhoneを所有していて、Siriが最初は良い仲間のように思えたが、時々(まあ、正直に言ってみましょう)彼女はそれを手に入れられないことに気づきましたか? Speech-to-Textとしても知られる音声認識技術(VRT)は、よくある落とし穴に陥ります:信じられないほどクールになる可能性があります(そして、少年、私たちはそれを応援しています)が、多くの場合、それは歯磨きです欲求不満で運動します。


かつてはサイエンスフィクションの領域に属するアイデアであった音声認識は、ベル研究所のオードリーシステムが単一の音声で話される数字を認識するように設計された1950年代の初期から、現在対話している会話型電子機器のネットワークに成長しました毎日-さまざまな結果があります。

人間と話すには0を押してください

今日のビジネスの多くは、顧客サービスの呼び出しを処理するために、対話型音声応答(IVR)と呼ばれるシステムを使用しています。 最も一般的な使用方法は音声ナビゲーションメニューですが、一部の企業では、顧客のアカウント情報にアクセスして軽微な質問に答えることができるIVRシステムを使用しています。 通常、メニューIVRソフトウェアの語彙は限られており、「はい」、「いいえ」、および数字に制限される場合があります。 より複雑なシステムでは、会社固有の単語やフレーズを認識できます。


これらのシステムは、少なくとも企業にとっては-単純な理由で、より一般的になりつつあります:それらは費用対効果に優れています。 Wall Street Journalによる2010年のレポートによると、エージェントに到達する一般的な顧客の通話料金は3ドルから9ドルの間ですが、自動システムで処理される通話料金は5〜7セントです。 そして、もちろん、コンピュータプログラムは疲れたり、病気になったり、顧客に不満を感じたりすることはありません(ただし、顧客は確かに不満を感じます!)。


幸いなことに、これは必ずしもIVRが人々から仕事を奪うことを意味するわけではありません-または少なくともすべての人々がコールセンターから姿を消しているということです。 これらの音声起動ヘルパーを使用すると、電話をかけたり簡単な質問に答えたりすることで、顧客サービス担当者の生産性を高めることができます。


もちろん、これらの技術と対話する人間のユーザーにとって、それは必ずしもスムーズな航行ではありません。 テクノロジーは、アクセントの問題など、IVRテクノロジーの一般的な問題の改善に役立っていますが、自動化されたシステムの解任は依然としてオンラインの一般的なテーマです。 音声認識機能を備えたエレベーターについてのコメディスキットをご覧ください。IVRシステムの誤動作がもたらす不満を強調しています。

個人用電話アプリ:Siri、Google Now

ほとんどの人は、スマートフォンの音声認識に精通しています。 最新の携帯電話モデルの大部分はVRを搭載していますが、2011年にAppleがiPhone 4S用のやや皮肉で、音声で作動する「パーソナルアシスタント」であるSiriを導入したとき、その人気と評判は高まりました。 Android Jelly Bean OSの場合。 どちらのシステムも、女性の声と洗練された認識機能を備えており、ユーザーはカジュアルな言語を使用して電話と「会話」できます。


しかし、これらのシステムは以前のシステムよりもかなり高度で機能的ですが、このテクノロジーにはまだ長い道のりがあることも示しています。 Siriの失敗に関するジョークは、人気のあるインターネットミームになりました。 ある人は、Siriの機能に関する虚偽の広告でAppleを訴えさえしました。


たぶんそれが、AppleがSiriを高度で有益なものにするために作成した一方で、VRソフトウェアも少し生意気な側にいる理由です。 たとえば、1968年の映画「2001:A Space Odyssey」の映画史上最も悪名高いインテリジェンステクノロジーラインの1つを話すと、Siriは映画の応答ラインのいずれかで応答します。ごめんなさい(あなたの名前)、私はそれができないのではないかと思っています」、またはもっと皮肉な、「私たちのintelligence報員は、どうやらそれを生き延びないでしょう。」


名前で電話をかけることは、Siriをもっと愛しやすく、もう少し人間らしくしようとする機能の1つにすぎません。 VRアシスタントは、音声コマンドに従って電話をかけたり、ディクテーションを行ったり、テキストを送信したり、情報のインターネット検索を実行したり、近くの店舗を見つけたり、道順を教えたりすることができます。 回答は電話で同時に話され、画面に表示されます。


Android Jelly BeanプラットフォームのVR部分であるGoogle Nowは、Siriと非常によく似ています。 このシステムは、ユーザーが電話をかけたり、テキストを送信したり、検索を実行したり、計算と変換を実行したり、単語の定義を取得したり、アラームを設定したり、曲を再生したり、地図や指示を取得したりできるコマンドに変換することにより、同じ広範な認識機能を提供します。


SiriやGoogle Nowなどのパーソナルボイスアシスタントを使用すると、その利点は明らかです。 電話やテキストメッセージから検索やエンターテイメントまで、すべてがより速く簡単になります。 あなたが望むものを言うだけで、(ほとんどの場合)VRアプリはあなたのためにそれをつかみます。 VRのハンドオフテクノロジーは、運転中に特に役立ちます。 そして、多くの人々がSiriの欠陥を非難しており、ライターは本質的にユーザーの生活を実行するGoogle Nowの能力は不気味で少しin辱的であると主張しているが、ほとんどの人はまだこれらの未来の技術はかなりクールだと感じている。


もちろん、SiriやGoogle Nowのような個人用の電話アプリは完璧とはほど遠いものですが、将来この技術がどこに向かっているのかを示しています。 つまり、Siriが間違った答えを見つけたとしても、次のバージョンの方がはるかに優れていることを知って、私たちは彼女を笑って許す可能性が高いということです。

VRが平らになる場所

お店に電話をかけたときにIVRに出会ったことがあるなら、コミュニケーションの障壁があることに気づいたかもしれません。 一部のプログラムでは、単語を読み違えさせて物事を理解するのを難しくする、ロボットによる音声合成の音声を使用しています。 他の人は感度の問題を抱えており、その結果、声が大きすぎたり、柔らかすぎたり、慎重に発音しないと、ソフトウェアがあなたの言っていることを処理できなくなります。


さらに、多くの人はまだマシンと話をするのに不安を感じています。 IVRでいくつかの検索を実行すると、人々がIVRシステムをバイパスして「実在の人物」に到達する方法をまとめたリストに遭遇します。 このソリューションの範囲は、「オペレーターが0を押し続ける」から「人間を捕まえるまで機械を誓う」ことです。 その結果、IVRシステムの最近の開発の多くは、人間にとってより味の良いものにすることを中心に展開されています。 音声の共感性を高め、ロボットの動きを抑え、システムのナビゲートを容易にし、発信者に最初から最後まで全体にかかる時間を知らせることができます。 これは、より良い技術がここでの戦いの半分に過ぎないことを示唆しています。 残りの半分は、ユーザーとマシンとの会話を可能にします。

未来が保持するもの

これらの課題にもかかわらず、音声認識技術は常に改善されています。 SiriやGoogle Nowなどのアプリケーション-欠陥とすべて-のパフォーマンスは依然として非常に印象的であり、いくつかの企業はVR機能を他のアプリケーションに拡張しています。


たとえば、Dragon NaturallySpeaking音声合成ソフトウェアの作成者であるNuanceは、テレビや自動車の音声コントロールを既に開発しており、この技術のバージョンは、一部のサムスンのテレビや特定のフォード車で使用されるSYNCエンターテインメントシステムに組み込まれています。


また、GoogleとAppleが音声認識技術の新しい用途を見つけ続けるにつれて、テレビからトースターに至るまで、あらゆる種類の日常的な機械と話をするようになりそうです。 そして、もう一度、SFが正しかったように見えます。 これらの賢い作家が一つのことについて間違っていたことを願う必要があります。 これらのマシンが引き継いでいる場合、次回Siriに「ポッドベイドアを開く」ように依頼するときに、多くの問題が発生する可能性があります。

音声認識技術:役に立つか苦痛ですか?