データベース 提案の力:データカタログがアナリストを強化する方法

提案の力:データカタログがアナリストを強化する方法

Anonim

Techopediaスタッフ、2016年6月22日

持ち帰り:ホストRebecca Jozwiakは、Dez Blanchfield、Robin Bloor、David Crawfordとデータカタログの利点について説明します。

ビデオを見るには、このイベントに登録する必要があります。 登録してビデオをご覧ください。

Rebecca Jozwiak:ご列席の皆様 、こんにちは。2016年のHot Technologiesにようこそ。今日は、「提案の力:データカタログがアナリストに力を与える方法」を手に入れました。今日カバナは、彼が世界を旅している間に、私たちに参加してくれてありがとう。 今年は暑いです。テキサスの暑さだけでなく、あちこちで暑いです。 あらゆる種類の新しいテクノロジーが爆発的に出ています。 IoT、ストリーミングデータ、クラウドの採用があり、Hadoopは成熟し、採用され続けています。 自動化、機械学習があり、これらすべてはもちろんデータによって強調されています。 そして、企業は日ごとにますます多くのデータに駆動されています。 そしてもちろん、そのポイントは知識と発見につながり、あなたが知っているように、より良い決定を下すことです。 しかし、データから最大限の価値を引き出すには、簡単にアクセスできるようにする必要があります。 それをロックしたり、埋めたり、企業内の少数の人々の脳の中に保管したりすると、企業全体としてはあまり良いことにはなりません。

そして、私はデータのカタログ化と図書館のコースについて考えていました。昔、何かを見つける必要がある場合、トピックを調査する必要がある場合、または情報を調べる必要がある場合はそこに行きました、そしてもちろん、あなたはカードカタログ、またはそこで働いていた汚い女性に行きました。 ただ見回したいだけで、見事な何かを見つけられると確信していれば、知らない興味深い事実を見つけるかもしれませんが、本当に何かを見つける必要がある場合は、歩き回るのも楽しかったです、そして、あなたが探していたものを知っていて、カードカタログが必要でした。もちろん、エンタープライズ版はデータカタログです。これは、ユーザーがすべてのデータに光を当てて、ユーザーを豊かにし、発見し、共有し、消費し、本当に助けるのに役立ちますデータにすばやく簡単にアクセスできます。

今日は、データサイエンティストのDez Blanchfieldと、チーフアナリストのRobin Bloorがいます。AlationのDavid Crawfordが、彼の会社のデータカタログストーリーについて話しますが、 Dezでリードします。 デズ、私はあなたにボールを渡しています、そして床はあなたのものです。

Dez Blanchfield:ありがとう、今日はありがとう。 これは私が非常に興味を持っている問題です。日々の仕事で出くわすほとんどすべての組織で、ショー前の冗談で非常に簡潔に話したのとまったく同じ問題を見つけます。数年以上ビジネスに携わっているほとんどの組織は、さまざまな形式の組織に大量のデータが埋まっています。実際、Lotus Notesに戻るデータセットを持つクライアントがあります。擬似インターネットとしてのケース、そして彼らは、データがどこにあるのか、どのようにデータにアクセスするのか、誰にアクセスを提供するのか、いつアクセスするのか、そしてどのようにカタログ、および誰もができる場所にそれを取得する方法:A)そこにあるものとその中にあるものを認識し、B)それにアクセスして使用する方法。 そしてもちろん、最大の課題の1つはそれを見つけることであり、もう1つの大きな課題はそこにあるものとそのアクセス方法を知ることです。

私は何十ものデータベースを持っていることをよく知っているかもしれませんが、何がそこにあるのか、何がそこにあるのかをどのように見つけるのか実際にはわかりません、そして私たちは常にショー前のデータで今発見しているので、オフィスを歩き回って質問したり、立方体の壁を横切って叫んだり、試してみたりしてみてください。多くの場合、私の経験では、フロント、レセプションに行って、誰があなたは話をするつもりです。 多くの場合、誰かが作成したばかりであるためデータセットを知らないため、常にIT担当者であるとは限りません。また、IT環境で立ち上がっているプロジェクトを見つけることもあります。プロジェクトマネージャーはすべてのもののスプレッドシートを使用し、資産やコンテキスト、名前に関する貴重な情報を大量に取得しました。そのプロジェクトを知っていて、その人を知っていなければ、その情報を見つけることはできません。 利用できないだけで、元のファイルを手に入れる必要があります。

データに関してあちこちに散らばっているフレーズがありますが、私は必ずしもそれに同意するわけではありませんが、それはかわいいちょっとした捨て方だと思います、そしてそれは一定量の人々がデータが新しいオイルだと思っているということです、そして私はそれについては、本日後半に何らかの面で説明します。 しかし、私が気づいたのは、確かにその変革の一部であり、データを大切にすることを学んだ企業の組織が競合他社よりも大きな優位性を獲得したということです。

約5〜6年前のIBMによる興味深い論文があり、オーストラリアの約4, 000の企業を調査し、すべての情報、すべてのパフォーマンスデータ、すべての財務データを取得し、沸騰した鍋にまとめてから、オーストラリアの経済学部にそれを送り、彼らは実際にここで共通の傾向を開始しました。それは技術を活用した企業が常に同業他社や競合他社よりも競争上の優位性を獲得し、競合他社が追い付かないことでしたデータがデジタルトランスフォーメーションと呼ばれるもので、データを見つけ、そのデータを利用可能にし、非常に簡単な消耗品で利用できるようにする方法を明確に理解している組織で見られます。必ずしも組織がそれを必要とする理由を常に把握せずに、組織にファッションを提供し、競合他社よりも大幅に有利になります。

このスライドにはいくつかの例があります。ご覧ください。 私の1つのラインナップは、ほとんどすべての産業部門にわたる大規模な混乱は、私の見解では、データによって推進されているということです。現在の傾向がどうなるかというと、私の見解は本当に長年のブランドがようやくこれが意味するものに目覚めてゲームに参入すると、彼らは卸売りでゲームに参入するからです。 データの山を抱える大手小売業者がデータの履歴分析を適用し始めたときに、データが存在することさえ知っていれば、一部のオンラインプレーヤーは少しばかり電話をかけます。

しかし、これらのブランドの多くは、世界最大のタクシー会社であるUberを持っています。 彼らはタクシーを所有していないので、彼らを魔法にしているのは何ですか、データは何ですか? 最大の宿泊施設プロバイダーであるAirbnbには、世界最大の電話会社であるWeChatがありますが、実際のインフラストラクチャ、携帯電話、電話回線はありません。 アリババは、世界最大の小売業者ですが、在庫を所有していません。 世界最大のメディア企業であるFacebook。 最後の数で、彼らは現在14億人のアクティブなデータユーザーを持っていたと思います。これは気が遠くなるような数字です。 それはどこにも近くない-地球の4分の1が実際に毎日そこにいると誰かが主張していると思うが、実際にはコンテンツを作成しないコンテンツプロバイダーがあり、提供するすべてのデータは作成されず、作成される加入者によって、私たちは皆このモデルを知っています。

あなたが聞いたかもしれないかもしれないSocietyOne、それは地元のブランドだ、私はいくつかの国では実際にピアツーピア貸し出しをしている銀行だと思うので、言い換えれば、それはお金がない。 トランザクションを管理するだけで、データはその下にあります。 Netflix、私たちは皆、非常によく知っています。 ここには興味深いワンライナーがあります。 Netflixがオーストラリアで合法的に使用できるようになったとき、公式に発表されたとき、VPNを使用してアクセスする必要はありませんでした。世界中の多くの人々がそうです。 –オーストラリアでNetfixが開始されたとき、インターネットリンクの国際的な帯域幅が40%増加したため、1つのアプリケーション、データで遊ぶだけの1つのクラウドホストアプリケーションによって、オーストラリアでのインターネット使用量がほぼ2倍になりました。 それはただ気が遠くなるような統計です。

そしてもちろん、私たちは皆AppleとGoogleに精通していますが、これらは地球上で最大のソフトウェアビジネスですが、実際にはアプリを作成していません。 これらのすべての組織で一貫していることは何ですか? まあ、それはデータであり、彼らは自分のデータがどこにあるのかを知らず、それをカタログ化する方法を知らなかったため、そこに着きませんでした。

現在私たちが見つけているのは、データと呼ばれるこのまったく新しい資産クラスがあり、企業がそれに目覚めていることです。 しかし、彼らは常にすべてのデータをマッピングし、すべてのデータをカタログ化して利用できるようにするツールとノウハウ、そしてそれを持っているわけではありませんが、物理的な資産がほとんどない企業は高い市場価値を獲得していることがわかりましたこの新しいデータ資産クラスを介して時間を記録します。 私が言ったように、古いプレイヤーの一部は今これに目を覚まし、確かにそれを引き出しています。

私はちょっとした旅に人々を連れて行くのが大ファンなので、1800年代から1800年代後期にかけて、米国市場でこれに精通している人は多いでしょう。毎年かそこらで、彼らはその時点で10年ごとにそれらを実行したと思いますが、毎年国勢調査を実行する場合、実際にデータ分析を行うには最大8または9年かかる可能性があります。 そのデータセットは、その後、紙の場所のボックスに残され、ほとんど誰もそれを見つけることができなかったことが判明しました。 彼らはこれらのレポートを送り出し続けましたが、実際のデータを入手するのは非常に困難でした.1940年代頃、第二次世界大戦の別の世界の重要な瞬間と同様の状況があり、これはBetchのスペルのブレッチリーパークボンベです、そしてそれは小さなデータセットを通過し、その中のシグナルを見つけ、エニグマを通してコードをクラックするのを助けるために使用される巨大な数値計算分析ツールでした。

繰り返しますが、これは本質的には、カタログを作成するのではなく、データにタグを付けてマップし、パターンを取得してデータセット内で見つけることができるように設計されたデバイスでした。データセットで定期的にそれらを使用しているため、データ内のデータを検索し、データのカタログ化に向けてこの道を歩んでいます。

そして、これらのものが登場しました、これらの巨大で低コストのマシンのラック、市販のマシンです。 そして、私たちはいくつかの非常に興味深いことをしました。そして、私たちがそれらを使ってしたことの1つは、地球のインデックス作成を開始できる非常に低コストのクラスターを構築したことです。私たちが聞いたことがあるブランド-それは実際の動詞になり、あなたはあなたのブランドが動詞になったときにあなたが成功していることを知っています。 しかし、Googleは、おそらくビジネスの世界で気付かないうちに私たちに教えたことは、惑星全体を特定のレベルにインデックス付けし、世界中のデータをカタログ化し、非常に簡単に利用できるようにしたことです。少し小さな1行の数式の便利なフォーム、ほとんど何も表示されていないWebページ、およびクエリを入力すると、既に惑星をクロールし、インデックスを作成し、簡単に利用できるようになったため、検索されます。

そして、私たちが気付いたのは、「組織内でこれをしていません。なぜですか?」 なぜ地球全体をマップしてインデックスを作成し、クロールしてインデックスを作成し、それを利用可能にする組織を持っているのか、それを検索してから、クリックして検索して検索できるのはなぜですか?ですから、イントラネット用に物事を見つけて物事を見つけるこれらの小さなラックが世界中にたくさんありますが、それらはまだ従来のウェブを超えていくという考えに本当に近づいていますページ、またはファイルサーバー。

この次世代のデータカタログをさまざまな方法で入力する代わりに、ポストイットノートやウォータークーラーの会話を介してデータアクセスを発見することは、データの発見とカタログ化に実際には適切な方法ではなく、実際、これまでにないと思います本当にあった。 メモを渡したり、メモを投稿したり、それについてチャットしたりするだけの人々に、この課題全体を導くことはできません。 私たちは、この次世代のデータカタログ化のアプローチが行き来した領域をはるかに超えています。 私たちはそれを回避する必要があります。 これが簡単な問題であれば、すでに多くの方法ですでに解決しているはずですが、データのインデックス付けと呼び出しだけがその一部であり、データの内容を把握していて、発見したものに関するメタデータを構築してから、特にセルフサービスや分析で、簡単で使いやすい形式で利用できるようにします。 まだ解決中の問題ですが、5年以内にパズルの多くの部分がうまく解決され、利用可能になりました。

私たちが知っているように、ヒューマンカタログはデータ処理の最大の悪夢の1つであるため、データのカタログ化は失敗のレシピであり、私は定期的にこのトピックについて話します。ビッグデータと分析で対処します。日付やフィールドなどの単純なものでさえ、間違った形式で入力することでさえ、彼らがすることを常に修正しなければなりません。

しかし、私が言ったように、インターネット検索エンジンは毎日世界をインデックス化するのを見てきました。そのため、今では発見プロセスのビジネスデータセットでそれを行うことができ、ツールとシステムは今日学習しようとしているのですぐに利用できます。 私の考えでは、トリックは仕事に最適なツールを選択することです。 そして、その上でより適切に、適切な部分を見つけて、このパスを開始するのに役立ちます。 そして、私たちは今日それについて聞くことになると信じていますが、それをする前に、私は大学のロビン・ブロアに引き継いで、彼のトピックに関する意見を聞くつもりです。 ロビン、私はあなたに渡すことができますか?

Robin Bloor:はい、もちろんできます。 これが機能するかどうか見てみましょう、そうです。 さて、私は実際にDezとは異なる方向から来ていますが、同じ場所に行き着きます。 これはデータへの接続に関するものであるため、データに接続するという現実をポイントごとに実際に見ていきたいと思いました。

データがかつてないほど断片化されているという事実があります。 データ量は驚異的に増加していますが、実際には、データのさまざまなソースも信じられないほどの速度で成長しているため、データは常に断片化されています。 しかし、特に分析アプリケーション(これらは唯一のアプリケーションではない)のために、このすべてのデータに接続する非常に正当な理由があります。そのため、困難な場所に閉じ込められ、断片化されたデータの世界に閉じ込められています。そして、Dezがそれを新しいオイルと呼んでいたように、データには機会があります。

データについては、ファイルシステムまたはデータベースのいずれかの回転ディスク上に存在していました。 現在では、はるかに多様な環境に存在し、ファイルシステムに存在していますが、最近ではHadoopインスタンス、またはSparkインスタンスにも存在しています。 複数の種類のデータベースに存在します。 少し前まで、いくつかのリレーショナルデータベースを標準化しましたが、ドキュメントデータベースが必要であり、グラフデータベースが必要なため、過去5年間にウィンドウがなくなったことがわかります。かわった。 そのため、回転ディスク上に存在していましたが、現在はSSD上に存在しています。 最新のSSD –間違いなく最新のSSDユニットがSamsungから出ています– 20ギガバイト、これは巨大です。 現在では、データのプライムコピーをディスク上ではなくメモリ内に格納できるという意味で、メモリ内に存在します。そのようなシステムの構築には使用しませんでした。 今やっています。 そして、それはクラウドに住んでいます。 つまり、これらはクラウドのどこにでも存在できることを意味します。クラウド内のどこにいるのかを必ずしも知る必要はなく、そのアドレスだけがあります。

要点を突き止めるために、Hadoopはこれまでのところ、拡張可能なデータストアとして失敗しました。 拡張可能なスケールアウトデータストアになり、すべてのファイルシステムが1つになり、虹が空に現れ、基本的にユニコーンが踊り、それが起こらないことを望んでいました。 つまり、データ転送の問題が発生し、時にはデータ転送の必要はありませんが、困難でもあります。 数テラバイトのデータを取得し、それを振り回すと、ネットワークにレイテンシーが発生したり、さまざまな場所に表示されたりする原因となります。 データを転送したい場合、タイミングが要因です。 最近では、ある場所から別の場所へ1つのデータを取得するために必要な時間には、ほぼ常に制限があります。 マシンがアイドル状態のとき、以前はバッチウィンドウと考えていたものがありましたが、データがどれだけあったとしても、それを放り投げればすべてうまくいきました。 さて、私たちははるかにリアルタイムの世界に住んでいます。 したがって、タイミングが要因です。 データを移動したいとすぐに、データに重力がある場合は、おそらく移動できません。

データ管理は、このすべてのデータを実際に管理しなければならないという意味での要因です。無料で取得することはできません。実際にデータを取得して必要なジョブを実行するには、レプリケーションが必要になる場合があります。どこに置いてもどこでもないかもしれません。 通常のデータ処理を行うために十分なリソースがない場合があります。 したがって、データは複製され、データは想像以上に複製されます。 昔、誰かが私に、平均的なデータが少なくとも2.5回複製されていると言ったと思います。 ESBまたはKafkaはデータフローのオプションを提供しますが、今日ではアーキテクチャが必要です。 今日では、データを実際に投げることが実際に何を意味するかについて、何らかの形で考える必要があります。 したがって、データに実際にアクセスするときに必要なパフォーマンスを得ることができ、コンテキストに依存している限り、通常はデータにアクセスすることをお勧めします。 とにかく、それは難しい状況です。 データクエリに関しては、以前はSQLの観点から考えることができました。さまざまな形式のクエリ、SQLがありますが、隣接するグラフクエリ、Sparkはその一例に過ぎません。また、これまで以上にテキスト検索を行う必要があるため、グラフを作成する必要があります。また、パターンの本当に複雑な検索である正規表現タイプの検索、および本物のパターンマッチングも必要です。 そして、彼らはあなたが探しているものを手に入れるか、あなたが探しているものを手に入れることができるので、すべてが便利です。

現在、クエリは複数のデータにまたがるので、常にそうなるとは限りませんでした。多くの場合、パフォーマンスを低下させるとパフォーマンスが低下します。 そのため、状況に依存しますが、人々は複数のデータソースからデータをクエリできるようになることを期待しているため、ある種のデータフェデレーションはますます最新になっています。 データ仮想化は、パフォーマンスに応じて異なる方法で実行されることも非常に一般的です。 データクエリは、実際にはプロセス全体ではなく、プロセスの一部です。 分析のパフォーマンスを実際に見ている場合、実際の分析はデータ収集よりも非常に長い時間がかかることがありますが、それは状況によって異なりますが、データクエリは絶対に必要なことです。複数のデータソースに対する分析のようなものであり、実際には、実際にはさまざまな機能が必要です。

カタログについてです。 カタログには理由があります。少なくとも、私たちは、ディレクトリがあり、データベース内にスキーマがあり、各カタログがあり、どこに行っても、1つの場所を見つけることができると言っています。ある種のカタログがあり、統一されたグローバルカタログが非常に良いアイデアであることがわかります。 しかし、そのようなものを持っている企業はほとんどありません。 私は覚えている、2000年に戻って-2000年のパニック-私は共産主義者が彼らが持っていた実行可能ファイルの数を特定することさえできなかったことを覚えている、彼らが持っている異なるデータストアの数を気にしないほとんどの企業は、グローバルな意味で、どのデータを持っているかを積極的に知らないことを知っています。 しかし、実際にグローバルカタログを作成する必要性が明らかになりつつあります。または、少なくともデータソースの成長とアプリケーションの継続的な成長のために、進行中の状況をグローバルに把握する必要があります。なぜなら、ある意味では、データの系統や問題など、他の問題もあり、セキュリティ、データガバナンスの多くの側面、必要なデータが本当にわからない場合、アイデアが必要だからです。あなたがそれを統治しようとしているということはばかげている。 そのため、すべてのデータが何らかの方法でカタログ化されるのは事実です。 問題は、カタログが一貫しているかどうか、実際にそれで何ができるかです。 それで、レベッカに戻ります。

Rebecca Jozwiak:わかりました、ロビンに感謝します。 次に、AlationのDavid Crawfordがいます。David私は先に進み、ボールをあなたに渡します。あなたはそれを奪うことができます。

デビッド・クロフォード:ありがとうございます。 このショーに参加してくれて本当にありがとう。 私はこれを始めるつもりだと思うので、ここでの私の役割は、その理論の一部を取り、それが実際にどのように適用されているか、そして実際の顧客で運転できる結果を確認することだと思います。スライドのいくつかについて、分析で改善される可能性のある結果を確認したいと思います。 そこで、議論の動機付けをするために、彼らがどうやってそこに着いたかについて話します。 幸運なことに、これらの顧客の多くの本当に賢い人々とかなり密接に仕事をすることができ、実際に測定することができた少数の人々を指摘し、データカタログが彼らのアナリストにどのように影響したかについて話したいですワークフロー。 そして、簡単に先頭に立つために、データカタログと以前の仲介されたソリューション、そして関係者がまとめたソリューションについて関係が本当に考える方法の1つで、変化するものの1つはアナリストから始めることだと思います後方に働きます。 言うには、アナリストの生産性を有効にすることについてこれを作りましょう。 単なるコンプライアンスとは対照的に、または単にインベントリを保持するのではなく、アナリストの生産性を高めるツールを作成しています。

そこで、金融サービス会社Squareのデータサイエンティストと話すと、Nickが、レポートを開始するために適切なデータセットを見つけるのに数時間かかっていた方法を教えてくれました。市場シェアで検索を使用して数秒でそれを実行し、Squareを使用していたアナリストを引き離したCTOに話しました。すみませんが、Alationを使用して、彼らが見たもの、彼らが見た利点、生産性が向上し、世界のトップ小売業者の1つであるeBayには、定期的にSQL分析を行う1, 000人以上の人々がいます。私はプロジェクトのDeb Saysとかなり密接に仕事をしていますデータツールチームのマネージャーである彼女は、クエリアがAlationを採用し、カタログを採用すると、データベースに対する新しいクエリの書き込み速度が2倍になることを発見しました。

したがって、これらは実際の結果であり、実際に組織にカタログを適用している人々です。セットアップに必要なことを説明します。 カタログが企業でどのように確立されるか、そしておそらく最も重要なことは、それの多くは自動的に行われるということです。そのため、Dezはシステムについて話し、システムについて学び、それがまさに最新のデータカタログの機能です。 そのため、Alationをデータセンターにインストールし、それをデータ環境のメタデータのさまざまなソースに接続します。 データベースとBIツールに少し焦点を当てます。これらの両方から、基本的に存在するものについて、技術的なメタデータを抽出します。 そう、だからどんなテーブル? どのようなレポートですか? レポートの定義は何ですか? そのため、彼らはその技術的なメタデータを抽出し、それらのシステム内のすべてのオブジェクトに対してカタログページが自動的に作成されます。次に、その技術的なメタデータの上に抽出および階層化され、使用データの上に階層化されます。 これは主にデータベースからクエリログを読み取ることで行われ、これは非常に興味深い情報源です。 そのため、アナリストがクエリを作成するとき、レポートツールが自家成長であるか、既製であるか、レポートツールがダッシュボードを更新するためにクエリを実行するとき、アプリケーションが操作するデータを挿入するクエリを実行するときデータセット–これらすべてはデータベースクエリログにキャプチャされます。 カタログがあるかどうかに関係なく、カタログはデータベースとともにクエリログにキャプチャされます。 データカタログでできること、特にAlationのカタログでできることは、それらのログを読み取り、その中のクエリを尋ね、それらのログに基づいて非常に興味深い使用状況グラフを作成することです。データの過去のユーザーがどのように使用したかについてのデータ。

そのため、すべての知識をカタログにまとめます。これを実現するために、これらはすでにお客様に展開されている統合です。したがって、Oracle、Teradata、Redshift、Vertica、およびその他の多くのリレーショナルデータベース。 Hadoopの世界では、Hadoopに一連のSQL、Hadoopファイルシステム、Impala、Tez、Presto、Hiveの最上位にあるリレーショナルメタストアがあり、AltiscaleなどのクラウドHadoopプライベートプロバイダーでも成功を収めています。また、Tableauサーバー、MicroStrategyサーバーに接続してダッシュボードのインデックスを作成できるほか、Plotlyなどのデータサイエンスチャートツールとの統合も可能です。

したがって、これらすべてのシステムに接続し、これらのシステムを顧客に接続し、技術的なメタデータを取り込み、使用データを取り込み、データカタログを自動的に準備しましたが、そのようにして、知識を一元化しますが、データカタログに物事を一元化するだけでは、eBay、Square、市場シェアで話し合った本当に素晴らしい生産性の向上は得られません。 そのためには、実際にアナリストに知識を提供することに対する考え方を変える必要があります。 彼らがこれに備えるように求めている質問の1つは、「カタログがアナリストのワークフローに実際にどのような影響を与えるか」でした。

それが私たちが一日中考えていることであり、プッシュモデルとプルモデルの考え方のこの変化について話すために、私はKindleで読んだ前後の世界がどのようなものであるかを簡単に類推したかったです。 物理的な本を読んでいるときに単語に出くわすと、その単語の定義を非常によく知っているかどうかわからず、文脈から推測できるかもしれません。ソファから立ち上がって本棚に行き、辞書を見つけてほこりを払い、単語のアルファベット順のリストの正しい場所に移動して、その定義が正しいことを確認します。それのニュアンス。 そのため、実際には起こりません。 だから、Kindleアプリを購入し、そこで本を読み始めると、あなたは完全に確信が持てない単語を見て、その単語に触れる。 突然、その同じ画面で、すべてのニュアンス、さまざまな使用例が含まれる単語の辞書定義があり、少しスワイプすると、そのトピックに関するウィキペディアの記事が表示され、もう一度スワイプします。それを他の言語または他の言語に翻訳できる翻訳ツールを手に入れると、突然言語の知識がはるかに豊かになり、行かなければならなかったときと比べて驚くべき回数になります自分でそのリソースを引き出します。

ですから、アナリストのワークフローとアナリストがデータ文書を処理する方法は、実際には、読者が物理的なものであろうとなかろうと、辞書と対話する方法に非常に似ているということです。 Kindle、つまりこの生産性の向上を実際に見た方法は、カタログをこぼすのではなく、アナリストのワークフローに接続しているので、ここでデモを行うように頼まれました。それをこのプレゼンテーションの焦点にします。 ただし、デモのコンテキストを設定したいだけです。 ユーザーが必要なときにデータの知識をユーザーにプッシュすることを考えるとき、適切な場所、時間を費やし、分析を行う場所は、SQLクエリツールだと思います。 SQLクエリを記述して実行する場所。 そして、私たちはそれを構築し、それを構築しました。他のクエリツールと実際に異なるのは、データカタログとの深い統合です。

したがって、クエリツールはAlation Composeと呼ばれます。 これはWebベースのクエリツールであり、すぐに紹介します。 前のスライドで見たデータベースロゴすべてで機能するWebベースのクエリツール。 特にデモしようとするのは、カタログ情報がユーザーにどのように伝わるかということです。 そして、このような3つの異なる方法でそれを行います。 それは介入を通じてそれを行います。それは、データガバナー、データスチュワード、または何らかの方法で管理者、またはマネージャーである誰かが言うことができる場所です。ワークフローと適切なタイミングでユーザーに配信されることを確認してください。」それが介入であり、それを示します。

スマートな提案は、ツールがカタログに関するすべての集約された知識を使用して、作成中のオブジェクトやクエリの一部を提案する方法です。 そこで知っておくべき最も重要なことは、クエリログを実際に活用して、使用法に基づいて提案したり、以前に記述されたクエリの一部を見つけたりすることです。 そしてそれを示します。

そしてプレビューします。 プレビューは、オブジェクトの名前を入力しているときに、カタログが知っているすべてのもの、または少なくともカタログがそのオブジェクトについて知っている最も関連性の高いものを表示します。 そのため、以前にデータを使用したデータのサンプル、そのオブジェクトの論理名と説明は、あなたがそれを要求することなく、それを書いている間にすべてあなたに思いつきます。

ですから、これ以上話をせずにデモに行きます。デモが表示されるのを待ちます。 ここで紹介するのは、クエリツールです。 これは、専用のSQL書き込みインターフェースです。 ある意味では、カタログとは別のインターフェイスです。 デズとロビンはカタログについて話しました。私はカタログのインターフェースについて、ワークフローに直接サービスを提供する方法に少し飛びついています。

ここでは、SQLを入力できる場所を示していますが、下部には、参照しているオブジェクトに関する情報が表示されていることがわかります。 そのため、クエリの入力を開始し、これらの介入の1つに到達したら停止します。 「select」と入力して、年を指定します。 名前が欲しい そして、いくつかの給与データを検索します。 これは教育データセットです。 それには高等教育機関に関する情報があり、私はこれらの表のいずれかにある平均的な教員の給料を見ています。

そのため、実際に「給与」という単語を入力しました。これは、列の名前とまったく同じではありません。 論理メタデータと物理メタデータの両方を使用して提案を行います。 ここで指摘したいのは、ここに表示されるこの黄色のボックスです。 このコラムには警告があると書かれています。 私はそれを探しに行きませんでした。このデータを適切に使用する方法についてのクラスを取りませんでした。 それは私に来ました、そしてそれはたまたまこのデータに関係する守秘義務契約についての警告です。 そのため、いくつかの開示ルールがあります。 このデータを照会する場合は、このテーブルからデータを取得します。開示方法に注意する必要があります。 したがって、ここにガバナンスポリシーがあります。 データを見ているときに知っていると、このポリシーへの準拠が非常に簡単になるコンプライアンス上の課題がいくつかあります。

だから私はそれを私に近づいてきました、そして私は授業料も見に行きます。 そして、ここでプレビューが登場します。 この授業料の列には、教育機関の表に授業料の列があり、そのプロフィールが表示されています。 Alationはテーブルからサンプルデータを取得しますが、この場合、非常に興味深いものが表示されます。 値の分布を示しており、サンプルでゼロ値が45回、他のどの値よりも多く表示されていることを示しています。 したがって、データが不足している可能性があるという感覚があります。

私が上級アナリストなら、これはすでに私のワークフローの一部かもしれません。 特に私が特に細心の注意を払っている場合は、事前に大量のクエリをプロファイリングします。 新しいデータにアプローチするたびに、データカバレッジについて常に考えています。 しかし、データ分析を初めて使用する場合、このデータセットを初めて使用する場合は、列があれば常に入力されていると想定するかもしれません。 または、記入されていない場合、ゼロではなく、nullまたはそのようなものであると想定します。 しかし、この場合、多くのゼロがあり、平均をした場合、それらのゼロが欠損データではなく実際にゼロであると仮定した場合、おそらく間違っています。

しかし、Alationでは、このプレビューをワークフローに取り込むことで、この情報を確認するように求められ、ある種の初心者のアナリストでも、そのデータについて注目すべき点があることを確認できます。 プレビューがあります。

次に行うことは、この情報を取得するためのテーブルを見つけようとすることです。 そのため、ここではスマートな提案をご覧ください。 ずっと続いていますが、特にここでは、何も入力していませんが、このクエリにどのテーブルを使用したいかを提案します。 そして、これについて知っておくべき最も重要なことは、使用統計を活用することです。 そのため、たとえばeBayのような環境では、単一のデータベースに数十万のテーブルがあり、aff殻から小麦を打つことができるツールを持ち、これらの使用統計を使用することは、これらを作成するために非常に重要です何か価値がある提案。

そのため、この表を提案します。 プレビューを見ると、クエリで既に言及した3つの列が実際に強調表示されます。 だから、3つあることは知っていますが、名前はありません。 名前を取得する必要があるので、参加します。 結合を行うと、名前のテーブルがどこにあるかを見つけるのに役立つこれらのプレビューがあります。 だから、この名前にはきちんとフォーマットされた、ある種の適切に大文字の名前があることがわかります。 各機関の名前が1行あるように見えるので、それを取得します。そして今、結合条件が必要です。

そのため、ここでAlationが行っていることは、クエリログを再度振り返り、これら2つのテーブルが結合された以前の時間を確認し、それらを結合するさまざまな方法を提案しています。 もう一度、いくつかの介入があります。 これらのいずれかを見ると、これは集計分析にのみ使用する必要があることを示す警告が表示されます。 機関ごとに何かをしようとしている場合、おそらく間違ったものを生み出すでしょう。 これに対して、大学レベルのデータが必要な場合は、OPE IDを使用して、これら2つのテーブルを結合する適切な方法として承認されます。 だから私はそれを行い、それは短いクエリですが、データが何であるかについての洞察を本当に必要とせずにクエリを記述しました。 このデータセットのERダイアグラムを実際に見たことはありませんが、関連する情報が私に届いているので、このデータについてはすでに多くのことを知っています。

したがって、これらは、統合されたクエリツールを使用して、カタログがクエリを記述しているときにワークフローに直接影響を与えることができる3つの方法の一種です。 しかし、クエリツールをカタログと統合することのもう1つの利点は、クエリを終了して保存すると、「教育機関の授業料と教員の給与」などのタイトルを付けることができることです。カタログに公開するだけです。 これをフィードバックするのは非常に簡単になります。 たとえ公開しなくても、クエリログの一部としてキャプチャされますが、実際に公開すると、すべてのデータ知識が集中する場所の一部になります。

したがって、Alationの[すべてのクエリの検索]をクリックすると、次のカタログインターフェイスが表示されます。クエリを検索する方法を示す専用のクエリ検索に移動します。組織全体。 そして、新しく公開されたクエリが一番上にあることがわかります。 ここで、クエリをキャプチャするときに著者もキャプチャし、著者としての自分と、現在何かを知っているこれらのデータオブジェクトとの間にこのような関係を確立することに気付くかもしれません。 そして、私はこのクエリとこれらのデータオブジェクトの専門家として確立されています。 人々がデータについて学びに行く必要があるとき、それは本当に役に立ちます、そして、彼らは学ぶために行く適切な人を見つけに行くことができます。 そして、私が高度なアナリストであろうと高度なアナリストであろうと、実際にデータに慣れていない場合は、これを見て、新しいデータセットを開始するための多くの例を見るかもしれません。 SQLに精通していないと感じる人として、私は利用できるレポートである既成のクエリを見つけることができます。

SATスコアの中央値に関するPhil Mazanettの1つを次に示します。 これをクリックすると、クエリ自体のカタログページが表示されます。 このクエリを参照するために書かれた記事について説明しているので、使用方法を知りたい場合は、いくつかのドキュメントを読む必要があります。 そして、[作成]ボタンをクリックしてクエリツールで開くことができ、編集することなくここで実行できます。 実際、軽量のレポート機能を少し見ることができます。クエリを作成しているときに、このようなテンプレート変数をドロップすると、クエリベースのクエリを実行するフォームを作成する簡単な方法が作成されます。いくつかのパラメータについて。

それが私がデモ用に持っているものです。 スライドに戻ります。 要約すると、クエリツールに表示されるオブジェクトに警告を配置することにより、データガバナーである管理者が介入する方法、Alationがデータオブジェクトの使用に関する知識を使用してスマートな提案を行う方法、もたらす方法を示しました特定のオブジェクトに触れているアナリストのワークフローを改善するためのプロファイリングやその他のヒント、および新しいクエリが作成されたときにその種のすべてがカタログにフィードバックされる方法。

明らかに、私は会社を代表するスポークスマンです。 データカタログについて良いことを言うつもりです。 顧客の1人から直接連絡を取りたい場合は、SafewayのKristie Allenがアナリストチームを運営しており、マーケティング実験を行うために本当に時間をかけなければならなかった時期と、彼女の全体がどのようにチームはAlationを使用して、そのプロジェクトで非常に迅速に協力し、好転しました。 したがって、このbit.lyリンクをたどってそのストーリーを確認できます。また、Alationが組織にデータカタログをもたらす方法について少し聞きたい場合は、パーソナライズされたデモを設定できます。 どうもありがとう。

Rebecca Jozwiak:ありがとう、デビッド。 オーディエンスのQ&Aに引き渡す前に、DezとRobinにいくつかの質問があると確信しています。 デズ、先に行きたい?

Dez Blanchfield:もちろんです 。 公開されたクエリのこの概念のアイデアが大好きで、それをオーサリングのソースにリンクします。 私は社内のアプリストアというこのアイデアの長年のチャンピオンであり、これを構築するための本当に素晴らしい基盤だと思います。

私はあなたがこれをしている組織のいくつかと、あなたのツールとプラットフォームを活用してデータを発見するというこの全体の旅で得たかもしれないサクセスストーリーのいくつかについての洞察を得るようになりましたが、また、彼らの内部の文化的および行動的特性を周りに変換します。 ダウンロードするだけのこの種の社内アプリストア、それを見つけるだけでなく、その知識のキーパーと実際に小さなコミュニティの開発を開始できるというコンセプトがあります。

デビッド・クロフォード:ええ、私たちは驚いたと思います。 私は、アドテックのプロダクトマネージャーとしての過去と私たちが話したすべての顧客の両方から、クエリを共有することの価値を信じていますが、それが顧客が最初に行うことの1つであることにまだ驚いていますAlationから得られる価値として話してください。

私はInvoice2goという顧客の1人でクエリツールのユーザーテストを行っていましたが、比較的新しいプロダクトマネージャーがいて、ユーザーテスト中にプロンプ​​トを表示せずに、実際に私に言ったのです。もちろん、PMとしては、「どういう意味ですか、どうやってそれをしましたか?」と言ったのです。 SQLを使用して白紙状態から始めるのは非常に難しいことですが、既存のクエリを変更して、出力された結果を確認したり、言うことができます。 「ああ、この追加の列が必要なだけです」、または「特定の日付範囲にフィルタリングする必要がある」というのは、はるかに簡単なことです。

製品マネージャー、営業担当者など、このカタログを使用してSQLを習得し、SQLを習得することを常に望んでいた人たちのような補助的な役割を見てきました。 また、多くの企業が一種のオープンソースを試みていることも確認しました。 私はこれらの種類のものを内部で構築しようとしました。そこではクエリを追跡して利用できるようにします。そしてそれらを有用にするためのいくつかの本当に難しい設計上の課題があります。 FacebookにはHiPalと呼ばれる内部ツールがあり、Hiveで作成されたすべてのクエリをキャプチャしますが、ユーザーが適切な方法で微調整しないと、最終的には選択ステートメントの非常に長いリスト。 そして、クエリが私にとって有用であるかどうか、またはそれが良いかどうかを理解しようとしているユーザーとして、selectステートメントの長いリストを調べてみると、そこから価値のあるものを得るのにかなり時間がかかります最初から始めます。 適切なものを前面に表示し、便利な方法で提供するクエリカタログを作成する方法について、慎重に検討しました。

Dez Blanchfield:私たちは皆、非常に若い年齢から成人期に至るまで、多くの点でこの旅を経験していると思います。 一連のテクノロジー。 私自身は、コードをカットすることを学ぶなど、まったく同じ本物のことを経験しました。 雑誌を読み、次に本を読み、ある程度のレベルまで勉強した後、さらにトレーニングと教育を受ける必要がありました。

しかし、自分で教えて、雑誌を読んで、本を読んで、他の人のプログラムを切り刻んで、そのコースに行くときでさえ、私は他の人と話をするのと同じようにコースをすることから多くのことを学ぶことになりましたいくつかの経験をした人。 そして、それをデータ分析にもたらしたので、基本的には、人間が常に非常に賢いという同じような並行性を見ているのは興味深い発見だと思います。

私が本当に理解したいもう一つのことは、非常に高いレベルで、多くの組織が「そのポイントに到達するのにどれくらい時間がかかりますか?」と尋ねることです。プラットフォームがインストールされ、彼らはツールの種類を発見し始めましたか? このことを見ると、どれだけ速く人々は本当にすぐに「a-ha」の瞬間に変わり、ROIがもうそこにあるので心配していないことに気付きますが、今では実際にビジネスのやり方を変えています? そして、彼らは失われた芸術を発見し、彼らはそれで本当に、本当に楽しい何かをすることができると期待しています。

デビッド・クロフォード:ええ、少し触れます。 インストールすると、データシステムに直接接続されているカタログについて人々が好むものの1つは、何かを記入する必要があるところから空白を開始しないということです。ページごと。 これは、空のツールから始めて、文書化するすべてのページの作成を開始する必要がある以前のデータソリューションにも当てはまります。

基本的にソフトウェアをインストールしてから数日以内に、メタデータを抽出することで非常に多くのことを自動的に文書化するため、ツール内に少なくとも80%あるデータ環境の画像を取得できます。 そして、私は人々がツールでクエリを書き始めるとすぐにカタログに自動的に保存されるので、彼らも同様に現れ始めると思います。

私はそれを述べることに熱心になりたくありません。 2週間は1か月までのかなり控えめな見積もりだと思います。 2週間から1か月、実際に方向転換し、知識を共有し始めて、そこに行ってデータに関する情報を見つけられるようになったような価値があると感じているという控えめな見積もり。

Dez Blanchfield:考えてみると、本当に驚くべきことです。 効果的にインデックス作成およびカタログ化する大規模なデータプラットフォームの一部が、適切に実装および展開され、立ち上がるのに最大で1年かかる場合があるという事実。

Robin Bloorに引き渡す前に私があなたに持っていた最後の質問は、コネクターです。 すぐに私に飛びついたものの1つは、明らかに全体の課題を解決したことです。 ですから、いくつかの質問がすぐにあります。 1つは、コネクタがどのくらいの速さで実装されますか? 明らかに、OracleやTeradataなど、DB2などの最大のプラットフォームから始めます。 しかし、新しいコネクタがどのくらい定期的に届くのか、どのくらいの時間がかかるのでしょうか? それらの標準的なフレームワークがあると思います。 そして、あなたはそれらにどのくらい深く入りますか? たとえば、世界中のオラクルとIBM、さらにはTereadata、さらには人気のある最新のオープンソースプラットフォームの一部です。 彼らはあなたと直接働いていますか? 自分で発見していますか? これらのプラットフォームに関する内部知識が必要ですか?

コネクタを開発するのはどのようなものですか?また、それらのコネクタが可能な限りすべてを発見できるようにするために、これらのパートナーシップにどの程度深く関わっていますか?

デビッド・クロフォード:ええ、確かに、それは素晴らしい質問です。 ほとんどの場合、コネクタを開発できると思います。 確かに私たちは若いスタートアップで、顧客がいなかったときにやった。 内部アクセスを必要とせずに、接続を確実に開発できます。 公的に利用できないデータシステムへの特別なアクセスは一切行われず、多くの場合、内部情報も必要ありません。 データシステム自体で利用可能なメタデータサービスを利用します。 多くの場合、これらは非常に複雑で、扱いにくい場合があります。 私は特にSQL Serverを知っています。クエリログの管理方法、いくつかの異なる構成があり、実際に作業しなければならないものです。 適切に設定するには、ニュアンスとノブとダイヤルを理解する必要があります。これは、以前に何度か行ってきたので、お客様と一緒に取り組んでいるものです。

ただし、ある程度は、利用可能なパブリックAPIまたは利用可能なパブリックインターフェイスのようなものです。 私たちはこれらの会社のいくつかとパートナーシップを結んでいますが、それはほとんどが認証の根拠であり、彼らは私たちが働いていると言って安心し、テストのためのリソースを提供することができます。時には、新しいバージョンに取り組んでいます。

新しいつながりを好転させるために、私は保守的になろうとして、6週間から2か月としましょう。 それがどれほど似ているかによります。 そのため、Postgreの一部は、Redshiftに非常によく似ています。 RedshiftとVerticaは多くの詳細を共有しています。 したがって、これらのことを活用できます。 しかし、ええ、6週間から2か月は公平でしょう。

また、APIがあるため、Alationもメタデータプラットフォームと考えているため、手を差し伸べて自動的に取得することができない場合は、自分でコネクタを記述してシステムにプッシュする方法があります。すべてが単一の検索エンジンに一元化されます。

Dez Blanchfield:素晴らしい。 感謝します。 ロビンにも質問がたくさんあると思うので、ロビンに引き渡します。 ロビン?

Rebecca Jozwiak:ロビンはミュートになっているかもしれません。

Dez Blanchfield:ミュート状態です。

Robin Bloor:ええ、そうです。 申し訳ありませんが、私は自分自身をミュートしました。 これを実装するとき、プロセスは何ですか? 多くの場所に多くのデータが存在する可能性があるため、私はちょっと興味があります。 それでは、どのように機能しますか?

デビッド・クロフォード:ええ、そうです。 まず、サーバーのプロビジョニング、ネットワーク接続の利用可能性、ポートが開いていることを確認して実際にシステムにアクセスできるようにするITプロセスのようなものです。 彼らは皆、どのシステムから始めたいかをよく知っています。 データシステムの内部を知ること。これは、場合によっては実際に役立ちます。 クエリログを最初に見て、だれがシステムで何を、何人のユーザーを使用しているかを理解できるように支援します。 だから私たちはどこを見つけるのを手伝います-彼らはしばしば、データベースにログインしているかもしれない何百または何千人もの人々を持っているなら、彼らは実際にどこにログインしているのか分からないので、 queryは、ここ1か月ほどで実際にログインしてクエリを実行したユニークユーザーアカウントの数を記録します。

そのため、私たちはそれを利用することができますが、多くの場合、最も重要なものに対してのみです。 それらをセットアップしてから、「優先順位を付けましょう」と言うプロセスがあります。 並行して実行できるさまざまなアクティビティがあります。 クエリツールを使用するためのトレーニングに集中します。 クエリツールの使用を開始すると、まず、多くの人々が、さまざまなシステムすべてに対する単一のインターフェイスであるという事実を気に入っています。 彼らはまた、それがウェブベースであり、望まない場合にはインストールを伴わないという事実を愛しています。 セキュリティの観点からは、企業のITネットワークと本番データソースが存在するデータセンターとの間に、ネットワークの観点から、一種の単一のエントリポイントがあることが好きです。 そのため、Alationをクエリツールとして設定し、Composeをこれらすべてのシステムへのアクセスポイントとして使用し始めます。

そのため、トレーニングに重点を置いているのは、Webベースまたはサーバーベースのクエリツールと、デスクトップにあるツールとの違いと、使用する際のニュアンスを理解することです。それ。 同時に、最も重要なデータを特定し、再びクエリログ情報を利用して、「これらのデータを理解してもらいたいと思うかもしれません。 これらのテーブルで代表的なクエリの公開を始めましょう。」これは、非常に迅速に人々をスピンアップさせる最も効果的な方法です。 独自のクエリ履歴を見て、これらを公開して、最初のクエリとして表示されるようにします。 テーブルページを見ると、そのテーブルに触れたすべてのクエリを見ることができ、そこから開始できます。 次に、これらのオブジェクトにタイトルと説明を追加して、オブジェクトの検索と検索を簡単にし、使用方法のニュアンスを理解できるようにします。

系統を生成できるように、クエリログを徹底的に確認します。 私たちがやっていることの1つは、あるテーブルから別のテーブルにデータが移動するときにクエリログを調べることです。これにより、データのテーブルに関する最もよくある質問の1つを入れることができます。 どうすれば信頼できますか? したがって、表示できるのは、それが他のどのテーブルから来たのかだけでなく、その途中でどのように変換されたかです。 繰り返しますが、これは一種のクエリログによって強化されます。

そのため、これらのものがセットアップされ、システムに系統が導入されていることを確認し、テーブルページで確立できる最も価値が高く最も活用されているメタデータをターゲットにしているため、検索すると、便利なものが見つかります。

Robin Bloor:なるほど。 もう1つの質問-聴衆からの質問がたくさんあるので、ここであまり時間をかけたくありません-頭に浮かぶもう1つの質問は、ただの痛みのポイントです。 多くのソフトウェアが購入されたのは、何らかの形で人々が何らかの問題を抱えているためです。 それで、人々をAlationに導く一般的な痛みポイントは何ですか?

デビッド・クロフォード:ええ。 いくつかあると思いますが、私たちがよく耳にするのはアナリストのオンボーディングだと思います。 「このデータから新しい洞察を生み出さなければならない10、20、30人を近い将来雇用する必要があります。彼らはどのようにスピードアップするのでしょうか?」タックル。 また、シニアアナリストが他の人からのデータに関する質問に答えるために時間を費やすことから解放されます。 これも非常に頻繁に発生します。 そして、どちらも本質的に教育の問題です。

そして、Alationを採用している人々が見ている別の場所は、誰かが働くための真新しいデータ環境をセットアップしたいときです。彼らはこれを内部で宣伝し、利用する人々のためにマーケティングしたいのです。 次に、Alationをその新しい分析環境のフロントエンドにすることは非常に魅力的です。 ドキュメントがあり、システムへの単一のアクセスポイントである、システムへの単一の導入ポイントがあるので、人々は私たちに来る別の場所です。

Robin Bloor:わかりました、オーディエンスがあなたに到達しようとしているので、レベッカにあなたを渡します。

Rebecca Jozwiak:はい、ここには本当に良い聴衆の質問がたくさんあります。 そして、デビッド、これはあなたに特別に提起されました。 クエリを悪用する人々の経験があるようです。彼は、ユーザーに権限を与えるほど、コンピューティングリソースの責任ある使用を管理するのが難しくなると言っています。 それで、見当違いだが一般的なクエリフレーズの伝播を防ぐことができますか?

デビッド・クロフォード:ええ、この質問が見えます。 これは素晴らしい質問です。よくある質問です。 ユーザーをトレーニングする必要がある以前の企業では、私自身が痛みを感じていました。 たとえば、「これはログテーブルです。何年も前からログが保存されています。 したがって、たとえば、データベースへのアクセスを許可される前に以前の会社で行ったトレーニングです。

これに対処しようとする方法がいくつかあります。 クエリログデータは、それに対処するために本当にユニークに価値があると思います。 クエリプランナーを使用してデータベースが内部的に実行することに対して、別の洞察が得られます。 そして、私たちがしていることは、それらの介入の1つです。私が示した手動の介入があり、それは有用ですよね。 たとえば、特定の結合では、「これを非推奨にしましょう」と言うことができます。 スマートサジェストに表示されるときに大きな赤い旗が表示されます。 それが人々に到達しようとする一つの方法です。

もう1つのことは、実行時の介入で自動化されることです。 クエリを実行する前に、実際にはクエリの解析ツリーを使用します。特定のフィルターやその他のいくつかの処理も含まれていますか。 しかし、最も価値のあるものの1つであり、最も簡単に説明できるのは、フィルターが含まれているということです。 先ほど示した例のように、このログテーブルは、クエリを実行する場合、日付範囲を持っている必要があります。その日付範囲フィルターを適用することをテーブルページで指定できます。 誰かがそのフィルターを含まないクエリを実行しようとすると、実際には大きな警告でそれらを停止し、「おそらくクエリにこのようなSQLを追加する必要があります。」と言います。彼らが欲しい。 実際にそれらの使用を完全に禁止するつもりはありません。これもクエリであり、結局はクエリを実行する必要があります。 しかし、私たちはそれらの前にかなり大きな障壁を置き、クエリを変更してパフォーマンスを改善するための具体的な適用可能な提案を提案します。

実際には、クエリログを監視することによって、場合によっては自動的にそれを行います。 このテーブルで実際に大きな割合のクエリが特定のフィルターまたは特定の結合句を利用していることがわかった場合、実際にそれをポップアップ表示します。 それを介入に促進します。 実際、内部データセットで私に起こりました。 顧客データはありますが、ユーザーIDがありますが、ユーザーIDが設定されています。これは、すべての顧客にユーザーIDがあるためです。 一意ではないため、一意の結合キーを取得するには、クライアントIDとペアにする必要があります。 そして、クエリを書いていて、何かを分析しようとすると、ポップアップが表示され、「みんな、これらのテーブルをクライアントIDとユーザーIDの両方で結合しているようです。 そして、それは実際にいくつかの誤った分析を行うことを私に妨げました。 そのため、分析の精度とパフォーマンスの両方で機能します。 だからそれは私たちがその問題をどのようにとるかのようなものです。

Rebecca Jozwiak:それは効果的だと思います 。 あなたは必ずしも人々がリソースを独占するのをブロックするとは限らないと言ったが、彼らがしていることは最高ではないかもしれないと彼らに教えるのではないか?

David Crawford:私たちは常に、ユーザーが悪意のあるものではないこと、つまりユーザーに最善の意図を持たせることを前提としています。

Rebecca Jozwiak:わかりました。 別の質問があります。「ソリューションのようなカタログマネージャーとMDMツールの違いは何ですか? または、クエリテーブルの選択肢を広げることにより、実際には別のプリンシパルに依存しますが、MDMはメタデータを収集する同じプリンシパルで自動的に行います。

David Crawford:ええ、伝統的なMDMソリューションを見ると、主な違いは哲学的なものだと思います。 ユーザーが誰であるかがすべてです。 プレゼンテーションの冒頭で述べたように、Alation、私たちが設立されたとき、私たちはアナリストがより多くの洞察を生み出し、より迅速に、より正確な洞察を生み出せるようにすることを目指して設立されたと思います作物。 これが従来のMDMソリューションの目標ではなかったと思います。 これらのソリューションは、SCCまたは内部的に他の種類の監査目的でキャプチャされたデータのレポートを作成する必要がある人々を対象とする傾向があります。 アナリストを有効にできることもありますが、実務家が仕事をできるようにすると、DBAなどのデータアーキテクトが有効になる可能性が高くなります。

アナリストの観点から物事を考えるとき、MDMツールでは決してできないクエリツールの構築を開始します。 それは、パフォーマンスだけでなく正確さについても考え始めるとき、そしてどのデータが私のビジネスニーズに関連するかを理解するときです。 これらはすべて、ツールを設計するときに思い浮かぶものです。 検索アルゴリズム、カタログページのレイアウト、および組織全体の知識を提供する機能に使用されます。 クエリツールを構築し、カタログを直接構築したという事実になりますので、それは本当にそこから来ていると思います。 最初に念頭に置いているユーザーは何ですか?

Rebecca Jozwiak:わかりました。 それは本当に説明に役立ちました。 彼は去らなければならなかったので、アーカイブを手に入れたくありませんでしたが、彼は本当に彼の質問に答えてほしかったです。 彼は最初に複数の言語があると述べたが、Composeコンポーネント内で利用されている言語はSQLだけかと言いました。

David Crawford:はい、そうです。 そして、さまざまな種類のデータベース、ドキュメントデータベース、グラフデータベース、キーバリューストアの爆発を目撃したときに気づいたことの1つは、それらがアプリケーション開発にとって本当に強力であることです。 リレーショナルデータベースよりも優れた方法で、特定のニーズに非常によく応えることができます。

しかし、それをデータ分析に持ち帰るとき、それを持ち帰るとき-アドホックなレポートやデータを掘り起こす人にその情報を提供したいとき、彼らは常にリレーショナルに戻ってくる、少なくとも、人間のためのインターフェース。 その理由の1つは、SQLがデータ分析の共通語であるという理由だけです。したがって、それは、人間にとっても、統合ツールにとっても意味します。 これが、Hadoop上のSQLが非常に人気があり、それを解決するための非常に多くの試みがある理由だと思います。結局のところ、それは人々が知っていることだからです。 SQLの書き方を知っている人はおそらく何百万人もいるでしょうし、Mongo集約パイプラインフレームワーククエリの書き方を知っている何百万人もいません。 そして、それは非常に多様なプラットフォームでの統合に使用される標準言語です。 つまり、これはほとんどのアナリストが使用するインターフェイスであり、特にComposeでSQLの作成に焦点を当てた場所であるため、私たちはそれの外に出るように要求されることはほとんどありません。

データサイエンスは、彼らが最も外部で冒険する場所だと思うので、PigまたはSASの使用について時折質問を受けます。 これらはComposeで絶対に処理しないものであり、カタログにキャプチャしたいものです。 そして、私はRとPythonも見ています。 RおよびPythonスクリプト内でAlationで記述されたクエリを使用できるインターフェイスを作成した方法がいくつかあります。そのため、多くの場合、データサイエンティストであり、スクリプト言語で作業している場合、ソースデータはリレーショナルデータベースにあります。 SQLクエリから始めて、それをさらに処理して、RとPythonの内部でグラフを作成します。 そして、Alationからクエリまたはクエリ結果を取得するスクリプトにインポートできるパッケージを作成したため、そこでブレンドワークフローを作成できます。

Rebecca Jozwiak:わかりました。 私たちは1時間を少し過ぎてしまったことを知っています。あと1つまたは2つの質問をします。 接続できるすべての異なるシステムについて話しましたが、外部でホストされたデータと内部でホストされたデータに関しては、それらを一緒に単一のビュー、単一のプラットフォームで検索できますか?

デビッド・クロフォード:もちろん。 それにはいくつかの方法があります。 つまり、外部でホストされていることを想像しますが、それが何を意味するのかを正確に考えようとしています。 誰かがあなたのためにAWSでホストしているデータベースを意味するかもしれません。 data.govからのパブリックデータソースを意味する場合があります。 データベースアカウントを使用して別のアプリケーションと同じようにログインすることにより、データベースに直接接続します。これがメタデータの抽出方法です。 したがって、アカウントがあり、ネットワークポートが開いている場合は、アクセスできます。 そして、これらのものがない場合は、仮想データソースと呼ばれるものがあります。これにより、自動的に、独自のコネクタを記述するか、CSVアップロードのように入力してドキュメントをプッシュすることができます。内部データとともにデータを文書化します。 すべてが検索エンジンに配置されます。 システム内の記事や他のドキュメントや会話の中で参照可能になります。 そのため、システムに直接接続できない場合の処理​​方法です。

Rebecca Jozwiak:わかりました。 もう1つ質問します。 一人の参加者は 「ソースデータの更新、ソースデータの変更など、データカタログのコンテンツをどのように検証、検証、または保守する必要があるか」

David Crawford:ええ、私たちは多くの質問をします。私たちが考えたことの1つは、私が言ったように、私たちの哲学の1つで、ユーザーが悪意があるとは信じていません。 彼らは最高の知識を提供しようとしていると思います。 彼らは入ってくるつもりはなく、意図的にデータについて人々を誤解させます。 それが組織の問題である場合、Alationは適切なツールではないかもしれません。 しかし、ユーザーが善意を持っている場合、更新が行われる場所と考えます。通常は、各データオブジェクトまたはデータの各セクションを担当します。 And we can notify those stewards when changes to the metadata are made and they can handle it in that way. They see updates come in, they validate them. If they're not right, they can go back and modify them and inform, and hopefully even reach out to the user who contributed the information and help them learn.

So that's the primary way we think about doing it. This sort of suggestion by the crowd and management by the stewards, so we have some capabilities around that.

Rebecca Jozwiak: Okay, good. And if you could just let the folks know how they can best get started with Alation, and where can they go specifically to get more info. I know you shared that one bit.ly. Is that the best place?

David Crawford: Alation.com/learnmore I think is a great way to go. To go sign up for a demo the Alation.com site has a lot of great resources, customer white papers, and news about our solution. So I think that's a great place to start. You can also email .

Rebecca Jozwiak: Okay, great. And I know, attendees, sorry if I didn't get to all of the questions today, but if not, they will be forwarded to David or his sales team or somebody at Alation, so they can definitely help answer your questions and help understand what Alation does or what they do best.

And with that, folks, I'll go ahead and sign us off. You can always find the archives at InsideAnalysis.com. You can also find it at Techopedia.com. They tend to update a little bit quicker, so definitely check that out. And thanks so much to David Crawford, Dez Blanchfield and Robin Boor today. It's been a great webcast. And with that, I'll bid you farewell. Thanks, folks. Bye bye.

David Crawford: Thank you.

提案の力:データカタログがアナリストを強化する方法