データサイエンスチームにおけるこれらの役割について知っておくべきこと-AI-php.cn

データサイエンスチームにおけるこれらの役割について知っておくべきこと

王林

リリース： 2023-04-11 21:55:11

転載

1511 人が閲覧しました

翻訳者|李瑞

レビュアー|孫樹娟

世界的に有名なストリーミングサービスNetflixは、2017年に5つ星の評価システムを「親指」に変更しましたシンプルな「親指」の評価システム「ダウン」（好き）と「サムズダウン」（嫌い）。このシステムは一致率に基づいて映画を推奨できますが、これを不快に思う人もいます。では、映画芸術におけるすべての微妙なニュアンスを原始的な二項反応に還元するにはどうすればよいでしょうか? 高い評価を与えても、必ずしも彼らが実際に楽しんで観て楽しめる映画であるとは限りません。少なくともデータはそう言っています。では、Netflix のような企業ではデータ分析はどのように機能するのでしょうか?データサイエンスチームの役割は何ですか?

NETFLIX フィードバックシステムデータサイエンスチームにおけるこれらの役割について知っておくべきこと

ギブソンビドルは、Netflix の元副社長兼最高製品責任者です。消費者インサイトについて彼は、評価システム全体の変化につながった予期せぬ顧客の行動について説明しました。割合一致に換算すると、視聴者はアダム・サンドラーのコメディを楽しんでいるかもしれないが、その評価は星 3 つほど低いかもしれないが、視聴者はシンドラーのリストを見て気分が良くなるかもしれない、と Netflix は述べた。 , しかし、それは全体的な楽しみを増やすものではなく、加入者を満足させることがNetflixにとって非常に重要です。したがって、バイアスを避けるためにフィードバックシステムを簡素化しました。しかし、こうした顧客の洞察はそれ自体が素晴らしいものであり、データの使用を促進する文化と強力なデータインフラストラクチャがなければ不可能です。専門用語では、これをデータドリブン組織と呼びます。

データドリブン組織

「データドリブン」という人気の言葉を何度も聞いたことがあるかもしれませんが、実際には何を意味するのでしょうか? Netflix だけでも、ログインして映画のサムネイルをクリックすることから、ビデオを一時停止して字幕をオンにするまで、毎日 7,000 億件以上のイベントを記録しています。ユーザーはこれらすべてのデータを利用できます。 Tableau や Jupiter などの視覚化ツールを使用して誰でもアクセスできます。また、ユーザーがレポートの検査、レポートの生成、必要な情報のクエリを実行できる環境であるビッグデータポータルを通じてアクセスすることもできます。このデータは、小さなサムネイル (どのサムネイルを表示するかなど) から企業の意思決定 (Netflix がどの番組に投資して次に開始するかなど) に至るまで、ビジネス上の意思決定を行うために使用されます。

データドリブンな組織である企業は Netflix だけではありません。 Fortune 1000 企業の約 97% が人工知能やビッグデータなどのプロジェクトに投資していると推定されています。ここでは、実際のデータインフラストラクチャテクノロジーとそれを機能させるデータエンジニアについて見ていきます。

データインフラストラクチャテクノロジ

データインフラストラクチャがどのように機能するかを説明するために、技術者は、通常は液体または気体を輸送する「パイプライン」という用語を借用します。データパイプラインには、独自の開始点、終了点、および中間ステーションがあります。したがって、これは非常に適切な比喩です。データのソースは、保留ボタンをクリックしてページを更新することから、顧客サポートとの録音された会話、車両追跡装置から発電所のタービン振動センサーに至るまで、あらゆるものになる可能性があります。今日の世界では、データがなくても人々に何かを伝えることができる、生成できないものを言うのは実際には困難です。

データ項目が生成されると、データ項目はパイプラインに沿ってステージング領域に移動します。ここにすべての生データが保存されます。生データはまだ使用する準備ができていません。準備をしなければなりません。それが行われていない場合は、より微妙なビューを得るために、ギャップを埋めるか、形式を変更するか、さまざまなソースからのデータを組み合わせる必要があります。これらの操作が完了すると、構造化されたクリーンなデータが得られます。これらの操作はすべて自動的に実行されます。それらは 2 つの単語で説明されます。

抽出: データソースからデータを抽出し、ステージング領域に送信します。

変換: 使用するデータを準備してロードし、準備されたデータをさらに ETL にプッシュします。

準備されたすべてのデータは、別のストレージであるデータウェアハウスに保存されます。
データウェアハウス

ステージング領域とは異なり、データウェアハウスは、保存されているすべてのレコードが構造化され、すぐに使用できる場所です。図書館の分類システムと同じように、倉庫の情報を照会、視覚化、ダウンロードできます。このためには、ビジネスインテリジェンス (BI) ソフトウェアが必須です。エンドユーザーにデータを提示します。

データリストおよびビジネスアナリスト

データリストおよびビジネスアナリストは、基本的なタスクを実行する人々です。彼らはデータにアクセスし、調査し、視覚化し、ビジネスに意味を持たせようとします。たとえば、会社のマーケティングキャンペーンは成功していますか?パフォーマンスが最も悪いチャネルは何ですか?これらは感覚システムのように機能し、履歴データでビジネスをサポートし、経営陣と最終的には意思決定者に洞察を提供します。

データエンジニア

データエンジニアは、パイプライン全体の構築を担当します。ほとんどの技術者は、いわゆる「配管」に精通しています。パイプラインを介してソースから宛先にデータを移動し、途中でデータを変換します。彼らは、パイプラインアーキテクチャを設計し、ETL プロセスをセットアップし、ウェアハウスを構成し、レポートツールと接続します。たとえば、Airbnb には約 50 人のデータエンジニアがいます。企業は、いくつかの追加ルールを伴う、より複雑なアプローチに遭遇する場合があります。たとえば、データ品質エンジニアは、データが正しく取得され、変換されていることを確認します。偏ったデータや不正確なデータがあると、そこから意思決定を導き出す際にコストがかかりすぎます。 ETL のみを担当する別のエンジニアが存在する場合もあります。さらに、ビジネスインテリジェンス開発者は、レポート作成ツールと視覚化ツールの統合のみに重点を置いています。しかし、レポートツールは見出しを飾りません。データエンジニアは 21 世紀で最高の仕事ではありませんが、機械学習とデータサイエンティストはおそらく最高の仕事です。

機械学習とデータサイエンティスト

データサイエンティストは、データを収集し、次の四半期の会社の収益はいくらになるかなど、データに関する複雑な質問に答えるのが特に得意であることはよく知られています。 Uber で予約した車はいつ到着しますか? 「シンドラーのリスト」と「原石」が好きになる可能性はどのくらいですか?

これらの質問に答えるには、実際には 2 つの方法があります。データサイエンティストは、ビジネスアナリストやデータアナリストと同じように、ビジネスインテリジェンスツールとウェアハウスデータを扱います。したがって、倉庫からデータを取得します。データサイエンティストは、データレイクを使用することがあります。これは、非構造化不正データ用の別のタイプのストレージです。彼らは予測モデルを作成し、経営陣が使用できる予測を考え出します。収益見積もりを 1 回限りレポートするのには適していますが、Uber の予約のための車の到着時間を予測するのには役に立ちません。

機械学習の真の価値は、実稼働モデルが自動的に動作し、複雑な質問に対する答えを定期的に (場合によっては 1 秒あたり数千回) 生成できることであり、処理できる内容ははるかに複雑です。

機械学習モデルの作成

モデルが機能するためには、インフラストラクチャも必要です。場合によってはこれが大きな問題となることもあります。データサイエンティストは、データウェアハウスとデータレイク内のデータを探索し、実験を実施し、アルゴリズムを選択し、モデルをトレーニングして最終的な機械学習コードを生成します。これには、統計データベース、機械学習アルゴリズム、および主題分野についての深い理解が必要です。

SLAC の元データエンジニアリング責任者、ジョシュウィルズ氏は Twitter で、「データサイエンティストは、どのソフトウェアエンジニアリングよりも統計に優れた人々です。」

たとえば、発注者は ubereats を使用します。ソフトウェアの注文。ユーザーが注文を確認したら、アプリケーションは配達時間、注文者の場所、レストラン、配達予測機械学習モデルが展開されているサーバーに送信する注文データを推定する必要があります。しかし、これらのデータだけでは十分ではありません。このモデルは、レストランの平均準備時間やその他の詳細を含む追加データを別のデータベースから取得します。すべてのデータが利用可能になると、モデルは予測を注文者に返します。ただし、プロセスはこれで終わりではありません。予測自体は別のデータベースに保存されます。モデルのパフォーマンスを監視し、後で更新できるように分析ツールを通じてモデルを調査することを目的としています。このすべてのデータは、最終的にデータレイクとデータウェアハウスに保存されます。

実際、UberEats の食品注文サービスだけでも、同時に動作する数百の異なるモデルを使用して、推奨事項をスコアリングし、検索でレストランをランク付けし、配達時間を推定します。

結論

Foursquare の中核テクノロジーリーダーであるアダムワックスマン氏は、モデルトレーニングの自動化と継続的なトレーニングにより、将来的にはデータサイエンティストや機械学習エンジニアがいなくなると考えています。実稼働環境の構築、多くのデータサイエンティストの仕事がソフトウェア開発における一般的な職務になるでしょう。

元のタイトル: データサイエンスチームの役割 、著者: Anomi Ragendran

以上がデータサイエンスチームにおけるこれらの役割について知っておくべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。