Was Sie über diese Rollen in einem Data-Science-Team wissen müssen-KI-php.cn

Übersetzer|Li Rui

Rezensent|Sun Shujuan

Der weltbekannte Streaming-Dienstleister Netflix hat 2017 sein Fünf-Sterne-Bewertungssystem geändert. Einfaches Bewertungssystem für „ „Daumen hoch“ (Gefällt mir) und „Daumen runter“ (Gefällt mir nicht). Das System kann Filme auf der Grundlage prozentualer Übereinstimmungen empfehlen, einige Leute finden dies jedoch anstößig. Wie kann man also alle Nuancen der Kinokunst auf eine primitive binäre Reaktion reduzieren? Tatsächlich hat Netflix herausgefunden, dass die Leute auf die Filme reagierten, die sie für gut hielten, aber nicht unbedingt Filme waren, die sie tatsächlich gerne sahen. Das sagen zumindest die Daten. Wie funktioniert Datenanalyse bei einem Unternehmen wie Netflix? Welche Rolle spielt das Data-Science-Team?

NETFLIX-FEEDBACK-SYSTEM Was Sie über diese Rollen in einem Data-Science-Team wissen müssen

Gibson Biddle ist der ehemalige Vizepräsident und Chief Product Officer von Netflix. In Bezug auf Consumer Insights erläuterte er das unerwartete Kundenverhalten, das zu Änderungen im gesamten Bewertungssystem führte. Bei der Umrechnung in eine prozentuale Übereinstimmung gab Netflix an, dass die Zuschauer die Adam-Sandler-Komödie zwar gerne sehen würden, die Bewertung aber bei nur drei Sternen liegen könnte, während die Zuschauer beim Ansehen von „Schindlers Liste“ möglicherweise ein besseres Gefühl hätten, und gibt ihr eine Fünf-Sterne-Bewertung , aber das trägt nicht zum Gesamtvergnügen bei, und die Zufriedenheit der Abonnenten ist für Netflix von entscheidender Bedeutung. Daher vereinfachten sie das Feedbacksystem, um Verzerrungen zu vermeiden. Aber diese Kundeneinblicke sind an sich schon beeindruckend und wären ohne eine Kultur, die die Datennutzung fördert, und eine starke Dateninfrastruktur nicht möglich. In der Fachsprache spricht man von einer datengesteuerten Organisation. Den populären Begriff „datengesteuert“ haben die Leute vielleicht schon oft gehört, aber was bedeutet er wirklich? Allein Netflix zeichnet jeden Tag mehr als 700 Milliarden Ereignisse auf, von der Anmeldung und dem Klicken auf Miniaturansichten von Filmen bis hin zum Anhalten von Videos und dem Einschalten von Untertiteln. Alle diese Daten stehen den Benutzern zur Verfügung. Jeder kann mit Visualisierungstools wie Tableau oder Jupiter darauf zugreifen, oder er kann über das Big Data Portal darauf zugreifen – eine Umgebung, die es Benutzern ermöglicht, Berichte zu prüfen, Berichte zu erstellen oder alle benötigten Informationen abzufragen. Diese Daten werden dann verwendet, um Geschäftsentscheidungen zu treffen, von kleineren Miniaturansichten, beispielsweise welche Miniaturansichten angezeigt werden sollen, bis hin zu Unternehmensentscheidungen, beispielsweise darüber, in welche Shows Netflix investieren und diese als nächstes starten sollte.

Netflix ist nicht das einzige Unternehmen, das eine datengesteuerte Organisation ist. Schätzungen zufolge investieren etwa 97 % der Fortune-1000-Unternehmen in Projekte wie künstliche Intelligenz und Big Data. Hier ist ein Blick auf echte Dateninfrastrukturtechnologie und die Dateningenieure, die dafür sorgen, dass sie funktioniert.

Dateninfrastrukturtechnologie

Um zu beschreiben, wie Dateninfrastruktur funktioniert, verwenden Technologen den Begriff „Pipelines“, die typischerweise Flüssigkeiten oder Gase transportieren. Eine Datenpipeline verfügt über einen eigenen Startpunkt, Endpunkt und Zwischenstationen. Das ist also eine sehr treffende Metapher. Die Quelle der Daten kann alles sein, vom Klicken auf eine Haltetaste und dem Aktualisieren einer Seite bis hin zu einem aufgezeichneten Gespräch mit dem Kundensupport, von einem Fahrzeugortungsgerät bis zu einem Turbinenvibrationssensor in einem Kraftwerk. In der heutigen Welt ist es eigentlich schwer zu sagen, was nicht generiert werden kann, was den Menschen auch ohne Daten etwas sagen kann.

Sobald ein Datenelement generiert wurde, wandert es entlang der Pipeline zum Bereitstellungsbereich. Hier werden alle Rohdaten gespeichert. Die Rohdaten sind noch nicht gebrauchsfertig. Sie müssen vorbereitet sein. Andernfalls müssen Lücken geschlossen, das Format geändert oder Daten aus verschiedenen Quellen kombiniert werden, um eine differenziertere Sicht zu erhalten. Sobald diese Vorgänge abgeschlossen sind, verfügen Sie über strukturierte und saubere Daten. Alle diese Vorgänge werden automatisch ausgeführt. Sie werden in zwei Worten beschrieben.

Extraktion: Extrahieren Sie Daten aus der Datenquelle und senden Sie sie an den Staging-Bereich.

Transformation: Daten für den Verbrauch vorbereiten und laden. Schieben Sie die vorbereiteten Daten weiter in ETL.

Alle aufbereiteten Daten landen in einem anderen Speicher, dem Data Warehouse.

Data Warehouse

Im Gegensatz zum Staging-Bereich sind im Data Warehouse alle gespeicherten Datensätze strukturiert und einsatzbereit. Genau wie das Klassifizierungssystem einer Bibliothek können die Informationen des Lagers abgefragt, visualisiert und heruntergeladen werden. Dafür ist der Einsatz von Business-Intelligence-Software (BI) ein Muss. Es stellt dem Endbenutzer Daten zur Verfügung.
Data List und Business Analyst

Data List und Business Analyst sind Personen, die grundlegende Aufgaben ausführen. Sie greifen auf Daten zu, untersuchen sie, visualisieren sie und versuchen, einen geschäftlichen Sinn daraus zu ziehen. Sind beispielsweise die Marketingkampagnen des Unternehmens erfolgreich? Was sind die Kanäle mit der schlechtesten Leistung? Sie wirken wie ein sensorisches System, das Unternehmen mit historischen Daten unterstützt und Erkenntnisse für das Management und letztendlich Entscheidungsträger liefert.

Data Engineer

Der Data Engineer ist für den Aufbau der gesamten Pipeline verantwortlich. Die meisten Techniker sind mit dem, was man „Rohrleitungen“ nennt, bestens vertraut. Verschieben Sie Daten über Pipelines von der Quelle zum Ziel und transformieren Sie sie dabei. Sie entwerfen die Pipeline-Architektur, richten den ETL-Prozess ein, konfigurieren das Warehouse und verbinden es mit Reporting-Tools. Airbnb hat beispielsweise etwa 50 Dateningenieure. Das Unternehmen kann manchmal auf einen ausgefeilteren Ansatz stoßen, der einige zusätzliche Regeln beinhaltet. Beispielsweise stellen Datenqualitätsingenieure sicher, dass Daten korrekt erfasst und transformiert werden. Verzerrte oder falsche Daten sind zu kostspielig, wenn man versucht, daraus Entscheidungen zu treffen. Möglicherweise gibt es einen separaten Ingenieur, der nur für ETL verantwortlich ist. Darüber hinaus konzentrieren sich Business-Intelligence-Entwickler nur auf die Integration von Berichts- und Visualisierungstools. Berichterstellungstools sorgen jedoch nicht für Schlagzeilen, und Dateningenieur ist nicht der beste Job des 21. Jahrhunderts, maschinelles Lernen und Datenwissenschaftler jedoch wahrscheinlich schon.

Machine Learning und Data Scientist

Es ist bekannt, dass Data Scientists besonders gut darin sind, Daten zu sammeln und komplexe Fragen zu den Daten zu beantworten, beispielsweise wie viel Umsatz das Unternehmen erzielen wird nächstes Quartal verdienen? Wann kommt das mit Uber geplante Auto an? Wie hoch sind die Chancen, Schindlers Liste und Uncut Gems zu mögen?

Es gibt eigentlich zwei Möglichkeiten, diese Fragen zu beantworten. Datenwissenschaftler arbeiten mit Business-Intelligence-Tools und Lagerdaten, genau wie Geschäftsanalysten und Datenanalysten. Sie erhalten also die Daten aus dem Lager. Manchmal nutzen Datenwissenschaftler einen Data Lake: eine andere Art der Speicherung unstrukturierter Betrugsdaten. Sie erstellen ein Prognosemodell und erstellen Prognosen, die vom Management verwendet werden können. Es eignet sich gut für einmalige Berichte über Umsatzschätzungen, ist jedoch nicht hilfreich für die Vorhersage der Ankunftszeiten von Autos für Uber-Termine.

Der wahre Wert des maschinellen Lernens besteht darin, dass Produktionsmodelle automatisch arbeiten und regelmäßig Antworten auf komplexe Fragen generieren können, manchmal tausende Male pro Sekunde, und dass die Dinge, mit denen sie umgehen können, viel komplexer sind.

Modelle für maschinelles Lernen erstellen

Damit das Modell funktioniert, ist auch Infrastruktur erforderlich. Manchmal ist das ein großes Problem. Datenwissenschaftler untersuchen Daten in Data Warehouses und Data Lakes, führen Experimente damit durch, wählen Algorithmen aus und trainieren Modelle, um endgültigen Code für maschinelles Lernen zu erstellen. Dies erfordert ein tiefes Verständnis statistischer Datenbanken, maschineller Lernalgorithmen und Fachgebiete.

Josh Wills, ehemaliger Leiter der Datentechnik bei SLAC, sagte auf Twitter: „Ein Datenwissenschaftler ist eine Person, die sich besser mit Statistik auskennt als jedes Software-Engineering.“ Beispiel: Essen bestellen Benutzer nutzen die Ubereats-Software, um Essen zu bestellen. Sobald der Benutzer die Bestellung bestätigt, muss die Anwendung die Lieferzeit, den Standort des Bestellers, das Restaurant und die Bestelldaten schätzen, die an einen Server gesendet werden sollen, auf dem ein maschinelles Lernmodell zur Liefervorhersage eingesetzt wird. Doch diese Daten reichen nicht aus. Das Modell ruft außerdem zusätzliche Daten aus einer separaten Datenbank ab, die durchschnittliche Zubereitungszeiten im Restaurant und andere Details enthält. Sobald alle Daten verfügbar sind, gibt das Modell Vorhersagen an den Besteller zurück. Damit ist der Prozess jedoch noch nicht beendet. Die Vorhersagen selbst werden in einer separaten Datenbank gespeichert. Ziel ist die Überwachung der Modellleistung und die Untersuchung des Modells mithilfe von Analysetools, damit es später aktualisiert werden kann. All diese Daten landen in Data Lakes und Data Warehouses.

Tatsächlich nutzt allein der Essensbestellservice UberEats Hunderte verschiedener Modelle, die gleichzeitig arbeiten, um Empfehlungen zu bewerten, Restaurants in der Suche einzustufen und Lieferzeiten zu schätzen.

Fazit

Adam Waxman, Kerntechnologieleiter von Foursquare, glaubt, dass es in Zukunft keine Datenwissenschaftler oder Ingenieure für maschinelles Lernen mehr geben wird, da das Modelltraining automatisiert wird und Der kontinuierliche Aufbau von Produktionsumgebungen, die Aufgabe vieler Datenwissenschaftler, wird zu einem alltäglichen Merkmal in der Softwareentwicklung werden. Autor:Anomi Ragendran

Das obige ist der detaillierte Inhalt vonWas Sie über diese Rollen in einem Data-Science-Team wissen müssen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!