Warum Python für die Datenanalyse verwenden (wenn Sie Excel oder Google Sheets haben)

Mary-Kate Olsen
Freigeben: 2024-11-17 16:58:02
Original
662 Leute haben es durchsucht

TL;DR: Während sich Tabellenkalkulationen perfekt für viele Datenaufgaben eignen, wird Python unverzichtbar, wenn Sie große Datenmengen verarbeiten, erweiterte Visualisierungen erstellen, Arbeitsabläufe automatisieren oder Modelle für maschinelles Lernen verwenden müssen. Der Schlüssel liegt darin, zu wissen, wann Sie die Stärken der einzelnen Tools für Ihre spezifischen Datenanalyseanforderungen nutzen können.

Während Python oft als unverzichtbar für die Datenarbeit angesehen wird, bleiben Tabellenkalkulationen für viele Analysten das praktischste Werkzeug für den täglichen Bedarf – und das ist völlig in Ordnung. Für die Weiterentwicklung Ihrer Datenkompetenzen ist es jedoch von entscheidender Bedeutung, zu wissen, wann Sie über diese hinausgehen können.

Wenn Sie sich einen Lehrplan für Datenanalysten oder Datenwissenschaftler ansehen, finden Sie dieselben Kernwerkzeuge: Tabellenkalkulationen, SQL, Python und verschiedene Business Intelligence (BI)-Lösungen. Wenn ich jedoch mit Datenexperten und Führungskräften spreche, stellt sich häufig die Frage: „Warum auf Python umsteigen, wenn Tabellenkalkulationen die meisten meiner Anforderungen erfüllen?“

Als jemand, der ein Unternehmen mitgegründet hat, das auf SQL, Python und KI aufbaut, könnte Sie meine Haltung überraschen: Wenn eine Tabellenkalkulation den Job erledigen kann, verwenden Sie sie. Diese Tools gibt es aus gutem Grund seit den 1970er Jahren – sie sind intuitiv, flexibel und eignen sich hervorragend, um anderen Ihre Arbeit zu erklären.

Aber sie haben ihre Grenzen.

Wenn Sie beginnen, mehr Ad-hoc-Analysen oder explorative Datenanalysen durchzuführen oder mit mehr Daten im Unternehmen umzugehen, werden Sie schnell auf einige Probleme stoßen:

  • Sie haben Schwierigkeiten mit großen Datensätzen
  • Sie bieten begrenzte Visualisierungs- und Dashboard-Funktionen
  • Sie erschweren den Aufbau automatisierter Datenpipelines
  • Ihnen fehlen fortgeschrittene statistische und maschinelle Lernfähigkeiten
  • Sie unterstützen keine Versionskontrolle, was es schwierig macht, technische Best Practices einzuhalten Im Folgenden werde ich erläutern, warum Tabellenkalkulationen für viele Aufgaben von unschätzbarem Wert bleiben und wann Python zum notwendigen nächsten Schritt auf Ihrer Datenreise wird.

Warum Excel oder Google Sheets verwenden?

Im Kern sind Tabellenkalkulationen leistungsstark, weil sie Ihnen die vollständige Kontrolle über Ihren Datenarbeitsbereich geben. Als hätten Sie Ihr eigenes maßgeschneidertes Dashboard, mit dem Sie Daten sofort genau nach Ihren Wünschen bearbeiten, visualisieren und analysieren können.

Es gibt zwei Hauptgründe, warum Menschen sich zu Tabellenkalkulationen hingezogen fühlen:

1. Tabellenkalkulationen sind flexibel und personalisiert

Beginnen wir mit den offensichtlichsten Gründen, warum Datenexperten, unabhängig von ihrem Kenntnisstand, Tabellenkalkulationen lieben: Sie sind unglaublich flexibel und anpassbar.

In einer Tabellenkalkulation arbeiten Sie in Ihren eigenen Umgebungen und haben die volle Kontrolle darüber. Sie möchten bestimmte Zeilen hervorheben und schnell ein Diagramm erstellen? Einfach. Sie möchten eine bedingte Formatierung hinzufügen, um ein bestimmtes Muster hervorzuheben? Kein Problem. Möchten Sie sogar eine Zeile oder Spalte hinzufügen, um einige Eingaben hinzuzufügen? Machen Sie weiter.

Why use Python for data analysis (when you have Excel or Google Sheets)

Als Benutzer haben Sie die volle Kontrolle, auch in gemeinsam genutzten Arbeitsbereichsumgebungen wie Google Sheets. Dies ist wirklich leistungsstark, insbesondere im Gegensatz zu herkömmlichen BI-Lösungen, bei denen Sie die Daten nicht direkt in der gleichen Weise bearbeiten können und auch nicht auf bestimmte Datenteile zugreifen können, ohne die Daten in kleinere Teilmengen aufteilen zu müssen, was schnell passieren kann außer Kontrolle. Tatsächlich machen sich einige neue BI-Lösungen wie Sigma diese Idee zunutze, wobei eine tabellenkalkulationsähnliche Schnittstelle ihr Hauptanliegen ist.

Alles in allem hat die Benutzererfahrung einer Tabellenkalkulation etwas zutiefst Intuitives. Wir lernen Mathematik schon in jungen Jahren, und Tabellenkalkulationen bieten eine gut strukturierte Möglichkeit, Daten zu betrachten und zu verstehen, wie sich alle Zahlen summieren.

2. Tabellenkalkulationen sind reaktiv und erklärbar

Reaktivität in Tabellenkalkulationen bedeutet, dass, wenn Sie eine Zahl ändern, alles, was damit zusammenhängt, automatisch aktualisiert wird. Durch dieses sofortige Feedback eignen sie sich perfekt, um zu verstehen, wie sich verschiedene Daten gegenseitig beeinflussen.

Nehmen wir zum Beispiel an, Sie haben Zellen, die wie folgt verbunden sind:

C1 = A1 B2

Reaktivität bedeutet, dass C1 automatisch aktualisiert wird, wenn Sie A1 oder B2 aktualisieren. Es gibt praktisch eine DAG, die die Abhängigkeiten oder Abstammungslinien zwischen allen Zellen verfolgt. Dies ist ein unglaublich leistungsstarkes Konzept, da Sie die Tabellenkalkulation im Gegensatz zu Code nicht „ausführen“ müssen. Sie können einfach ein Modell der Welt erstellen, die Eingaben anpassen und sehen, wie die Ergebnisse auf diese Änderung reagieren.

Diese Reaktivität trägt auch zu einem großen Teil zum leichteren Verständnis einer Tabellenkalkulation bei. Ich kann eine leicht verständliche Formel anzeigen, darauf klicken, um die abhängigen Zellen hervorzuheben, und ich kann die abhängigen Zellen anpassen, um zu verstehen, wie die Zahl, die ich betrachte, darauf reagiert und sich darauf bezieht.

Why use Python for data analysis (when you have Excel or Google Sheets)

Wie Sie im Bild oben sehen können, können Sie, wenn Sie wissen möchten, welche Zahlen am meisten zum Nettoeinkommen vor Steuern beitragen, einfach auf die Zelle klicken, die abhängigen Zellen anzeigen und sofort verstehen, welche Variablen das Nettoeinkommen vor Steuern sind.

Aus diesen Gründen ist es wahrscheinlich eine gute Idee, wenn Sie Ihre Arbeit in einer Tabellenkalkulation erledigen können.

Warum Python verwenden?

Während sich Tabellenkalkulationen bei vielen Aufgaben auszeichnen, eröffnet Python völlig neue Möglichkeiten für die Datenarbeit. Von der Verarbeitung riesiger Datensätze bis hin zur Erstellung komplexer Visualisierungen und der Automatisierung wiederkehrender Aufgaben gibt es fünf Gründe, warum Python ein leistungsstarkes Tool für Ihre Daten-Workflows ist.

1. Python bewältigt problemlos große Datenmengen

Der erste und offensichtlichste Grund für die Verwendung von Python zeigt sich beim Umgang mit großen Datenmengen. Excel kann etwa 1 Million Zeilen mal 17.000 Spalten unterstützen und Google Sheets kann etwa 10 Millionen Zellen unterstützen. Das hört sich vielleicht nach viel an und ist in vielen Fällen auch ausreichend, aber die Chancen stehen gut, dass Sie schnell an diese Grenze stoßen. Im Gegensatz dazu kann Python auf einer leistungsstarken Maschine um viele Größenordnungen mehr Daten unterstützen. Dies gilt insbesondere dann, wenn Sie neue Technologien wie Polars und DuckDB nutzen.

Im Laufe der Zeit werden wir möglicherweise einen Anstieg der Grenzen bei Tabellenkalkulationen feststellen, aber Python (insbesondere in Verbindung mit SQL) wird immer in der Lage sein, mehr zu bewältigen.

2. Python unterstützt erweiterte und benutzerdefinierte Visualisierungen

Tabellenkalkulationen können einige ziemlich leistungsstarke Grafiken bieten, aber das ist nur ein kleiner Bruchteil dessen, was Sie mit Python machen können. Ich bin fest davon überzeugt, dass Balkendiagramme, Liniendiagramme und Karten die überwiegende Mehrheit der Fälle abdecken, aber um eine Geschichte mit Daten zu erzählen, muss man oft mit dem Alltäglichen brechen und eine ansprechende Leinwand schaffen.

Ich liebe zum Beispiel ein gutes Sankey-Diagramm, um zu erzählen, wie Daten von Punkt A nach Punkt B fließen. Oder vielleicht möchten Sie ein Radardiagramm erstellen, um Attribute aus verschiedenen Kategorien zu vergleichen.

Diese können in Python mit Bibliotheken wie Plotly, Seaborn oder Bokeh unglaublich einfach zu erstellen sein.

Um Ihnen ein Beispiel zu geben, kehren wir zu unserem Superdope-Beispiel aus früheren Beiträgen zurück und sagen, Sie möchten die Produktleistung in einem Sunburst-Diagramm wie dem folgenden vergleichen:

Why use Python for data analysis (when you have Excel or Google Sheets)

Das Generieren dieses Diagramms mit Code mithilfe einer Bibliothek wie plotly ist ziemlich einfach:

import plotly.express as px

# Create the sunburst plot
fig = px.sunburst(
    df_sunburst,
    path=['Region', 'Category', 'Product'],
    values='Sales',
    color='Region',
    title='Sales Distribution by Region, Category, and Product',
    width=800,
    height=450
)

# Update layout
fig.update_layout(
    margin=dict(t=50, l=0, r=0, b=0)
)

# Show the plot
fig.show()
And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.
Nach dem Login kopieren

3. Python hilft Ihnen, Datenpipelines und -bereinigung zu automatisieren

Wenn Sie mit Daten arbeiten, müssen Sie häufig sich wiederholende Datentransformationsaufgaben ausführen. Angenommen, Sie arbeiten in einer Branche, in der Ihre Kunden Ihnen regelmäßig CSV- oder Excel-Dateien senden und Sie die Daten bereinigen und formatieren und sie in einen Bericht umwandeln oder für einen weiteren Schritt vorbereiten müssen. Dies ist eine perfekte Aufgabe für Python. Wenn Sie Ihren eigenen Server verwalten und einfallsreich sind, können Sie ein Skript schreiben und die Ausführung mithilfe eines Cron-Jobs planen. Alternativ können Sie sich für verwaltete Lösungen entscheiden, die sofort einsatzbereit sind und Orchestrierung und komplexere Aufgaben übernehmen , können Sie eine Lösung wie Dagster oder Airflow verwenden.

Im Allgemeinen ist es heutzutage am besten, selbst erstellte Cron-Jobs zu vermeiden, es sei denn, Sie wissen genau, was Sie tun. Sicherzustellen, dass diese betriebsbereit bleiben, ordnungsgemäß protokolliert und überwacht werden und ordnungsgemäß orchestriert werden, kann schnell zu einer Menge Arbeit werden.

Hinweis: Wenn Sie einfach nach einer einfachen und schnellen Möglichkeit zum Aufbau von Datenpipelines suchen, ist Fabi.ai möglicherweise eine gute Option für Sie. Wir können Ihnen dabei helfen, in wenigen Minuten ganz einfach eine Datenverarbeitungs- und -bereinigungspipeline von und zu jeder Quelle, einschließlich CSV-Dateien und Excel-Dateien, einzurichten.

4. Python unterstützt komplexe Datenanalyse und maschinelles Lernen

Mit einer Tabellenkalkulation kann man viel machen, aber die Erstellung und Verwendung fortgeschrittenerer statistischer und maschineller Lernmodelle gehört im Allgemeinen nicht dazu. Wenn Sie lediglich eine univariate Datenanalyse und einige einfache Berechnungen wie Verteilungen, Durchschnittswerte usw. durchführen, sollte eine Tabellenkalkulation in der Lage sein, die Aufgabe zu erledigen. Wenn Sie sich jedoch in eine fortgeschrittenere multivariate Analyse oder vielleicht sogar in Clustering, Prognosen und Abwanderungsvorhersagen wagen möchten, ist Python mit einer umfangreichen Suite von Tools ausgestattet, die sofort einsatzbereit sind.

Hier sind einige Beispiele für die Analysetypen, die Sie möglicherweise zusammen mit dem entsprechenden Python-Paket durchführen möchten:

  • Käufer- oder Kundengruppierung mithilfe von Clustering: sklean.cluster (z. B. Kmeans)
  • Zeitreihenprognose für die Vertriebs- oder Marketingpipeline: Prophet oder Statistikmodelle (z. B. ARIMA)
  • Prognose zur Kundenabwanderung: scikit-survival Hierbei handelt es sich allesamt um fortschrittliche maschinelle Lern- und Statistikmodelle, die von einigen der besten Ingenieure und Forscher der Welt implementiert wurden, kostenlos verfügbar und sofort in Python einsatzbereit sind.

5. Python hilft Ihnen, Best Practices für Codeversionierung und Engineering zu befolgen

Schließlich ist es in vielen Fällen eine gute Praxis, sicherzustellen, dass Ihre Arbeit nachvollziehbar und reproduzierbar ist.

In der Praxis bedeutet dies, dass, wenn jemand anderes (oder vielleicht Sie selbst zu einem späteren Zeitpunkt) Ihre Analyse betrachtet, diese Person in der Lage sein sollte, Folgendes zu verstehen:

  • Woher die Daten kamen
  • Wie die Daten manipuliert wurden und wie Sie zu Ihren Ergebnissen kamen
  • Seien Sie in der Lage, die gleichen Ergebnisse unabhängig zu reproduzieren Wenn die Arbeit in einer Tabellenkalkulation bedeutet, dass Daten exportiert und an einem Ort bearbeitet werden müssen, der nicht mit der Originalquelle verbunden ist, kann dies dazu führen, dass die Ergebnisse sehr schwer zu reproduzieren sind. Dies bedeutet auch, dass die Schritte, die Sie während Ihrer Analyse ausführen, nicht versioniert sind. Während Sie Ihre Analyse durchführen und Anpassungen vornehmen, werden die genauen Schritte möglicherweise nicht aufgezeichnet. Dies kann Sie in eine schwierige Situation bringen, in der wir alle mindestens einmal waren: Sie haben eine schöne Analyse in einer Tabelle erstellt, sie mit einigen Kollegen geteilt, sind zu einem späteren Zeitpunkt zurückgegangen und haben festgestellt, dass die Daten war anders. Sie können den Änderungsverlauf durchgehen, um zu verstehen, was passiert ist, aber ohne Erfolg.

Die Verwendung eines Versionskontrollsystems wie Github oder Gitlab und das Festschreiben von Änderungen am zugrunde liegenden Code während der Analyse können Ihnen helfen, solche Situationen zu vermeiden.

Urteil: Für große Datenmengen; erweiterte Analyse und Visualisierung; und Automatisierung gewinnt Python?

Wenn Sie komplexe Ad-hoc- oder explorative Datenanalysen durchführen, fortschrittliche Techniken des maschinellen Lernens verwenden oder komplexe Visualisierungen erstellen möchten, ist Python eines der besten und leistungsstärksten Tools für diese Aufgabe.

Ja, Tabellenkalkulationen sind aus gutem Grund unglaublich beliebt. Wenn Sie es mit relativ kleinen Datensätzen zu tun haben, sind Excel oder Google Sheets für eine einmalige Analyse, die nicht automatisiert werden muss, hervorragende Tools.

Python schneidet jedoch außergewöhnlich gut ab, wenn es mit großen Datensätzen umgeht, was für Excel oder Google Sheets ein Problem darstellen würde. Python wird auch häufig zur Automatisierung von Datenpipelines verwendet, insbesondere wenn eine Form der Datentransformation und -bereinigung erforderlich ist.

Wie bei den meisten Dingen gibt es eine Zeit und einen Ort, an dem man bestimmte Werkzeuge nutzen kann, um das Beste aus seinen Stärken herauszuholen. Wir haben Fabi.ai als Brücke zwischen allen Tools entwickelt, damit Sie das Beste aus beiden Welten nutzen können.

Wir machen es unglaublich einfach, eine Verbindung zu jeder Datenquelle, einschließlich Tabellenkalkulationen und Dateien, herzustellen und schlanke Datenpipelines aufzubauen. Unsere integrierte SQL- und Python-Schnittstelle, ergänzt durch KI, macht es unglaublich einfach, fortschrittliche maschinelle Lern- und Statistikmodelle zu nutzen, unabhängig von Vorkenntnissen. Wenn Sie daran interessiert sind, uns kennenzulernen, können Sie noch heute in weniger als 2 Minuten kostenlos loslegen.

Das obige ist der detaillierte Inhalt vonWarum Python für die Datenanalyse verwenden (wenn Sie Excel oder Google Sheets haben). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:dev.to
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage