Wie benutze ich die Pandas -Bibliothek für die Datenmanipulation in Python?-Python-Tutorial-php.cn

Inhaltsverzeichnis

2. Erforschen der Daten

3. Auswahl und Filterung von Daten

4. Handhabung fehlender Daten

5. Hinzufügen und Entfernen von Spalten

6. Datenumwandlung

7. Sortieren und Gruppieren

8. Zusammenführen und Verkettung von Daten

9. Daten speichern

Heim

Backend-Entwicklung

Python-Tutorial

Wie benutze ich die Pandas -Bibliothek für die Datenmanipulation in Python?

Charles William Harris

Aug 18, 2025 am 03:12 AM

Datenverarbeitung pandas

Pandas ist eine leistungsstarke Python -Bibliothek für die Datenmanipulation und -analyse unter Verwendung von Serien- und Datenframestrukturen. 1. Importieren und laden Sie Daten von CSV, Excel, JSON, oder erstellen Sie manuell mit pd.dataframe (). 2. Erforschen Sie Daten mit Head (), Tail (), info (), beschreiben (), Form und Spalten. 3. auswählen und filtern Sie Daten nach Spalte, Zeilenindex (LOC/ILOC) oder Bedingungen mit einer Booleschen Indexierung. 4. Fehlende Werte mit isnull (), Dropna () oder fillna () mit mittleren oder benutzerdefinierten Werten behandeln. 5. Spalten mit bedingter Logik hinzufügen oder mit Drop () und umbenennen () umbenennen/umbenennen. 6. Daten mithilfe von Apply (), MAP (), Ersatz () und Astype () zur Reinigung und Typumwandlung transformieren. 7. Sortieren Sie Daten mit sort_values () und gruppen nach kategorien unter Verwendung von GroupBy () mit Aggregationsfunktionen wie Mean () oder count (). 8. Zusammenführen von Datenrahmen mit merge () oder verkettet mit concat () entlang von Zeilen oder Spalten. 9. Speichern Sie verarbeitete Daten in CSV, Excel oder JSON mit to_csv (), to_excel () oder to_json () mit index = false bei Bedarf. Mastering loc, GroupBy und Apply ermöglicht eine effiziente Behandlung der meisten Datenaufgaben in der realen Welt, wodurch Pandas für Datenworkflows wesentlich gemacht werden.

Wie benutze ich die Pandas -Bibliothek für die Datenmanipulation in Python?

Pandas ist eine der leistungsstärksten und am häufigsten verwendeten Bibliotheken in Python für die Datenmanipulation und -analyse. Es bietet benutzerfreundliche Datenstrukturen wie Serien (1D) und DataFrame (2D) sowie eine Vielzahl von Funktionen zum effizienten Reinigen, Filtern, Transformieren und Analysieren von Daten.

Hier finden Sie eine praktische Anleitung zur Verwendung von Pandas für gemeinsame Datenmanipulationsaufgaben:

1. Importieren und Laden von Daten

Beginnen Sie mit dem Importieren von Pandas und Laden Sie Daten aus gemeinsamen Formaten wie CSV, Excel oder JSON.

 Pandas als PD importieren

# Daten aus einer CSV -Datei laden
df = pd.read_csv (&#39;data.csv&#39;))

# Last von Excel (erfordert OpenPyxl)
df = pd.read_excel (&#39;data.xlsx&#39;)

# Laden von JSON
df = pd.read_json (&#39;data.json&#39;)

Sie können auch einen Datenrahmen manuell erstellen:

 Data = {
    &#39;Name&#39;: [&#39;Alice&#39;, &#39;Bob&#39;, &#39;Charlie&#39;],
    &#39;Alter&#39;: [25, 30, 35],
    &#39;City&#39;: [&#39;New York&#39;, &#39;Los Angeles&#39;, &#39;Chicago&#39;]
}
df = pd.dataframe (Daten)

2. Erforschen der Daten

Überprüfen Sie vor dem Manipulieren Ihre Daten, um seine Struktur zu verstehen.

 # Erste 5 Zeilen anzeigen
df.head ()

# Letzte 3 Zeilen
df.tail (3)

# Allgemeine Informationen: Datentypen, fehlende Werte, Speicherverwendung
df.info ()

# Zusammenfassung Statistiken für numerische Spalten
df.describe ()

# Form des DataFrame (Zeilen, Spalten)
df.shape

# Spaltennamen
DF.Columns

3. Auswahl und Filterung von Daten

Greifen Sie unter Verwendung von Beschriftungen, Positionen oder Bedingungen auf bestimmte Teile des Datenrahmens zu.

 # Wählen Sie eine einzelne Spalte aus
df [&#39;name&#39;]

# Mehrere Spalten auswählen
DF [&#39;Name&#39;, &#39;Alter&#39;]]]

# Zeilen nach Index auswählen
df.loc [0] # nach Etikett
df.iloc [0] # nach Position

# Filterreihen basierend auf der Bedingung
DF [DF [&#39;Alter&#39;]> 28]

# Mehrere Bedingungen (Verwendung & für und, | für OR, Klammern erforderlich)
DF [(df [&#39;Alter&#39;]> 25) & (df [&#39;City&#39;] == &#39;Chicago&#39;)]

4. Handhabung fehlender Daten

Daten in der realen Welt haben häufig fehlende Werte (NAN). Pandas bietet Tools zur Verwaltung.

 # Nach fehlenden Werten prüfen
df.isnull ()

# Zählen Sie fehlende Werte pro Spalte
df.isnull (). sum ())

# Zeilen mit fehlenden Werten fallen lassen
df.dropna ()

# Drop -Spalten mit mehr als 50% fehlen
df.dropna (thresh = len (df)*0,5, axis = 1)

# Fehlende Werte füllen
DF [&#39;Alter&#39;]. fillna (df [&#39;Alter&#39;]. Mean (), inplace = true)
df [&#39;City&#39;]. fillna (&#39;unbekannt&#39;, inplace = true)

5. Hinzufügen und Entfernen von Spalten

Ändern Sie die Struktur Ihres Datenrahmens nach Bedarf.

 # Fügen Sie eine neue Spalte hinzu
df [&#39;Senior&#39;] = df [&#39;Alter&#39;]> 30

# Entfernen Sie eine Spalte
df.drop (&#39;Senior&#39;, Axis = 1, inplace = true)

# Spalten umbenennen
df.rename (columns = {&#39;name&#39;: &#39;Voller Name&#39;}, inplace = true)

6. Datenumwandlung

Wenden Sie Funktionen zur Transformation oder Reinigung von Daten an.

 # Wenden Sie eine Funktion auf eine Spalte an
df [&#39;Alter&#39;] = df [&#39;Alter&#39;]. Bewerben Sie (Lambda x: x 1) # Inkrementalter

# MAP -Werte (z. B. die Stadtnamen ersetzen)
df [&#39;City&#39;] = df [&#39;City&#39;]. MAP ({&#39;New York&#39;: &#39;NYC&#39;, &#39;Los Angeles&#39;: &#39;la&#39;})

# Ersetzen Sie bestimmte Werte
df.replace ({&#39;nyc&#39;: &#39;New York City&#39;}, inplace = true)

# Datentypen konvertieren
df [&#39;Alter&#39;] = df [&#39;Alter&#39;]. Astype (int)

7. Sortieren und Gruppieren

Daten organisieren und fassen Sie Daten effektiv zusammen.

 # Sortieren Sie nach einer oder mehreren Spalten
DF.SORT_VALUES (&#39;AGE&#39;, ASSION = Falsch)

# Sortieren nach mehreren Spalten
df.sort_values ([&#39;Stadt&#39;, &#39;Alter&#39;], Ascending = [True, False])

# Gruppendaten und aggregieren
grupped = df.groupBy (&#39;city&#39;) [&#39;Alter&#39;]. Mean () # Durchschnittsalter nach Stadt
grupped = df.groupby (&#39;city&#39;). agg ({&#39;ay&#39;: &#39;mean&#39;, &#39;name&#39;: &#39;count&#39;}) # Mehrere Statistiken

8. Zusammenführen und Verkettung von Daten

Kombinieren Sie mehrere Datenrahmen, ähnlich wie bei SQL -Anschlüssen.

 # Vertikal verkettet (Stapelreihen)
DF_COMBINED = PD.CONCAT ([DF1, DF2], AXIS = 0)

# Horizontal verkettet (Spalten hinzufügen)
DF_COMBINED = PD.CONCAT ([DF1, DF2], AXIS = 1)

# Mit einem Schlüssel zusammenführen (wie SQL Join)
merged = pd.merge (df1, df2, auf = &#39;name&#39;, wie = &#39;inner&#39;) # inner, links, rechts, äußere

9. Daten speichern

Exportieren Sie nach der Manipulation das Ergebnis.

 # Auf CSV speichern
df.to_csv (&#39;cleaned_data.csv&#39;, index = false)

# Speichern Sie zu Excel
df.to_excel (&#39;cleaned_data.xlsx&#39;, index = false)

# Speichern Sie JSON
df.to_json (&#39;cleaned_data.json&#39;, orient = &#39;records&#39;)

Pandas macht Datenmanipulation intuitiv und effizient. Beginnen Sie mit kleinen Datensätzen, um diese Vorgänge zu üben, und wenden Sie sie schrittweise auf reale Probleme an. Der Schlüssel besteht darin, sich mit der Indexierung, Filterung und Aggregationsmustern vertraut zu machen - sie bilden das Rückgrat der meisten Datenworkflows.

Sobald Sie sich mit loc , groupby und apply vertraut machen, können Sie die meisten täglichen Datenaufgaben erledigen.

Das obige ist der detaillierte Inhalt vonWie benutze ich die Pandas -Bibliothek für die Datenmanipulation in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

So retten Sie alle 4 <🎜> Kinder in 99 Nächten im Wald

1 Monate vor By DDD

Wie man freie Diamanten in 99 Nächten im Wald bekommt

1 Monate vor By DDD

Windows 11 KB5062660 24H2 mit Funktionen, direkte Download -Links für Offline -Installateur (.msu)

4 Wochen vor By Jack chen

PHP nennt AI intelligente Sprachassistenten PHP Voice Interaction System Construction

3 Wochen vor By

<🎜> Gigantamax Journey Timed Research Quest Schritte und Code

3 Wochen vor By Jack chen

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

PHP-Tutorial

1535

276

Related knowledge

Lösung häufiger Pandas-Installationsprobleme: Interpretation und Lösungen für Installationsfehler Feb 19, 2024 am 09:19 AM

Pandas-Installations-Tutorial: Analyse häufiger Installationsfehler und ihrer Lösungen. Es sind spezifische Codebeispiele erforderlich. Einführung: Pandas ist ein leistungsstarkes Datenanalysetool, das in der Datenbereinigung, Datenverarbeitung und Datenvisualisierung weit verbreitet ist und daher in der Branche hohes Ansehen genießt der Datenwissenschaft. Aufgrund von Umgebungskonfigurations- und Abhängigkeitsproblemen können jedoch bei der Installation von Pandas einige Schwierigkeiten und Fehler auftreten. In diesem Artikel erhalten Sie ein Pandas-Installations-Tutorial und analysieren einige häufige Installationsfehler und deren Lösungen. 1. Pandas installieren

Einfaches Pandas-Installations-Tutorial: Detaillierte Anleitung zur Installation von Pandas auf verschiedenen Betriebssystemen Feb 21, 2024 pm 06:00 PM

Einfaches Pandas-Installations-Tutorial: Detaillierte Anleitung zur Installation von Pandas auf verschiedenen Betriebssystemen, spezifische Codebeispiele sind erforderlich. Da die Nachfrage nach Datenverarbeitung und -analyse weiter steigt, ist Pandas für viele Datenwissenschaftler und -analysten zu einem der bevorzugten Tools geworden. Pandas ist eine leistungsstarke Datenverarbeitungs- und Analysebibliothek, die große Mengen strukturierter Daten problemlos verarbeiten und analysieren kann. In diesem Artikel wird detailliert beschrieben, wie Pandas auf verschiedenen Betriebssystemen installiert werden, und es werden spezifische Codebeispiele bereitgestellt. Auf dem Windows-Betriebssystem installieren

Wie verbessert Golang die Effizienz der Datenverarbeitung? May 08, 2024 pm 06:03 PM

Golang verbessert die Effizienz der Datenverarbeitung durch Parallelität, effiziente Speicherverwaltung, native Datenstrukturen und umfangreiche Bibliotheken von Drittanbietern. Zu den spezifischen Vorteilen gehören: Parallelverarbeitung: Coroutinen unterstützen die Ausführung mehrerer Aufgaben gleichzeitig. Effiziente Speicherverwaltung: Der Garbage-Collection-Mechanismus verwaltet den Speicher automatisch. Effiziente Datenstrukturen: Datenstrukturen wie Slices, Karten und Kanäle greifen schnell auf Daten zu und verarbeiten sie. Bibliotheken von Drittanbietern: Abdeckung verschiedener Datenverarbeitungsbibliotheken wie fasthttp und x/text.

Vorstellung der effizienten Datendeduplizierungsmethode in Pandas: Tipps zum schnellen Entfernen doppelter Daten Jan 24, 2024 am 08:12 AM

Das Geheimnis der Pandas-Deduplizierungsmethode: eine schnelle und effiziente Methode zur Datendeduplizierung, die spezifische Codebeispiele erfordert. Bei der Datenanalyse und -verarbeitung kommt es häufig zu Duplikaten in den Daten. Doppelte Daten können die Analyseergebnisse verfälschen, daher ist die Deduplizierung ein sehr wichtiger Schritt. Pandas, eine leistungsstarke Datenverarbeitungsbibliothek, bietet eine Vielzahl von Methoden zur Datendeduplizierung. In diesem Artikel werden einige häufig verwendete Deduplizierungsmethoden vorgestellt und spezifische Codebeispiele angehängt. Der häufigste Fall der Deduplizierung basierend auf einer einzelnen Spalte basiert darauf, ob der Wert einer bestimmten Spalte dupliziert wird.

Verwenden Sie Redis, um die Datenverarbeitungseffizienz von Laravel-Anwendungen zu verbessern Mar 06, 2024 pm 03:45 PM

Verwenden Sie Redis, um die Datenverarbeitungseffizienz von Laravel-Anwendungen zu verbessern. Mit der kontinuierlichen Entwicklung von Internetanwendungen ist die Datenverarbeitungseffizienz zu einem Schwerpunkt der Entwickler geworden. Bei der Entwicklung von Anwendungen, die auf dem Laravel-Framework basieren, können wir Redis verwenden, um die Effizienz der Datenverarbeitung zu verbessern und einen schnellen Zugriff und ein schnelles Zwischenspeichern von Daten zu erreichen. In diesem Artikel wird die Verwendung von Redis für die Datenverarbeitung in Laravel-Anwendungen vorgestellt und spezifische Codebeispiele bereitgestellt. 1. Einführung in Redis Redis ist ein Hochleistungsspeicher für Daten

Wie vergleichen sich die Datenverarbeitungsfunktionen in Laravel und CodeIgniter? Jun 01, 2024 pm 01:34 PM

Vergleichen Sie die Datenverarbeitungsfunktionen von Laravel und CodeIgniter: ORM: Laravel verwendet EloquentORM, das eine relationale Klassen-Objekt-Zuordnung bereitstellt, während CodeIgniter ActiveRecord verwendet, um das Datenbankmodell als Unterklasse von PHP-Klassen darzustellen. Abfrage-Builder: Laravel verfügt über eine flexible verkettete Abfrage-API, während der Abfrage-Builder von CodeIgniter einfacher und Array-basiert ist. Datenvalidierung: Laravel bietet eine Validator-Klasse, die benutzerdefinierte Validierungsregeln unterstützt, während CodeIgniter über weniger integrierte Validierungsfunktionen verfügt und eine manuelle Codierung benutzerdefinierter Regeln erfordert. Praxisfall: Beispiel einer Benutzerregistrierung zeigt Lar

Installationsanleitung für PythonPandas: einfach zu verstehen und zu bedienen Jan 24, 2024 am 09:39 AM

Einfache und leicht verständliche PythonPandas-Installationsanleitung PythonPandas ist eine leistungsstarke Datenbearbeitungs- und Analysebibliothek. Sie bietet flexible und benutzerfreundliche Datenstrukturen und Datenanalysetools und ist eines der wichtigen Tools für die Python-Datenanalyse. In diesem Artikel erhalten Sie eine einfache und leicht verständliche PythonPandas-Installationsanleitung, die Ihnen bei der schnellen Installation von Pandas hilft, und fügen spezifische Codebeispiele bei, um Ihnen den Einstieg zu erleichtern. Python installieren Bevor Sie Pandas installieren, müssen Sie zunächst Folgendes tun

Erste Schritte: Verwendung der Go-Sprache zur Verarbeitung großer Datenmengen Feb 25, 2024 pm 09:51 PM

Als Open-Source-Programmiersprache hat die Go-Sprache in den letzten Jahren nach und nach große Aufmerksamkeit und Verwendung gefunden. Es wird von Programmierern wegen seiner Einfachheit, Effizienz und leistungsstarken Funktionen zur gleichzeitigen Verarbeitung bevorzugt. Auch im Bereich der Big-Data-Verarbeitung verfügt die Go-Sprache über großes Potenzial. Sie kann zur Verarbeitung großer Datenmengen, zur Leistungsoptimierung und zur guten Integration in verschiedene Big-Data-Verarbeitungstools und Frameworks eingesetzt werden. In diesem Artikel stellen wir einige grundlegende Konzepte und Techniken der Big-Data-Verarbeitung in der Go-Sprache vor und zeigen anhand spezifischer Codebeispiele, wie die Go-Sprache verwendet wird.

See all articles