Dieser Artikel teilt Ihnen den relevanten Inhalt und die wichtigsten Erklärungen zur Python-Datenverarbeitung mit. Freunde, die sich für diesen Wissenspunkt interessieren, können darauf verweisen.
Numpy und Pandas sind zwei Frameworks, die häufig in der Python-Datenverarbeitung verwendet werden. Sie sind beide in der Sprache C geschrieben, sodass die Betriebsgeschwindigkeit hoch ist. Matplotlib ist ein Python-Zeichentool, das zuvor verarbeitete Daten durch Bilder zeichnen kann. Ich habe die Syntax bisher nur gesehen und sie nicht systematisch untersucht und zusammengefasst. Dieser Blog-Beitrag fasst die APIs dieser drei Frameworks zusammen.
Das Folgende ist eine kurze Einführung und der Unterschied zwischen diesen drei Frameworks:
Numpy: Wird häufig für die Datengenerierung und einige Vorgänge verwendet
Pandas: Basierend auf Numpy ist es eine aktualisierte Version von Numpy
Matplotlib: ein leistungsstarkes Zeichenwerkzeug in Python
Numpy
Numpy-Schnellstart-Tutorial kann sich beziehen auf: Numpy-Tutorial
Numpy-Eigenschaften
ndarray.ndim: Dimension
ndarray.shape: Anzahl der Zeilen und Spalten, z. B. (3, 5)
ndarray.size: Anzahl der Elemente
ndarray. dtype: Elementtyp
Numpy erstellt
array(object, dtype=None): verwendet Pythons Liste oder Tupel, um Daten zu erstellen
zeors(shape, dtype=float): Daten mit allen Nullen erstellen
ones(shape, dtype=None): Daten mit allen 1en erstellen
empty( shape, dtype=float): Nicht initialisierte Daten erstellen
arange([start, ]stop, [step, ]dtype=None): Datensegmente mit festem Intervall erstellen
linspace(start, stop, num=50, dtype=None): Daten gleichmäßig innerhalb eines bestimmten Bereichs erstellen
Numpy-Operation
Addieren, Subtrahieren: a + b , a - b
Multiplikation: b*2, 10*np.sin(a)
Potenz: b**2
Beurteilung: a<35, Ausgabe eines Arrays von Wahr oder Falsch
Matrixmultiplikation: np.dot(A,B) oder A.dot(B)
Andere: +=, -+, sin, cos, exp
Numpy-Index
Array-Indizierungsmethode: A[1, 1]
Slice: A[1, 1:3]
Iteration: für Element in A.flat
Numpy other
umformen (a, new_shape): Ändern Sie die Form der Daten, ohne die Originaldaten zu ändern, und geben Sie einen neuen Datensatz zurück.
resize(a, new_shape): Ändern Sie die Form der Daten, ohne Ändern der Originaldaten. Ändern Sie die Originaldaten, ohne Daten zurückzugeben
ravel(a): Geben Sie sie in einer Dimension zurück
vstack(tup): Oben und unten zusammenführen
hstack( tup): Links und rechts zusammenführen
hsplit(ary, indices_or_sections): N Teile horizontal teilen
vsplit(ary, indices_or_sections): N Teile vertikal teilen
Kopie(a): Tiefe Kopie
Pandas
Pandas-Schnellstart-Tutorial: 10 Minuten zu Pandas
Pandas-Datenstruktur
Pandas hat zwei Datenstrukturen: Series und DataFrame.
Reihe: Index links, Wert rechts. Die Erstellungsmethode ist wie folgt:
In [4]: s = pd.Series([1,3,5,np.nan,6,8]) In [5]: s Out[5]: 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64
DataFrame: Es handelt sich um eine tabellarische Datenstruktur mit Zeilenindex und Spaltenindex. Sie kann als aus Reihen zusammengesetzt betrachtet werden Großes Wörterbuch. Erstellen Sie wie folgt:
In [6]: dates = pd.date_range('20130101', periods=6) In [7]: dates Out[7]: DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', '2013-01-05', '2013-01-06'], dtype='datetime64[ns]', freq='D') In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
Pandas view data
index: Index
Spalten: Spaltenindex
Werte: Wert
head(n=5): Gibt die ersten n Datenelemente zurück
tail( n= 5): Gibt die letzten n Datenelemente zurück
describe(): Gibt die Anzahl der Daten, den Durchschnittswert und andere Daten aus
sort_index(axis= 1, aufsteigend = Falsch): Nach Index sortieren
sort_values(by='B'): Nach Indexwert sortieren
Pandas wählt Daten aus
Array-Auswahlmethode: df['A']
Slice-Auswahlmethode: df[0:3] oder df['20130102':'20130104']
je nach Beschriftung Auswählen: df.loc['20130102':'20130104',['A','B']]
Auswählen basierend auf der Position: df.iloc[ 3:5,0:2]
Gemischte Auswahl: df.ix[:3,['A','C']]
Bedingte Auswahl: df [df.A > 0]
Pandas behandelt fehlende Daten
Zeilen mit fehlenden Daten löschen: df.dropna(how='any')
Fehlende Daten ergänzen:df.fillna(value=5)
Ob der Datenwert NaN ist: pd.isna(df1)
Pandas zusammengeführte Daten
pd.concat([df1, df2, df3], axis=0): merge df
pd.merge(left, right, on=' key'): Zusammenführung basierend auf dem Schlüsselfeld
df.append(s,ignore_index=True): Daten hinzufügen
Pandas-Import und -Export
df.to_csv('foo.csv'): In CSV-Datei speichern
pd.read_csv('foo.csv'): Aus CSV-Datei lesen
df.to_excel('foo.xlsx', sheet_name='Sheet1'): in Excel-Datei speichern
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values =['NA']): aus Excel-Datei Lesen
Matplotlib
Hier stellen wir nur die einfachste Art des Plots vor:
import pandas as pd import numpy as np import matplotlib.pyplot as plt # 随机生成1000个数据 data = pd.Series(np.random.randn(1000),index=np.arange(1000)) # 为了方便观看效果, 我们累加这个数据 data.cumsum() # pandas 数据可以直接观看其可视化形式 data.plot() plt.show()
Verwandte Empfehlungen:
Eine kurze Diskussion zum Konfigurationsdateipfadproblem von Python-Protokollen
Das obige ist der detaillierte Inhalt vonEine kurze Analyse der Python-Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!