Eine kurze Analyse der Python-Datenverarbeitung-Python-Tutorial-php.cn

Eine kurze Analyse der Python-Datenverarbeitung

不言

Freigeben： 2018-05-02 13:46:24

Original

1829 Leute haben es durchsucht

Dieser Artikel teilt Ihnen den relevanten Inhalt und die wichtigsten Erklärungen zur Python-Datenverarbeitung mit. Freunde, die sich für diesen Wissenspunkt interessieren, können darauf verweisen.

Numpy und Pandas sind zwei Frameworks, die häufig in der Python-Datenverarbeitung verwendet werden. Sie sind beide in der Sprache C geschrieben, sodass die Betriebsgeschwindigkeit hoch ist. Matplotlib ist ein Python-Zeichentool, das zuvor verarbeitete Daten durch Bilder zeichnen kann. Ich habe die Syntax bisher nur gesehen und sie nicht systematisch untersucht und zusammengefasst. Dieser Blog-Beitrag fasst die APIs dieser drei Frameworks zusammen.

Das Folgende ist eine kurze Einführung und der Unterschied zwischen diesen drei Frameworks:

Numpy: Wird häufig für die Datengenerierung und einige Vorgänge verwendet
Pandas: Basierend auf Numpy ist es eine aktualisierte Version von Numpy
Matplotlib: ein leistungsstarkes Zeichenwerkzeug in Python

Numpy

Numpy-Schnellstart-Tutorial kann sich beziehen auf: Numpy-Tutorial

Numpy-Eigenschaften

ndarray.ndim: Dimension

ndarray.shape: Anzahl der Zeilen und Spalten, z. B. (3, 5)

ndarray.size: Anzahl der Elemente

ndarray. dtype: Elementtyp

Numpy erstellt

array(object, dtype=None): verwendet Pythons Liste oder Tupel, um Daten zu erstellen

zeors(shape, dtype=float): Daten mit allen Nullen erstellen

ones(shape, dtype=None): Daten mit allen 1en erstellen

empty( shape, dtype=float): Nicht initialisierte Daten erstellen

arange([start, ]stop, [step, ]dtype=None): Datensegmente mit festem Intervall erstellen

linspace(start, stop, num=50, dtype=None): Daten gleichmäßig innerhalb eines bestimmten Bereichs erstellen

Numpy-Operation

Addieren, Subtrahieren: a + b , a - b

Multiplikation: b*2, 10*np.sin(a)

Potenz: b**2

Beurteilung: a<35, Ausgabe eines Arrays von Wahr oder Falsch

Matrixmultiplikation: np.dot(A,B) oder A.dot(B)

Andere: +=, -+, sin, cos, exp

Numpy-Index

Array-Indizierungsmethode: A[1, 1]

Slice: A[1, 1:3]

Iteration: für Element in A.flat

Numpy other

umformen (a, new_shape): Ändern Sie die Form der Daten, ohne die Originaldaten zu ändern, und geben Sie einen neuen Datensatz zurück.

resize(a, new_shape): Ändern Sie die Form der Daten, ohne Ändern der Originaldaten. Ändern Sie die Originaldaten, ohne Daten zurückzugeben

ravel(a): Geben Sie sie in einer Dimension zurück

vstack(tup): Oben und unten zusammenführen

hstack( tup): Links und rechts zusammenführen

hsplit(ary, indices_or_sections): N Teile horizontal teilen

vsplit(ary, indices_or_sections): N Teile vertikal teilen

Kopie(a): Tiefe Kopie

Pandas

Pandas-Schnellstart-Tutorial: 10 Minuten zu Pandas

Pandas-Datenstruktur

Pandas hat zwei Datenstrukturen: Series und DataFrame.

Reihe: Index links, Wert rechts. Die Erstellungsmethode ist wie folgt:

In [4]: s = pd.Series([1,3,5,np.nan,6,8])
In [5]: s
Out[5]: 
0  1.0
1  3.0
2  5.0
3  NaN
4  6.0
5  8.0
dtype: float64

Nach dem Login kopieren

DataFrame: Es handelt sich um eine tabellarische Datenstruktur mit Zeilenindex und Spaltenindex. Sie kann als aus Reihen zusammengesetzt betrachtet werden Großes Wörterbuch. Erstellen Sie wie folgt:

In [6]: dates = pd.date_range(&#39;20130101&#39;, periods=6)

In [7]: dates
Out[7]: 
DatetimeIndex([&#39;2013-01-01&#39;, &#39;2013-01-02&#39;, &#39;2013-01-03&#39;, &#39;2013-01-04&#39;,
        &#39;2013-01-05&#39;, &#39;2013-01-06&#39;],
       dtype=&#39;datetime64[ns]&#39;, freq=&#39;D&#39;)

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list(&#39;ABCD&#39;))

Nach dem Login kopieren

Pandas view data

index: Index

Spalten: Spaltenindex

Werte: Wert

head(n=5): Gibt die ersten n Datenelemente zurück

tail( n= 5): Gibt die letzten n Datenelemente zurück

describe(): Gibt die Anzahl der Daten, den Durchschnittswert und andere Daten aus

sort_index(axis= 1, aufsteigend = Falsch): Nach Index sortieren

sort_values(by='B'): Nach Indexwert sortieren

Pandas wählt Daten aus

Array-Auswahlmethode: df['A']

Slice-Auswahlmethode: df[0:3] oder df['20130102':'20130104']

je nach Beschriftung Auswählen: df.loc['20130102':'20130104',['A','B']]

Auswählen basierend auf der Position: df.iloc[ 3:5,0:2]

Gemischte Auswahl: df.ix[:3,['A','C']]

Bedingte Auswahl: df [df.A > 0]

Pandas behandelt fehlende Daten

Zeilen mit fehlenden Daten löschen: df.dropna(how='any')

Fehlende Daten ergänzen:df.fillna(value=5)

Ob der Datenwert NaN ist: pd.isna(df1)

Pandas zusammengeführte Daten

pd.concat([df1, df2, df3], axis=0): merge df

pd.merge(left, right, on=' key'): Zusammenführung basierend auf dem Schlüsselfeld

df.append(s,ignore_index=True): Daten hinzufügen

Pandas-Import und -Export

df.to_csv('foo.csv'): In CSV-Datei speichern

pd.read_csv('foo.csv'): Aus CSV-Datei lesen

df.to_excel('foo.xlsx', sheet_name='Sheet1'): in Excel-Datei speichern

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values =['NA']): aus Excel-Datei Lesen

Matplotlib

Hier stellen wir nur die einfachste Art des Plots vor:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

Nach dem Login kopieren

Verwandte Empfehlungen:

Eine kurze Diskussion zum Konfigurationsdateipfadproblem von Python-Protokollen

Das obige ist der detaillierte Inhalt vonEine kurze Analyse der Python-Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!