Eine kurze Analyse der Python-Datenverarbeitung

不言
Freigeben: 2018-05-02 13:46:24
Original
1751 Leute haben es durchsucht

Dieser Artikel teilt Ihnen den relevanten Inhalt und die wichtigsten Erklärungen zur Python-Datenverarbeitung mit. Freunde, die sich für diesen Wissenspunkt interessieren, können darauf verweisen.

Numpy und Pandas sind zwei Frameworks, die häufig in der Python-Datenverarbeitung verwendet werden. Sie sind beide in der Sprache C geschrieben, sodass die Betriebsgeschwindigkeit hoch ist. Matplotlib ist ein Python-Zeichentool, das zuvor verarbeitete Daten durch Bilder zeichnen kann. Ich habe die Syntax bisher nur gesehen und sie nicht systematisch untersucht und zusammengefasst. Dieser Blog-Beitrag fasst die APIs dieser drei Frameworks zusammen.

Das Folgende ist eine kurze Einführung und der Unterschied zwischen diesen drei Frameworks:

  • Numpy: Wird häufig für die Datengenerierung und einige Vorgänge verwendet

  • Pandas: Basierend auf Numpy ist es eine aktualisierte Version von Numpy

  • Matplotlib: ein leistungsstarkes Zeichenwerkzeug in Python

Numpy

Numpy-Schnellstart-Tutorial kann sich beziehen auf: Numpy-Tutorial

Numpy-Eigenschaften

ndarray.ndim: Dimension

ndarray.shape: Anzahl der Zeilen und Spalten, z. B. (3, 5)

ndarray.size: Anzahl der Elemente

ndarray. dtype: Elementtyp

Numpy erstellt

array(object, dtype=None): verwendet Pythons Liste oder Tupel, um Daten zu erstellen

zeors(shape, dtype=float): Daten mit allen Nullen erstellen

ones(shape, dtype=None): Daten mit allen 1en erstellen

empty( shape, dtype=float): Nicht initialisierte Daten erstellen

arange([start, ]stop, [step, ]dtype=None): Datensegmente mit festem Intervall erstellen

linspace(start, stop, num=50, dtype=None): Daten gleichmäßig innerhalb eines bestimmten Bereichs erstellen

Numpy-Operation

Addieren, Subtrahieren: a + b , a - b

Multiplikation: b*2, 10*np.sin(a)

Potenz: b**2

Beurteilung: a<35, Ausgabe eines Arrays von Wahr oder Falsch

Matrixmultiplikation: np.dot(A,B) oder A.dot(B)

Andere: +=, -+, sin, cos, exp

Numpy-Index

Array-Indizierungsmethode: A[1, 1]

Slice: A[1, 1:3]

Iteration: für Element in A.flat

Numpy other

umformen (a, new_shape): Ändern Sie die Form der Daten, ohne die Originaldaten zu ändern, und geben Sie einen neuen Datensatz zurück.

resize(a, new_shape): Ändern Sie die Form der Daten, ohne Ändern der Originaldaten. Ändern Sie die Originaldaten, ohne Daten zurückzugeben

ravel(a): Geben Sie sie in einer Dimension zurück

vstack(tup): Oben und unten zusammenführen

hstack( tup): Links und rechts zusammenführen

hsplit(ary, indices_or_sections): N Teile horizontal teilen

vsplit(ary, indices_or_sections): N Teile vertikal teilen

Kopie(a): Tiefe Kopie

Pandas

Pandas-Schnellstart-Tutorial: 10 Minuten zu Pandas

Pandas-Datenstruktur

Pandas hat zwei Datenstrukturen: Series und DataFrame.

Reihe: Index links, Wert rechts. Die Erstellungsmethode ist wie folgt:

In [4]: s = pd.Series([1,3,5,np.nan,6,8])
In [5]: s
Out[5]: 
0  1.0
1  3.0
2  5.0
3  NaN
4  6.0
5  8.0
dtype: float64
Nach dem Login kopieren

DataFrame: Es handelt sich um eine tabellarische Datenstruktur mit Zeilenindex und Spaltenindex. Sie kann als aus Reihen zusammengesetzt betrachtet werden Großes Wörterbuch. Erstellen Sie wie folgt:

In [6]: dates = pd.date_range(&#39;20130101&#39;, periods=6)

In [7]: dates
Out[7]: 
DatetimeIndex([&#39;2013-01-01&#39;, &#39;2013-01-02&#39;, &#39;2013-01-03&#39;, &#39;2013-01-04&#39;,
        &#39;2013-01-05&#39;, &#39;2013-01-06&#39;],
       dtype=&#39;datetime64[ns]&#39;, freq=&#39;D&#39;)

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list(&#39;ABCD&#39;))
Nach dem Login kopieren

Pandas view data

index: Index

Spalten: Spaltenindex

Werte: Wert

head(n=5): Gibt die ersten n Datenelemente zurück

tail( n= 5): Gibt die letzten n Datenelemente zurück

describe(): Gibt die Anzahl der Daten, den Durchschnittswert und andere Daten aus

sort_index(axis= 1, aufsteigend = Falsch): Nach Index sortieren

sort_values(by='B'): Nach Indexwert sortieren

Pandas wählt Daten aus

Array-Auswahlmethode: df['A']

Slice-Auswahlmethode: df[0:3] oder df['20130102':'20130104']

je nach Beschriftung Auswählen: df.loc['20130102':'20130104',['A','B']]

Auswählen basierend auf der Position: df.iloc[ 3:5,0:2]

Gemischte Auswahl: df.ix[:3,['A','C']]

Bedingte Auswahl: df [df.A > 0]

Pandas behandelt fehlende Daten

Zeilen mit fehlenden Daten löschen: df.dropna(how='any')

Fehlende Daten ergänzen:df.fillna(value=5)

Ob der Datenwert NaN ist: pd.isna(df1)

Pandas zusammengeführte Daten

pd.concat([df1, df2, df3], axis=0): merge df

pd.merge(left, right, on=' key'): Zusammenführung basierend auf dem Schlüsselfeld

df.append(s,ignore_index=True): Daten hinzufügen

Pandas-Import und -Export

df.to_csv('foo.csv'): In CSV-Datei speichern

pd.read_csv('foo.csv'): Aus CSV-Datei lesen

df.to_excel('foo.xlsx', sheet_name='Sheet1'): in Excel-Datei speichern

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values =['NA']): aus Excel-Datei Lesen

Matplotlib

Hier stellen wir nur die einfachste Art des Plots vor:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()
Nach dem Login kopieren

Verwandte Empfehlungen:

Eine kurze Diskussion zum Konfigurationsdateipfadproblem von Python-Protokollen

Das obige ist der detaillierte Inhalt vonEine kurze Analyse der Python-Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage