Pemahaman mendalam tentang pemprosesan dan visualisasi data Python-Tutorial Python-php.cn

Pemahaman mendalam tentang pemprosesan dan visualisasi data Python

WBOY

Lepaskan： 2022-03-21 17:43:43

ke hadapan

2290 orang telah melayarinya

Artikel ini membawa anda pengetahuan yang berkaitan tentang python, yang terutamanya memperkenalkan isu berkaitan pemprosesan dan visualisasi data, termasuk penggunaan awal NumPy, penggunaan pakej Matplotlib dan statistik data Paparan visual, dsb. I semoga ianya bermanfaat kepada semua.

Pemahaman mendalam tentang pemprosesan dan visualisasi data Python

Pembelajaran yang disyorkan: tutorial python

1. Penggunaan awal NumPy

Jadual ialah perwakilan umum data. bentuk, tetapi ia tidak dapat difahami oleh mesin, iaitu, ia adalah data yang tidak dapat dikenali, jadi kita perlu menyesuaikan bentuk jadual.
Perwakilan pembelajaran mesin yang biasa digunakan ialah matriks data.
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
Kami memerhatikan jadual ini dan mendapati terdapat dua jenis atribut dalam matriks, satu jenis angka dan satu lagi jenis Boolean. Jadi kita kini akan membina model untuk menerangkan jadual ini:

#  数据的矩阵化import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:
    row += 1print( row )print(data.size)print(data)

Salin selepas log masuk

Barisan pertama kod di sini bermaksud memperkenalkan NumPy dan menamakan semula ia kepada np. Dalam baris kedua, kami menggunakan kaedah mat() dalam NumPy untuk mencipta matriks data, dan baris ialah pembolehubah yang diperkenalkan untuk mengira bilangan baris.
Saiz di sini bermaksud jadual 5*5 Anda boleh melihat data dengan mencetak data secara terus:
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python

2. Penggunaan pakej Matplotlib – pemprosesan data grafik

Mari kita lihat pada jadual atas Lajur kedua adalah perbezaan harga perumahan Tidak mudah untuk melihat perbezaan secara intuitif (kerana hanya ada nombor), jadi kami berharap untuk menariknya (Kaedah Penyelidikan. perbezaan berangka dan anomali adalah untuk melukis darjah pengedaran data ):

import numpy as npimport scipy.stats as statsimport pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:
    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

Salin selepas log masuk

Hasil kod ini adalah untuk menjana graf:
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
Dengan cara ini kita boleh nampak dengan jelas perbezaannya.

Keperluan carta koordinat adalah untuk menunjukkan nilai khusus data melalui baris dan lajur yang berbeza.
Sudah tentu, kita juga boleh memaparkan gambar rajah koordinat:
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python

3 Kaedah teori pembelajaran mendalam – pengiraan persamaan (boleh dilangkau)

Persamaan. Terdapat banyak kaedah pengiraan, dan kami memilih dua yang paling biasa digunakan, iaitu persamaan Euclidean dan pengiraan persamaan kosinus.

1. Pengiraan persamaan berdasarkan jarak Euclidean

Jarak Euclidean digunakan untuk mewakili jarak sebenar antara dua titik dalam ruang tiga dimensi. Kita semua tahu formulanya, tetapi kita jarang mendengar nama:
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
Kemudian mari kita lihat aplikasi praktikalnya:
Jadual ini menunjukkan penilaian item oleh tiga pengguna:

d12 mewakili persamaan antara pengguna 1 dan pengguna 2, maka terdapat:

Begitu juga d13:

Dapat dilihat pengguna 2 adalah lebih serupa dengan Pengguna 1 (semakin kecil jarak, semakin besar persamaan).

2. Pengiraan persamaan berdasarkan sudut kosinus

Titik permulaan untuk pengiraan sudut kosinus ialah perbezaan sudut yang disertakan.
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python

Dapat dilihat berbanding pengguna 3, pengguna 2 lebih serupa dengan pengguna 1 (semakin serupa kedua-dua sasaran, semakin kecil sudut yang terbentuk mengikut segmen garisan mereka)

4 Paparan visual statistik data (mengambil kerpasan kami di Bandar Bozhou sebagai contoh)

Kuartil data

The. kuartil ialah titik median statistik Sejenis digit, iaitu, data disusun dari kecil ke besar, dan kemudian dibahagikan kepada empat bahagian yang sama Data pada tiga titik pembahagi ialah kuartil.
Kuartil pertama (Q1), juga dikenali sebagai Kuartil bawah;
Kuartil kedua (Q1), juga dipanggil median;
kuartil ketiga (Q1) , juga dipanggil kuartil bawah; juga dipanggil jurang empat mata (IQR).

若n为项数，则：
Q1的位置 = （n+1）*0.25
Q2的位置 = （n+1）*0.50
Q3的位置 = （n+1）*0.75

四分位示例：
关于这个rain.csv，有需要的可以私我要文件，我使用的是亳州市2010-2019年的月份降水情况。

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].values
boxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

Salin selepas log masuk

以下是plot运行结果：
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
这个是pandas的运行

这里就可以很清晰的看出来数据的波动范围。
可以看出，不同月份的降水量有很大差距，8月最多，1-4月和10-12月最少。

那么每月的降水增减程度如何比较？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

Salin selepas log masuk

结果如图：
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
可以看出来降水月份并不规律的上涨或下跌。

那么每月降水是否相关？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

Salin selepas log masuk

结果如图：
Pemahaman mendalam tentang pemprosesan dan visualisasi data Python
可以看出，颜色分布十分均匀，表示没有多大的相关性，因此可以认为每月的降水是独立行为。

今天就记录到这里了，我们下次再见！希望本文章对你也有所帮助。

推荐学习：python学习教程

Atas ialah kandungan terperinci Pemahaman mendalam tentang pemprosesan dan visualisasi data Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!