Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri-Tutorial Python-php.cn

Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri

WBOY

Lepaskan： 2024-01-13 10:26:05

asal

702 orang telah melayarinya

Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri

kaedah analisis data panda dalam amalan: daripada pemuatan data hingga kejuruteraan ciri, contoh kod khusus diperlukan

Pengenalan:
Pandas ialah perpustakaan analisis data yang digunakan secara meluas dalam Python, menyediakan pelbagai alatan pemprosesan dan analisis data. Artikel ini akan memperkenalkan kaedah khusus daripada pemuatan data kepada kejuruteraan ciri dan memberikan contoh kod yang berkaitan.

1. Pemuatan data
Pemuatan data ialah langkah pertama analisis data. Dalam Pandas, anda boleh menggunakan pelbagai kaedah untuk memuatkan data, termasuk membaca fail tempatan, membaca data rangkaian, membaca pangkalan data, dsb.

Baca fail tempatan
Gunakan fungsi read_csv() Pandas untuk membaca fail CSV tempatan dengan mudah. Berikut adalah contoh:

import pandas as pd

data = pd.read_csv("data.csv")

Salin selepas log masuk

Baca data rangkaian
Panda juga menyediakan fungsi membaca data rangkaian. Anda boleh menggunakan fungsi read_csv() dan hantar alamat rangkaian sebagai parameter Contoh adalah seperti berikut:

import pandas as pd

url = "https://www.example.com/data.csv"
data = pd.read_csv(url)

Salin selepas log masuk

Membaca pangkalan data
Jika data disimpan dalam pangkalan data, anda boleh menggunakan fungsi read_sql(). disediakan oleh Panda untuk membacanya. Mula-mula, anda perlu menggunakan perpustakaan SQLAlchemy Python untuk menyambung ke pangkalan data, dan kemudian gunakan fungsi read_sql() Pandas untuk membaca data. Berikut ialah contoh:

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///database.db')
data = pd.read_sql("SELECT * FROM table", engine)

Salin selepas log masuk

2 Pratonton dan pemprosesan data
Selepas memuatkan data, anda boleh menggunakan kaedah yang disediakan oleh Pandas untuk pratonton dan proses awal data.

Pratonton Data
Anda boleh menggunakan kaedah kepala() dan ekor() untuk pratonton beberapa baris pertama dan terakhir data. Contohnya:

data.head()  # 预览前5行
data.tail(10)  # 预览后10行

Salin selepas log masuk

Pembersihan Data
Pembersihan data adalah salah satu langkah penting dalam analisis data. Pandas menyediakan satu siri kaedah untuk menangani nilai yang hilang, nilai pendua dan outlier.

Mengendalikan nilai yang hilang
Anda boleh menggunakan fungsi isnull() untuk menentukan sama ada data adalah nilai yang tiada, dan kemudian gunakan kaedah fillna() untuk mengisi nilai yang tiada. Berikut ialah contoh:

data.isnull()  # 判断缺失值
data.fillna(0)  # 填充缺失值为0

Salin selepas log masuk

Mengendalikan nilai pendua
Gunakan kaedah pendua() untuk menentukan sama ada data ialah nilai pendua, dan kemudian gunakan kaedah drop_duplicates() untuk mengalih keluar nilai pendua. Kod sampel adalah seperti berikut:

data.duplicated()  # 判断重复值
data.drop_duplicates()  # 去除重复值

Salin selepas log masuk

Mengendalikan outlier
Untuk outlier, anda boleh menggunakan pertimbangan bersyarat dan operasi indeks untuk memprosesnya. Berikut ialah contoh:

data[data['column'] > 100] = 100  # 将大于100的值设为100

Salin selepas log masuk

3. Kejuruteraan Ciri
Kejuruteraan ciri ialah langkah utama dalam analisis data Dengan mengubah data mentah kepada ciri yang lebih sesuai untuk pemodelan, prestasi model boleh dipertingkatkan. Pandas menyediakan pelbagai kaedah untuk kejuruteraan ciri.

Pemilihan ciri
Anda boleh menggunakan operasi lajur Pandas dan pertimbangan bersyarat untuk memilih ciri tertentu. Berikut ialah contoh:

selected_features = data[['feature1', 'feature2']]

Salin selepas log masuk

Pengekodan Ciri
Sebelum pemodelan, ciri perlu diubah menjadi bentuk yang boleh diproses oleh algoritma pembelajaran mesin. Pandas menyediakan kaedah get_dummies() untuk pengekodan satu panas. Berikut ialah contoh:

encoded_data = pd.get_dummies(data)

Salin selepas log masuk

Penskalaan Ciri
Untuk ciri berangka, anda boleh menggunakan kaedah MinMaxScaler() atau StandardScaler() Pandas untuk penskalaan ciri. Kod sampel adalah seperti berikut:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)

Salin selepas log masuk

Pembinaan ciri
Ciri baharu boleh dibina dengan melakukan operasi asas dan gabungan pada ciri asal. Kod sampel adalah seperti berikut:

data['new_feature'] = data['feature1'] + data['feature2']

Salin selepas log masuk

Kesimpulan:
Artikel ini memperkenalkan kaedah daripada pemuatan data kepada kejuruteraan ciri dalam analisis data Pandas dan menunjukkan operasi berkaitan melalui contoh kod tertentu. Dengan pemprosesan data dan fungsi analisis Pandas yang berkuasa, kami boleh menjalankan analisis data dan perlombongan dengan lebih cekap. Dalam aplikasi praktikal, operasi dan kaedah yang berbeza boleh dipilih mengikut keperluan khusus untuk meningkatkan ketepatan dan kesan analisis data.

Atas ialah kandungan terperinci Kaedah analisis data panda berorientasikan contoh: pertempuran praktikal pemuatan data dan kejuruteraan ciri. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!