Memahami data anda: The Essentials of Exploratory Data Analysis (EDA).

WBOY
Lepaskan: 2024-08-18 06:12:32
asal
595 orang telah melayarinya

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

Setelah data dikumpul dan disimpan, analisanya diperlukan untuk memperoleh pemahaman yang bermakna mengenainya. Atas sebab inilah analisis data penerokaan (EDA) dimainkan. Seperti namanya, kami sedang'meneroka'data iaitu mendapat gambaran umum mengenainya.

Data yang dikumpul mungkin sama ada dalam bentuk teks, video atau imej dan biasanya akan disimpan dalam cara yang tidak tersusun. Jarang sekali anda akan menemui data yang 100% bersih iaitu tanpa sebarang anomali. Selain itu, data mungkin dalam pelbagai format sepertiExcel, CSV (nilai dipisahkan koma), Json, Parket dll.

Dalam dunia data, EDA juga boleh dirujuk sebagaimanipulasi dataataupembersihan data. Pengamal dalam industri menekankan kepentingan membersihkan data untuk membuang'sampah'kerana ini boleh memberi kesan negatif kepada keputusan serta ramalan. Data berstruktur, biasanya dalam format jadual, boleh dianalisis menggunakan beberapa teknik dan alatan (seperti Excel, Power BI, SQL) tetapi kami akan menumpukan pada Python untuk ilustrasi ini.

EDA menggunakan Python
Bahasa pengaturcaraan Python ialah salah satu alat yang paling meluas dalam EDA kerana serba boleh yang membolehkan penggunaannya merentas pelbagai industri, sama ada kewangan, pendidikan, penjagaan kesihatan, perlombongan, hospitaliti antara lain.
Perpustakaan terbina, iaitu Pandas dan NumPy sangat berkesan dalam hal ini dan berfungsi secara menyeluruh (sama ada menggunakanAnaconda/Jupyter Notebook, Google Collab atau IDE seperti Visual Studio)

Di bawah ialah langkah biasa dan baris kod yang boleh dilaksanakan semasa melakukan EDA:

Pertama, anda akan mengimport perpustakaan python yang diperlukan untuk manipulasi/analisis:

import panda sebagai pd
import numpy sebagai np

Kedua, muatkan set data
df = pd.read_excel('Laluan fail')

Nota: df ialah fungsi standard untuk menukar data jadual kepada Bingkai data.

Setelah dimuatkan, anda boleh pratonton data menggunakan kod:
df.head()

Ini akan menunjukkan 5 baris pertama set data
Sebagai alternatif, anda boleh menjalankandfyang akan menunjukkan beberapa baris terpilih (kedua-dua bahagian atas dan bawah) daripada keseluruhan set data serta semua lajur di dalamnya.

Ketiga, fahami semua jenis data menggunakan:
df.info()

Nota: Jenis data termasukinteger(nombor bulat),terapung(perpuluhan) atau ##objek data/perkataan deskriptif).Pada langkah ini, dinasihatkan untuk mendapatkan statistik ringkasan data menggunakan:

df.describe()
Ini akan memberi anda statistik seperti

Min, Mod, Sisihan Piawai, Nilai Maksimum/Minimum dan Kuartil

.Keempat, kenal pasti sama ada nilai nol wujud dalam set data menggunakan:

df.isnull()
Ini kemudiannya boleh diikuti dengan menyemak pendua (entri berulang)

df.duplicated()
Aspek utama EDA yang lain sedang menyemak cara pelbagai pembolehubah dalam set data berkaitan antara satu sama lain (

Korelasi

) danpengedaranmereka.Korelasi boleh positif atau negatif dan berjulat dari -1 hingga 1. Kodnya ialah:

df.corr()

Nota: Angka korelasi yang hampir dengan

1menunjukkankorelasi positif yang kuat, manakala angka yang hampir dengan-1# # menunjukkankorelasi negatif yang kuat.Pengedaran menyemak tentang bagaimana datasimetri

atau

asimetri, sertakecondongan# dan ia boleh# daripada data itu jadi biasa, binomial, Bernoulli atau Poisson.Ringkasnya, analisis data penerokaan adalah proses penting dalam mendapatkan pemahaman yang lebih baik tentang data. Ia membolehkan visualisasi dan pembinaan model yang lebih baik.

Atas ialah kandungan terperinci Memahami data anda: The Essentials of Exploratory Data Analysis (EDA).. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:dev.to
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!