Dalam kebanyakan kes, NumPy atau Pandas akan digunakan untuk mengimport data, jadi sebelum memulakan, laksanakan:
import numpy as np import pandas as pd
Banyak kali anda tidak tahu banyak tentang beberapa kaedah fungsi Pada masa ini, Python menyediakan beberapa maklumat bantuan untuk menggunakan objek Python dengan cepat.
np.info(np.ndarray.dtype)
help(pd.read_csv)
filename = 'demo.txt' file = open(filename, mode='r') # 打开文件进行读取 text = file.read() # 读取文件的内容 print(file.closed) # 检查文件是否关闭 file.close() # 关闭文件 print(text)
Gunakan pengurus konteks -- dengan
with open('demo.txt', 'r') as file: print(file.readline()) # 一行一行读取 print(file.readline()) print(file.readline())
Fungsi terbina dalam Numpy memproses data pada tahap bahasa C.
Fail rata ialah fail yang mengandungi rekod tanpa struktur perhubungan relatif. (Fail Excel, CSV dan pembatas Tab disokong)
Fail dengan satu jenis data
Rentetan yang digunakan untuk memisahkan nilai melangkau dua baris pertama. Baca jenis tatasusunan yang terhasil dalam lajur pertama dan ketiga.
filename = 'mnist.txt' data = np.loadtxt(filename, delimiter=',', skiprows=2, usecols=[0,2], dtype=str)
Dua keperluan sukar:
filename = 'titanic.csv' data = np.genfromtxt(filename, delimiter=',', names=True, dtype=None)
Gunakan Panda untuk membaca fail Flat
filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串
ExcelFile() dalam Pandas ialah kelas yang sangat mudah dan pantas dalam panda untuk membaca fail jadual excel, terutamanya apabila sangat mudah untuk memanipulasi fail excel yang mengandungi berbilang cadar.
file = 'demo.xlsx' data = pd.ExcelFile(file) df_sheet2 = data.parse(sheet_name='1960-1966', skiprows=[0], names=['Country', 'AAM: War(2002)']) df_sheet1 = pd.read_excel(data, sheet_name=0, parse_cols=[0], skiprows=[0], names=['Country'])
Gunakan sifat sheet_names untuk mendapatkan nama helaian untuk dibaca.
data.sheet_names
SAS (Sistem Analisis Statistik) ialah sistem perisian aplikasi berskala besar modular dan bersepadu. Fail yang disimpannya, sas, ialah fail analisis statistik.
from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()
Stata ialah perisian statistik yang lengkap dan bersepadu yang menyediakan penggunanya dengan analisis data, pengurusan data dan lukisan carta profesional. Fail yang disimpan ialah fail Stata dengan sambungan .dta.
data = pd.read_stata('demo.dta')
Hampir semua jenis data dalam python (senarai, kamus, set, kelas, dll.) boleh disiri menggunakan jeruk. Modul acar Python melaksanakan penjujukan data asas dan penyahserialisasian. Melalui operasi bersiri modul jeruk, kita boleh menyimpan maklumat objek yang berjalan dalam program ke fail dan menyimpannya secara kekal melalui operasi penyahserian modul jeruk, kita boleh mencipta objek yang disimpan oleh program terakhir daripada fail.
import pickle with open('pickled_demo.pkl', 'rb') as file: pickled_data = pickle.load(file) # 下载被打开被读取到的数据
Operasi yang sepadan ialah menulis kaedah pickle.dump().
Fail HDF5 ialah fail storan data merentas platform yang boleh menyimpan pelbagai jenis imej dan data digital serta boleh dipindahkan pada jenis mesin yang berbeza perpustakaan fungsi yang mengendalikan format fail ini secara seragam.
Fail HDF5 biasanya mempunyai .h5 atau .hdf5 sebagai akhiran dan perisian khas diperlukan untuk membuka kandungan fail pratonton.
import h5py filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5' data = h5py.File(filename, 'r')
Ia ialah fail dengan akhiran .mat di mana matlab menyimpan data dalam ruang kerjanya.
import scipy.io filename = 'workspace.mat' mat = scipy.io.loadmat(filename)
from sqlalchemy import create_engine engine = create_engine('sqlite://Northwind.sqlite')
Gunakan kaedah table_names() untuk mendapatkan senarai nama jadual
table_names = engine.table_names()
con = engine.connect() rs = con.execute("SELECT * FROM Orders") df = pd.DataFrame(rs.fetchall()) df.columns = rs.keys() con.close()
Gunakan pengurus konteks -- dengan
with engine.connect() as con: rs = con.execute("SELECT OrderID FROM Orders") df = pd.DataFrame(rs.fetchmany(size=5)) df.columns = rs.keys()
df = pd.read_sql_query("SELECT * FROM Orders", engine)
Selepas data diimport, data akan diterokai pada mulanya , seperti menyemak jenis data Beberapa maklumat asas seperti saiz dan panjang data. Berikut adalah ringkasan ringkas.
data_array.dtype# 数组元素的数据类型 data_array.shape# 阵列尺寸 len(data_array) # 数组的长度
Atas ialah kandungan terperinci Lapan kaedah import data Python, adakah anda telah menguasainya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!