Comment lire un ensemble de données en Python : utilisez Pandas pour lire dans une table de données en utilisant pd.read_csv(), pd.read_excel() ou pd.read_json(). Utilisez NumPy pour lire des tableaux multidimensionnels à l'aide de np.genfromtxt(). Utilisez scikit-learn pour charger des ensembles de données standard à l'aide de datasets.load_digits() ou datasets.load_iris(). D'autres méthodes incluent l'utilisation des modules csv et json de Python et des bibliothèques tierces telles que xlrd.
Comment lire un ensemble de données en Python
En apprentissage automatique et en science des données, la lecture et le traitement des ensembles de données sont cruciaux. Python fournit une variété de bibliothèques et de fonctions qui rendent ce processus simple et efficace.
1. Utiliser Pandas
La bibliothèque Pandas fournit des méthodes puissantes pour lire et manipuler des tableaux de données. Pour lire un ensemble de données à l'aide de Pandas, suivez les étapes suivantes :
<code class="python">import pandas as pd # 从 CSV 文件读取数据集 df = pd.read_csv('data.csv') # 从 Excel 文件读取数据集 df = pd.read_excel('data.xlsx') # 从 JSON 文件读取数据集 df = pd.read_json('data.json')</code>
2. Utilisation de NumPy
La bibliothèque NumPy fournit des méthodes pour lire et manipuler des tableaux multidimensionnels. Pour lire un ensemble de données à l'aide de NumPy, suivez les étapes suivantes :
<code class="python">import numpy as np # 从 CSV 文件读取数据集 data = np.genfromtxt('data.csv', delimiter=',') # 从 Excel 文件读取数据集 data = np.genfromtxt('data.xlsx', delimiter=',', skip_header=1)</code>
3. Utilisation de scikit-learn
La bibliothèque scikit-learn fournit des méthodes pratiques pour lire et charger divers ensembles de données. Pour charger un ensemble de données à l'aide de scikit-learn, suivez les étapes suivantes :
<code class="python">from sklearn import datasets # 加载内置数据集 digits = datasets.load_digits() # 加载第三方数据集 iris = datasets.load_iris()</code>
4 Autres méthodes
En plus des bibliothèques ci-dessus, il existe d'autres façons de lire l'ensemble de données, telles que :
Choisissez la méthode appropriée
Laquelle un choix La méthode utilisée pour lire un ensemble de données dépend du format, de la taille et des opérations requises de l'ensemble de données. Si vous devez travailler avec des tableaux de données, Pandas est un bon choix. Si vous devez travailler avec des tableaux multidimensionnels, NumPy peut répondre à vos besoins. scikit-learn est idéal pour charger des ensembles de données standard.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!