在数据分析和预处理中,经常需要将连续的数值数据离散化,即将其划分为不同的区间或类别。例如,将销售额划分为“低”、“中”、“高”三个等级,或者将年龄划分为“儿童”、“青少年”、“成年”等组。手动编写一系列的if-elif条件判断虽然可以实现这一目标,但当区间复杂、数据量大或需要动态调整时,这种方法会变得冗长、易错且难以维护。pandas库提供了pd.cut函数,专为解决此类问题而设计,它提供了一种简洁、高效且鲁棒的方式来执行数值分箱操作。
pd.cut函数用于将数值数据划分为离散的区间。它接受一个一维数组(Series或list-like)作为输入,并根据指定的分界点(bins)将其划分为不同的类别。其核心优势在于能够灵活定义分界点和区间标签,并处理各种边界情况。
pd.cut函数有几个关键参数,理解它们对于正确使用该函数至关重要:
bins:定义分界点 这是pd.cut最重要的参数,它决定了如何划分数据。
right:区间开闭规则 这是一个布尔值,默认为True。
labels:自定义区间标签 此参数允许您为每个生成的区间分配有意义的名称。
include_lowest:包含最小值 这是一个布尔值,默认为False。
假设我们有一个包含数值列的DataFrame,我们希望将其划分为以下区间:x = 15000 and x = 30000 and x
import pandas as pd import numpy as np # 示例数据 data = [18511.18, 82000.0, 16313.97, 24771.96, 10930.93, 22163.14, 16586.07, 15766.2, 2953.53, 912.1, 531.77, 6509.83, 8634.2, 10181.41, 1495.26, 6555.12, 10523.55, 22200.0, 20230.0, 18400.0, 17999.56, 15807.29, 4794.6, 3679.48, 5667.89, 5296.92, 4848.96, 5997.53, 3286.98, 13258.53, 15400.0, 10614.2, 12235.0, 2953.35, 9699.54, 14880.0, 6295.46, 10170.0, 6824.8, 4177.87, 3005.95, 15186.45, 7649.42, 2432.2, 3081.8, 9065.42, 6033.63, 658.68, 12310.0, 650.73, 2767.09, 9770.0, 6246.9, 2175.46, 2381.98, 12460.0, 1957.37, 2613.85, 2407.9, 4744.32, 4415.23, 2143.3, 1141.28, 2000.38, 1676.95, 1377.39, 54.08, 6864.97, 81.56, 96.68, 7583.0, 408.29, 1735.16, 272.49, 157.79, 689.56, 3586.12, 241.66, 103.98, 5620.0, 411.42, 387.96, 815.18, 536.82, 3019.5, 160.92, 315.58, 256.23, 7063.96, 10200.0, 244.01, 6199.32, 936.79, 5838.78, 8070.0, 8760.7, 4334.65, 2646.84, 900.38, 5197.19, 5450.15, 5447.3, 4961.8, 2266.28, 1675.23, 6029.51, 2066.14, 4616.34, 1437.3, 4819.49, 4470.0, 1860.66, 4040.11, 1502.95, 467.3, 251.98, 3200.53, 1499.83, 459.38, 4862.74, 2171.43, 1237.1, 2067.19, 1202.94, 3830.47, 4228.93, 6100.0, 1229.15, 3513.0, 3050.0, 3910.0, 510.05, 5201.09, 962.85, 603.92, 1237.42, 63.72, 2613.54, 319.45, 5415.0, 1425.98, 5518.09, 3646.13, 2269.72, 2804.19, 1747.12, 2646.87, 284.56, 2135.46, 3602.5, 4965.06, 508.76, 141.52, 214.94, 4320.0, 259.0, 295.75, 4955.0, 1379.58, 3730.45, 6000.0, 523.05, 1310.22, 842.35, 3319.75, 2674.75, 141.2, 1877.21, 389.7, 5547.56, 1030.0, 1206.64, 135.52, 1770.2, 4840.0, 687.53, 3412.44, 2972.23, 864.67, 3735.4, 1135.16, 669.1, 501.3, 160.23, 200.19, 1015.28, 1100.0, 244.32, 496.95, 3209.62, 1920.15, 1815.75, 2611.77, 2176.35, 1683.95, 4945.8, 781.36, 4005.25, 553.72, 514.29] df = pd.DataFrame({"numerical_variable": data}) # 定义分界点和标签 # 注意:bins的第一个值应小于或等于数据最小值,最后一个值应大于或等于数据最大值 # 为了覆盖 x < 15000,我们将起始点设为0(或更小) bins = [0, 15000, 30000, 45000, np.inf] # 使用np.inf表示正无穷,确保所有大于45000的值被捕获 labels = [ "x < 15000", "x >= 15000 and x < 30000", "x >= 30000 and x < 45000", "x >= 45000" # 新增一个区间来覆盖大于45000的值 ] # 使用pd.cut进行分箱 # right=False 表示区间是左闭右开 [a, b) # include_lowest=True 确保最小值(0)被包含在第一个区间内 df['FASCIA_IMPORTO'] = pd.cut( df['numerical_variable'], bins=bins, right=False, labels=labels, include_lowest=True # 确保数据中的最小值(例如,1)被包含在第一个区间 [0, 15000) 中 ) # 查看结果 print(df.head(10)) print("\n各区间分布统计:") print(df['FASCIA_IMPORTO'].value_counts().sort_index())
示例输出(部分):
numerical_variable FASCIA_IMPORTO 0 18511.18 x >= 15000 and x < 30000 1 82000.00 x >= 45000 2 16313.97 x >= 15000 and x < 30000 3 24771.96 x >= 15000 and x < 30000 4 10930.93 x < 15000 5 22163.14 x >= 15000 and x < 30000 6 16586.07 x >= 15000 and x < 30000 7 15766.20 x >= 15000 and x < 30000 8 2953.53 x < 15000 9 912.10 x < 15000 各区间分布统计: FASCIA_IMPORTO x < 15000 167 x >= 15000 and x < 30000 12 x >= 30000 and x < 45000 0 x >= 45000 1 Name: count, dtype: int64
从输出可以看出,即使存在某个区间(如x >= 30000 and x
pd.cut是Pandas库中一个强大且实用的工具,它极大地简化了数值数据分箱的任务。通过灵活配置bins、right和labels等参数,用户可以轻松地将连续数据转换为有意义的离散类别,从而为后续的数据分析和建模提供便利。掌握pd.cut的使用,能够显著提升数据处理的效率和代码的健壮性。
以上就是使用Pandas进行数值列分段:pd.cut详解的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 //m.sbmmt.com/ All Rights Reserved | php.cn | 湘ICP备2023035733号