统计是一个强大的工具,使我们能够解决复杂的问题并回答第一次观察数据或模式时出现的问题。一个例子是分析超市顾客的个性。诸如这个群体真的与其他群体不同吗?到什么程度呢?我应该更多地关注这个群体以改善他们的体验和我的销售吗?他们是做出正确决策的关键。
虽然可视化可以帮助我们快速理解数据,但它们并不总是 100% 可靠。我们可以观察到各组之间存在明显差异,但这些差异可能不具有统计显着性。
这就是统计数据发挥作用的地方:它不仅帮助我们更深入地分析数据,而且让我们有信心验证我们的假设。作为数据科学家或决策专业人士,我们必须意识到不正确的分析可能会导致错误的决策,从而导致时间和金钱的损失。因此,我们的结论必须有根据、有统计证据支持,这一点至关重要。
当我们看到分析结果反映在公司内部的有效变革、客户体验的改善以及最终对销售和运营的积极影响时,真正的满意度就会出现。 参与这个过程的感觉真是难以置信!
为了帮助您发展这项技能,我们将在这篇文章中开发超市顾客的性格分析,我们将使用 Kaggle 数据集客户性格分析:https://www.kaggle.com/datasets/ imakash3011/客户个性分析
在此分析中,我们将探索超市顾客的行为,目的是从数据中提取有价值的信息。我们将寻求回答以下问题:
虽然这个分析可以进一步扩展,但我们将专注于回答这三个问题,因为它们提供了很强的解释力。在整篇文章中,我们将向您展示如何解决这些问题,以及如何通过相同的方法回答更多问题。
在本文中,我们将探讨统计分析,例如 Kolmogorov-Smirnov 检验、Levene 检验,以及如何知道何时应用 ANOVA 或克鲁斯卡尔-沃利斯。这些名字你可能会觉得陌生,但是不用担心,我会用简单的方式解释它们,以便你轻松理解它们。
我们导入必要的 Python 库。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
现在我们可以选择两种方式上传.csv文件,直接获取文件或者我们可以在下载按钮上获取kaggle链接。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
为了更好地了解我们将分析的数据集,我将指出每列的含义。
列:
人:
产品:
促销:
地点:
是的,有很多列,但这里我们只使用其中的几列,以免扩展太多,无论如何您都可以对其他列应用相同的步骤。
现在,我们将验证我们没有空数据
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我们可以注意到,收入列中有 24 个空数据,但是此列不会用于此分析,因此我们不会对其执行任何操作,以防您想使用它,您必须验证执行以下两个选项之一:
我们会保留我们感兴趣的栏目,例如教育、子女、婚姻状况、每个产品类别的支出金额等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我们通过添加所有产品类别的费用来计算总费用。
'marketing_campaign.csv'
以上是从数据到策略:统计数据如何推动值得信赖的营销决策的详细内容。更多信息请关注PHP中文网其他相关文章!