从数据到策略：统计数据如何推动值得信赖的营销决策-Python教程-PHP中文网

统计是一个强大的工具，使我们能够解决复杂的问题并回答第一次观察数据或模式时出现的问题。一个例子是分析超市顾客的个性。诸如这个群体真的与其他群体不同吗？到什么程度呢？我应该更多地关注这个群体以改善他们的体验和我的销售吗？他们是做出正确决策的关键。

虽然可视化可以帮助我们快速理解数据，但它们并不总是 100% 可靠。我们可以观察到各组之间存在明显差异，但这些差异可能不具有统计显着性。

这就是统计数据发挥作用的地方：它不仅帮助我们更深入地分析数据，而且让我们有信心验证我们的假设。作为数据科学家或决策专业人士，我们必须意识到不正确的分析可能会导致错误的决策，从而导致时间和金钱的损失。因此，我们的结论必须有根据、有统计证据支持，这一点至关重要。

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

当我们看到分析结果反映在公司内部的有效变革、客户体验的改善以及最终对销售和运营的积极影响时，真正的满意度就会出现。 参与这个过程的感觉真是难以置信！

为了帮助您发展这项技能，我们将在这篇文章中开发超市顾客的性格分析，我们将使用 Kaggle 数据集客户性格分析：https://www.kaggle.com/datasets/ imakash3011/客户个性分析

在此分析中，我们将探索超市顾客的行为，目的是从数据中提取有价值的信息。我们将寻求回答以下问题：

教育的总支出有显着差异吗？
儿童人数的总支出是否存在显着差异？
按婚姻状况划分的总支出有显着差异吗？

虽然这个分析可以进一步扩展，但我们将专注于回答这三个问题，因为它们提供了很强的解释力。在整篇文章中，我们将向您展示如何解决这些问题，以及如何通过相同的方法回答更多问题。

在本文中，我们将探讨统计分析，例如 Kolmogorov-Smirnov 检验、Levene 检验，以及如何知道何时应用 ANOVA 或克鲁斯卡尔-沃利斯。这些名字你可能会觉得陌生，但是不用担心，我会用简单的方式解释它们，以便你轻松理解它们。

接下来，我将向您展示 Python 代码以及有效执行这些统计分析所需遵循的步骤。

1. 入门

我们导入必要的 Python 库。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登录后复制

现在我们可以选择两种方式上传.csv文件，直接获取文件或者我们可以在下载按钮上获取kaggle链接。

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登录后复制

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登录后复制

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登录后复制

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

登录后复制

	ID	Year_Birth	Education	Marital_Status	Income	Kidhome	Teenhome	Dt_Customer	Recency	MntWines	MntFruits	MntMeatProducts	MntFishProducts	MntSweetProducts	MntGoldProds	NumDealsPurchases	NumWebPurchases	NumCatalogPurchases	NumStorePurchases	NumWebVisitsMonth	Z_CostContact	Z_Revenue	Response
0	5524	1957	Graduation	Single	58138.0	0	0	04-09-2012	58	635	88	546	172	88	88	3	8	10	4	7	3	11	1
1	2174	1954	Graduation	Single	46344.0	1	1	08-03-2014	38	11	1	6	2	1	6	2	1	1	2	5	3	11	0
2	4141	1965	Graduation	Together	71613.0	0	0	21-08-2013	26	426	49	127	111	21	42	1	8	2	10	4	3	11	0

为了更好地了解我们将分析的数据集，我将指出每列的含义。

列：

人：
- ID：客户端的唯一标识符
- Year_Birth： 客户的出生年份。
- 教育： 客户的教育水平。
- Marital_Status： 客户的婚姻状况
- 收入：客户家庭的年收入
- Kidhome： 客户家中的儿童数量
- 青少年之家： 客户家中青少年的数量
- Dt_Customer:客户在公司注册日期
- 新近度： 自客户上次购买以来的天数。
- 投诉： 如果客户在过去 2 年内投诉过，则为 1，否则为 0
产品：
- MntWines：过去 2 年在葡萄酒上花费的金额。
- MntFruits： 过去 2 年在水果上花费的金额。
- MntMeatProducts： 过去 2 年在肉类上的花费。
- MntFishProducts： 过去 2 年在鱼上花费的金额。
- MntSweetProducts： 过去 2 年在糖果上花费的金额。
- MntGoldProds：过去 2 年在黄金上花费的金额。
促销：
- NumDealsPurchases： 折扣购买数量。
- AcceptedCmp1： 如果客户在第一个活动中接受了优惠，则为 1，否则为 0。
- AcceptedCmp2： 如果客户在第二次活动中接受了优惠，则为 1，否则为 0。
- AcceptedCmp3： 如果客户在第三次活动中接受了优惠，则为 1，否则为 0。
- AcceptedCmp4： 如果客户在第四次活动中接受了优惠，则为 1，否则为 0。
- AcceptedCmp5： 如果客户在第五次活动中接受了优惠，则为 1，否则为 0。
- 响应： 如果客户在上次活动中接受了优惠，则为 1，否则为 0
地点：
- NumWebPurchases： 通过公司网站进行的购买数量。
- NumCatalogPurchases： 通过目录进行的购买数量。
- NumStorePurchases： 直接在商店购买的数量。
- NumWebVisitsMonth： 上个月公司网站的访问次数。

是的，有很多列，但这里我们只使用其中的几列，以免扩展太多，无论如何您都可以对其他列应用相同的步骤。

现在，我们将验证我们没有空数据

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登录后复制

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登录后复制

我们可以注意到，收入列中有 24 个空数据，但是此列不会用于此分析，因此我们不会对其执行任何操作，以防您想使用它，您必须验证执行以下两个选项之一：

如果缺失数据不占总数据的 5% 以上，则对缺失数据进行插补（推荐）。
删除空数据。

2. 配置数据集进行分析

我们会保留我们感兴趣的栏目，例如教育、子女、婚姻状况、每个产品类别的支出金额等等。

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

登录后复制

我们通过添加所有产品类别的费用来计算总费用。

'marketing_campaign.csv'

登录后复制

以上是从数据到策略：统计数据如何推动值得信赖的营销决策的详细内容。更多信息请关注PHP中文网其他相关文章！