文章专题 AI工具学习下载问答源码最近更新

PHP

会员中心讲师中心微信公众号

首页 > 科技周边 > 人工智能 > 正文

机器学习回归模型相关重要知识点总结

WBOY

发布： 2023-04-08 19:01:04

转载

2143人浏览过

1、线性回归的假设是什么？

线性回归有四个假设：

线性：自变量（x）和因变量（y）之间应该存在线性关系，这意味着x值的变化也应该在相同方向上改变y值。
独立性：特征应该相互独立，这意味着最小的多重共线性。
正态性：残差应该是正态分布的。
同方差性：回归线周围数据点的方差对于所有值应该相同。

2、什么是残差，它如何用于评估回归模型？

残差是指预测值与观测值之间的误差。它测量数据点与回归线的距离。它是通过从观察值中减去预测值的计算机。

残差图是评估回归模型的好方法。它是一个图表，在垂直轴上显示所有残差，在 x 轴上显示特征。如果数据点随机散布在没有图案的线上，那么线性回归模型非常适合数据，否则我们应该使用非线性模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

3、如何区分线性回归模型和非线性回归模型？

两者都是回归问题的类型。两者的区别在于他们训练的数据。

线性回归模型假设特征和标签之间存在线性关系，这意味着如果我们获取所有数据点并将它们绘制成线性（直线）线应该适合数据。

非线性回归模型假设变量之间没有线性关系。非线性（曲线）线应该能够正确地分离和拟合数据。

机器学习回归模型相关重要知识点总结

找出数据是线性还是非线性的三种最佳方法 -

残差图
散点图
假设数据是线性的，训练一个线性模型并通过准确率进行评估。

4、什么是多重共线性，它如何影响模型性能？

当某些特征彼此高度相关时，就会发生多重共线性。相关性是指表示一个变量如何受到另一个变量变化影响的度量。

如果特征 a 的增加导致特征 b 的增加，那么这两个特征是正相关的。如果 a 的增加导致特征 b 的减少，那么这两个特征是负相关的。在训练数据上有两个高度相关的变量会导致多重共线性，因为它的模型无法在数据中找到模式，从而导致模型性能不佳。所以在训练模型之前首先要尽量消除多重共线性。

5、异常值如何影响线性回归模型的性能？

异常值是值与数据点的平均值范围不同的数据点。换句话说，这些点与数据不同或在第 3 标准之外。

机器学习回归模型相关重要知识点总结

线性回归模型试图找到一条可以减少残差的最佳拟合线。如果数据包含异常值，则最佳拟合线将向异常值移动一点，从而增加错误率并得出具有非常高 MSE 的模型。

6、什么是 MSE 和 MAE 有什么区别？

MSE 代表均方误差，它是实际值和预测值之间的平方差。而 MAE 是目标值和预测值之间的绝对差。

MSE 会惩罚大错误，而 MAE 不会。随着 MSE 和 MAE 的值都降低，模型趋向于一条更好的拟合线。

7、L1 和 L2 正则化是什么，应该在什么时候使用？

在机器学习中，我们的主要目标是创建一个可以在训练和测试数据上表现更好的通用模型，但是在数据非常少的情况下，基本的线性回归模型往往会过度拟合，因此我们会使用 l1 和l2 正则化。

L1 正则化或 lasso 回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。有助于通过删除斜率值小于阈值的所有数据点来去除异常值。

L2 正则化或ridge 回归增加了相当于系数大小平方的惩罚项。它会惩罚具有较高斜率值的特征。

l1 和 l2 在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。

8、异方差是什么意思？

它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。它导致残差的不均匀分散。如果它存在于数据中，那么模型倾向于预测无效输出。检验异方差的最好方法之一是绘制残差图。

数据内部异方差的最大原因之一是范围特征之间的巨大差异。例如，如果我们有一个从 1 到 100000 的列，那么将值增加 10% 不会改变较低的值，但在较高的值时则会产生非常大的差异，从而产生很大的方差差异的数据点。

9、方差膨胀因子的作用是什么的作用是什么？

方差膨胀因子（vif）用于找出使用其他自变量可预测自变量的程度。

让我们以具有 v1、v2、v3、v4、v5 和 v6 特征的示例数据为例。现在，为了计算 v1 的 vif，将其视为一个预测变量，并尝试使用所有其他预测变量对其进行预测。

如果 VIF 的值很小，那么最好从数据中删除该变量。因为较小的值表示变量之间的高相关性。

10、逐步回归(stepwise regression)如何工作?

逐步回归是在假设检验的帮助下，通过移除或添加预测变量来创建回归模型的一种方法。它通过迭代检验每个自变量的显著性来预测因变量，并在每次迭代之后删除或添加一些特征。它运行n次，并试图找到最佳的参数组合，以预测因变量的观测值和预测值之间的误差最小。

它可以非常高效地管理大量数据，并解决高维问题。

11、除了MSE 和 MAE 外回归还有什么重要的指标吗？

我们用一个回归问题来介绍这些指标，我们的其中输入是工作经验，输出是薪水。下图显示了为预测薪水而绘制的线性回归线。

1、平均绝对误差（MAE）：

平均绝对误差 (MAE) 是最简单的回归度量。它将每个实际值和预测值的差值相加，最后除以观察次数。为了使回归模型被认为是一个好的模型，MAE 应该尽可能小。

MAE的优点是：

简单易懂。结果将具有与输出相同的单位。例如：如果输出列的单位是 LPA，那么如果 MAE 为 1.2，那么我们可以解释结果是 +1.2LPA 或 -1.2LPA，MAE 对异常值相对稳定（与其他一些回归指标相比，MAE 受异常值的影响较小）。

MAE的缺点是：

MAE使用的是模函数，但模函数不是在所有点处都可微的，所以很多情况下不能作为损失函数。

2、均方误差（MSE）：

MSE取每个实际值和预测值之间的差值，然后将差值平方并将它们相加，最后除以观测数量。为了使回归模型被认为是一个好的模型，MSE 应该尽可能小。

MSE的优点：平方函数在所有点上都是可微的，因此它可以用作损失函数。

MSE的缺点：由于 MSE 使用平方函数，结果的单位是输出的平方。因此很难解释结果。由于它使用平方函数，如果数据中有异常值，则差值也会被平方，因此，MSE 对异常值不稳定。

3、均方根误差 (RMSE)：

均方根误差（RMSE）取每个实际值和预测值之间的差值，然后将差值平方并将它们相加，最后除以观测数量。然后取结果的平方根。因此，RMSE 是 MSE 的平方根。为了使回归模型被认为是一个好的模型，RMSE 应该尽可能小。

RMSE 解决了 MSE 的问题，单位将与输出的单位相同，因为它取平方根，但仍然对异常值不那么稳定。

上述指标取决于我们正在解决的问题的上下文，我们不能在不了解实际问题的情况下，只看 MAE、MSE 和 RMSE 的值来判断模型的好坏。

4、R2 score:

如果我们没有任何输入数据，但是想知道他在这家公司能拿到多少薪水，那么我们能做的最好的事情就是给他们所有员工薪水的平均值。

R2 score 给出的值介于 0 到 1 之间，可以针对任何上下文进行解释。它可以理解为是拟合度的好坏。

SSR 是回归线的误差平方和，SSM 是均线误差的平方和。我们将回归线与平均线进行比较。

如果 R2 得分为 0，则意味着我们的模型与平均线的结果是相同的，因此需要改进我们的模型。
如果 R2 得分为 1，则等式的右侧部分变为 0，这只有在我们的模型适合每个数据点并且没有出现误差时才会发生。
如果 R2 得分为负，则表示等式右侧大于 1，这可能发生在 SSR > SSM 时。这意味着我们的模型比平均线最差，也就是说我们的模型还不如取平均数进行预测

如果我们模型的 R2 得分为 0.8，这意味着可以说模型能够解释 80% 的输出方差。也就是说，80%的工资变化可以用输入(工作年限)来解释，但剩下的20%是未知的。

如果我们的模型有2个特征，工作年限和面试分数，那么我们的模型能够使用这两个输入特征解释80%的工资变化。

R2的缺点:

随着输入特征数量的增加，R2会趋于相应的增加或者保持不变，但永远不会下降，即使输入特征对我们的模型不重要(例如，将面试当天的气温添加到我们的示例中，R2是不会下降的即使温度对输出不重要)。

5、Adjusted R2 score:

上式中R2为R2，n为观测数(行)，p为独立特征数。Adjusted R2解决了R2的问题。

当我们添加对我们的模型不那么重要的特性时，比如添加温度来预测工资.....

当添加对模型很重要的特性时，比如添加面试分数来预测工资……

以上就是回归问题的重要知识点和解决回归问题使用的各种重要指标的介绍及其优缺点，希望对你有所帮助。

以上就是机器学习回归模型相关重要知识点总结的详细内容，更多请关注php中文网其它相关文章！

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：51CTO.COM网

上一篇：2022年五大ERP趋势及其对IT领导者的影响下一篇：「电子鼻」鉴别威士忌准确率高达96%，网友：给茅台也整一个

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

代码风格不一致？NextcloudCodingStandard帮你统一PHP代码风格

2025-08-25 14:48:19
Mac玩《荒野狼生活模拟器》教程：苹果电脑畅玩iOS手游指南

2025-08-25 12:01:28
告别乱码和显示难题：Spatie/Emoji让你的PHP应用轻松玩转表情符号

2025-08-25 11:46:13
如何解决在Pantheon上修改代码后无法同步到GitHub的问题：QuicksilverPushback助你轻松同步

2025-08-25 11:06:03
如何避免项目依赖技术债？ecoapm/libyear帮你量化依赖新鲜度

2025-08-25 10:48:15
如何高效聚合和发布多源内容？debril/feed-io助你轻松构建内容中心

2025-08-24 11:54:02
批量更新Laravel模型：iksaku/laravel-mass-update助你优化数据库操作

2025-08-24 11:42:17
如何确保你的PHP项目依赖安全？使用Composer和SecurityChecker轻松解决潜在漏洞

2025-08-24 11:30:03
使用cmixin/business-time轻松处理Carbon的工作时间和节假日

2025-08-24 11:28:02
如何优雅地解析带有元数据的Markdown文件？mnapoli/front-yaml助你轻松管理内容与配置

2025-08-24 11:14:03

最新问题

华为再造爆款尚界H5被曝月销目标2万明年推两款新车近日，有消息称，上汽集团与华为已为全新品牌尚界旗下的首款车型H5设定了清晰的销售目标：月销量冲击2万辆，并已向供应链发出年销40万辆的备料计划，为后续车型的推出打下基础。据了解，尚界品牌还将在明年陆续发布两款新车型，涵盖一款轿车和一款SUV，其中SUV车型预计于明年上半年正式亮相。尚界H5在8月25日举行的鸿蒙智行秋季新品发布会上，华为常务董事、终端BG董事长余承东正式揭晓了尚界H5的预售价格——16.98万元起。该车定位于中型新能源SUV，提供纯电和增程两种动力选择，全系标配华为ADS4级智能

2025-08-26 12:36:30

789

余承东称智界新S7运动套件免费送 8月25日，鸿蒙智行于成都举办智界及问界秋季新品发布会，正式推出全新智界R7与智界新S7，起售价分别为24.98万元和22.98万元。发布会上，华为常务董事、终端BGCEO余承东宣布，价值1万元的智界新S7高颜值运动套件将限时免费赠送，此消息一经发布，迅速引发市场热烈反响。截至目前，新款智界车型的小订订单已突破52000台，展现出强劲的市场吸引力。在当前20万元级轿车市场中，全新智界新S7被定位为“最强智慧轿车”。该车不仅在外观设计与智能科技体验上实现全面进化，更在智能驾驶领域实现越级配置，全系

2025-08-26 12:30:01

564

1-7月中型SUV累计销量TOP100：特斯拉Model Y领跑 8月25日，中汽数研公布了2025年1月至7月国内中型SUV累计销量榜单。数据显示，特斯拉ModelY以202,257辆的销售成绩高居榜首，虽同比下滑17.1%，仍强势领跑中型SUV市场。特斯拉ModelY统计指出，2025年前七个月，国内乘用车市场零售总量达1274.0万辆，同比增长10.2%。其中，中型SUV品类累计销量为195.2万辆，增幅达11.9%。在销量排名前100的中型SUV中，位居前十的车型依次为：上汽大众途观L（107,730辆）、奇瑞瑞虎8（104,511辆）、一汽-大众探岳

2025-08-26 11:38:39

457

有一款Agent，悄悄让你变成个人导演你是否也曾被脑海中一闪而过的视频创意所吸引，却因复杂的剪辑流程望而却步？是否梦想过，只需轻声说出想法，就能让AI为你自动呈现一部堪比电影的视觉作品？当AI已经能轻松撰写文档、编写程序、设计PPT时，视频生成领域却始终进展缓慢。如今，这一切正被一个名为VideoOcean的AI智能体彻底改写。无需精通剪辑软件，不必购置专业设备，甚至不需要掌握构图与光影技巧，一句话，就能生成媲美好莱坞的短片。为什么在AI技术飞速发展的今天，视频生成依然是最难突破的关卡？VideoOcean又是如何将这个曾经遥不可及

2025-08-26 11:34:00

822

问小白o4— 问小白推出的首个并行思考模型问小白o4是国内首个支持并行思考的人工智能模型，能够同时激活8条独立的思维路径，在多维度分析中自动甄别并输出最优解答，显著提升回答的准确性与效率。该模型融合了Long‑CoT强化学习与过程奖励学习技术，具备强大的深度推理能力与高质量思考链筛选机制。在处理复杂任务时表现尤为突出，打字响应速度相较DeepSeekR1提升高达70%，整体性能超越OpenAIo3-mini-medium及ClaudeOpus4等主流模型。问小白o4广泛适用于学科解题、代码编写与智能搜索场景，有效降低幻觉发生率，提供更可

2025-08-26 11:12:42

639

电池安全再升级问界M8纯电版重构高端新能源全维实力　　2025年上半年，中国新能源汽车市场延续了高歌猛进的态势。乘联会数据显示，国内新能源乘用车批发量达到545.8万辆，同比增长33%；其中纯电车型贡献了376.2万辆，增速达到37.6%，在新能源总量中的占比超过六成。这一数字不仅意味着新能源车市的规模化扩张，更象征着用户对纯电车型的接受度与信赖感正在快速提升。同时，全国新能源车渗透率已逼近52–53%，这意味着市场已从政策驱动转向消费驱动，新能源汽车成为主流选择。　　QuestMobile数据显示，截至2025年上半年，纯电活跃用户规模已突破

2025-08-26 11:10:33

816

ComoRAG— 华南理工联合微信推出的认知启发式RAG框架 ComoRAG是由华南理工大学未来技术学院与微信AI团队等机构共同研发的一种认知启发式的检索增强生成（RAG）框架，专注于提升模型对长篇叙事文本的理解与推理能力。该框架受人类大脑前额叶皮层工作机制的启发，引入动态记忆工作空间和迭代推理机制，能够将分散的文本证据逐步整合为统一、连贯的上下文表示，从而实现具备状态记忆的深度叙事推理。在多个长文本理解基准测试中，ComoRAG在处理需要全局视角的复杂查询时表现突出，显著优于传统静态检索方法。ComoRAG的核心功能长文本叙事解析：擅长处理包含多角色、多

2025-08-26 10:56:12

918

22.98万元起！新款智界R7/S7上市1小时大定突破5000台 8月25日，智界汽车官方发布消息，新款智界R7与智界S7在上市仅1小时内，大定订单数突破5000台。新款智界R7在智界与问界联合举办的秋季新品发布会上，新款智界R7和S7正式登场。凭借华为ADS4.0智能驾驶辅助系统、车外语音控制车辆等前沿科技配置，两款新车迅速成为行业热议的焦点。据悉，自8月8日开启预售以来，新款智界R7和S7仅用8小时累计订单便突破2万台。截至目前，小订总量已超过52000台。此次上市首小时大定即破5000台，进一步印证了其强劲的市场热度。其中，新款智界R7的起售价为24.9

2025-08-26 10:56:01

994

智界双子星焕新上市：智界R7售价24.98万元起智界新S7售价22.98万元起新款智界R7与智界新S7迎来全面焕新，带来颜值、舒适、智能与性能的四大升级。新增后向高精度固态激光雷达与4D毫米波雷达，搭载最新HUAWEIADS4系统，智能出行体验实现全面跃升，为年轻用户及家庭用户提供更具价值的智能出行新选择。其中，智界R7定位25万级SUV优选，起售价24.98万元；智界新S7起售价22.98万元。首销期间，订购智界R7可享至高43000元购车权益，订购智界新S7更可享至高53000元权益。发布会上，智界品牌大使刘亦菲分享了她的使用感受，称赞“KK前备箱”设计巧妙，零重力座

2025-08-26 10:52:11

641

7月及1-7月江浙沪地区车型销量榜：小米SU7双榜第二小米SU78月25日，有汽车媒体公布了2025年7月及1-7月江浙沪地区车型销量TOP20榜单。数据显示，小米SU7在该区域表现抢眼，分别以8010辆的单月销量和58138辆的累计销量，成功斩获双榜亚军。在2025年7月的区域销量榜单中，特斯拉ModelY以10420辆的成绩继续领跑，小米SU7以8010辆位居次席，吉利星愿则以7605辆位列第三。榜单前五名中，新能源车型占据主导地位，问界M8和小鹏MONAM03分别以4719辆和4534辆排在第四、第五。大众途观L、宝马3系等燃油车型虽仍在榜，

2025-08-26 10:44:29

817

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

PHP中文网抖音号: 发现有趣的

Copyright 2014-2025 //m.sbmmt.com/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部