• 技术文章 >常见问题

    什么是数据挖掘?

    青灯夜游青灯夜游2020-07-24 11:53:14原创1214

    数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。

    数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

    数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

    数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,该过程包括一系列转换步骤, 从数据的预处理到数据挖掘结果的后处理。

    1.jpg

    数据挖掘的起源

    来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据 类型的更有效的、可伸缩的工具。这些工作都是建立在研究者先前使用的方法学和算法之上,而在数据挖掘领域达到高潮。

    特别地,数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法建模技术和学习理论。

    数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。

    一些其他领域也起到重要的支撑作用。数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

    2.jpg

    KDD(Knowledge Discovery from Database)

    3.jpg

    数据挖掘方法论

    4.jpg

    数据挖掘任务

    通常,数据挖掘任务分为下面两大类。

    预测建模(predictivemodeling) 涉及以说明变量函数的方式为目标变量建立模型。

    有两类预测建模任务:分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。

    例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。

    两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。

    关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

    所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。

    聚类分析(cluster analysis)旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比, 属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响 地球气候的海洋区域以及压缩数据等。

    异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。

    这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。

    异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。

    更多相关知识,请访问:PHP中文网

    以上就是什么是数据挖掘?的详细内容,更多请关注php中文网其它相关文章!

    声明:本文原创发布php中文网,转载请注明出处,感谢您的尊重!如有疑问,请联系admin@php.cn处理
    专题推荐:数据挖掘
    上一篇:数据是什么意思? 下一篇:门禁系统的指纹识别功能所运用的计算机技术是什么
    大前端线上培训班

    相关文章推荐

    • 数据挖掘的常见方法• 漫谈数据挖掘从入门到进阶• 深入分析python数据挖掘 Json结构分析• 数据挖掘用什么软件• python数据挖掘需要学什么

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网