Skip to main content

分类在数据挖掘中的应用

11、面向应用的数据挖掘算法分类 (六月 2025)

11、面向应用的数据挖掘算法分类 (六月 2025)
Anonim

分类是一种数据挖掘技术,可将类别分配给数据集合,以帮助进行更准确的预测和分析。有时也称为a 决策树 ,分类是旨在使非常大的数据集的分析有效的几种方法之一。

为何分类?

非常大的数据库正在成为当今世界的常态 大数据 。想象一下拥有多TB数据的数据库 - 一个TB就是一个数据库 兆 数据字节。

Facebook每天都会处理600TB的新数据(截至2014年,这是它最后一次报告这些规格)。大数据的主要挑战是如何理解它。

纯粹的数量不是唯一的问题:大数据也往往是多样化的,非结构化的和快速变化的。考虑音频和视频数据,社交媒体帖子,3D数据或地理空间数据。这类数据不易分类或组织。

为了应对这一挑战,已经开发了一系列用于提取有用信息的自动方法 分类 .

分类如何运作

冒着进入技术领域的危险,让我们讨论分类如何运作。目标是创建一组分类规则来回答问题,做出决定或预测行为。首先,开发一组训练数据,其中包含一组特定属性以及可能的结果。

分类算法的工作是发现该组属性如何达到其结论。

脚本:也许信用卡公司正试图确定哪些潜在客户应该获得信用卡优惠。

这可能是一组训练数据:

培训数据
名称年龄性别年收入信用卡优惠
约翰·多伊25中号$39,500没有
简·多伊56F$125,000

“预测”栏目 年龄 , 性别 ,和 年收入 确定“预测属性”的值 信用卡优惠 。在训练集中,预测变量属性是已知的。然后分类算法尝试确定如何达到预测变量属性的值:预测变量和决策之间存在什么关系?它将开发一组预测规则,通常是IF / THEN语句,例如:

IF(年龄> 18岁或年龄<75岁)和年收入> 40,000然后信用卡优惠=是

显然,这是一个简单的例子,算法需要比这里显示的两个记录大得多的数据采样。此外,预测规则可能要复杂得多,包括捕获属性细节的子规则。

接下来,算法被给予要分析的数据的“预测集”,但是这个集缺少预测属性(或决定):

预测数据
名称年龄性别年收入信用卡优惠
杰克弗罗斯特42中号$88,000
玛丽默里16F$0

此预测变量数据有助于估计预测规则的准确性,然后调整规则,直到开发人员认为预测有效且有用。

日常分类示例

分类和其他数据挖掘技术是我们作为消费者的日常经验的背后。

天气预报可能会利用分类来报告这一天是下雨,晴天还是阴天。医学界可能会分析健康状况以预测医疗结果。一种分类方法,Naive Bayesian,使用条件概率对垃圾邮件进行分类。从欺诈检测到产品报价,每天都在分析数据和产生预测的分类。