数据挖掘算法常用四大类

4 篇文章 0 订阅
订阅专栏

 

一、常用算法有哪四大类

既然我们知道数据挖掘的算法是为了寻找数据中潜在的知识,那么数据挖掘的算法通常都有哪些类型呢?如果说按照这些算法所解决的问题来进行划分,大致可以分为分类问题、聚类问题、回归问题和关联分析问题。下面我们就来详细看一下。

1.分类

春天来了,我带着儿子在公园里闲逛,看到花圃里形状各异,五颜六色的小草和花朵,儿子撒开我的手蹲在那里仔细研究起来。儿子指着其中一朵黄色的花问,“爸爸,这个是什么花?”我定睛一看,这个简单,“这是郁金香。”“这个是什么花?”我回答,“这个红色的也是郁金香。”连续问了几个之后,他指着旁边的一朵说“这个也是郁金香。”

我们接着往前走,走到一片玉兰前面,儿子又问我“这树上的是什么花呀?”我说“这是玉兰花。”

上面这个人类幼崽的学习过程就是分类算法所处理的过程。分类算法就是对已经确定好结果的数据进行学习,从而对未知的新数据进行分类的算法。在这个例子中,我为部分数据提供确定的结果,儿子通过观察它们的特征和区别来对新的花朵进行判断,从而区分出一朵花是玉兰花还是郁金香花。我们前面说,数据挖掘的算法结果是不确定的,我们怎么知道学得怎么样呢?

再看看我儿子的行为,如果他没有见过其他的花,当我们看到一棵桃树的时候,他可能会指着桃花说“这个长在树上的花是玉兰花。”这就出现了欠拟合,他只通过判断是长在地上还是长在树上就决定了花的类别,这个时候我们需要告诉他更多的特征,比如说玉兰的花瓣更宽,更长之类的。

另外一种情况,他可能会指着一朵粉色的郁金香说“这个是粉色的,这个不是郁金香。”这时候就是出现了过拟合,他把条件限制得太死,这时候我们应该给他找更多郁金香,让他明白,颜色并不是判断郁金香的主要特征。

2.聚类

我们接着往前走,这时候儿子又问我“这个是什么树叶?那个是什么树叶?”我看着这些叶子,虽然它们确实不一样,可是这也超出了我的认知,我也不知道这是什么树呀。我只好跟儿子说,我也不知道这是什么树叶,不如我们把你捡的树叶分一分,然后从每一种里拿一片出来,等我们回家查查这是什么树叶。于是我跟儿子一起蹲在那里,对着之前捡的一兜树叶挑挑拣拣。这些带锯齿边的是一堆,那些小圆片是一堆,还有这种三个尖尖的是一堆,如此种种。

与分类不同,聚类算法只需要有一些数据,但是事先并不知道数据属于什么类别,通过对这些数据的学习,希望能够通过数据的差别寻找到潜在的类别,从而把已有的数据划分成几个类别,至于说这个类别具体是什么并不清楚

3.回归

从公园回家,还没进门我就已经闻到了饭菜的香味。我跟儿子说:“我们先吃饭吧,吃完再查树叶。”儿子却不同意,说:“我不饿,我不饿,我不想吃饭。”我媳妇这时候冲了出来,“饭都不爱吃,你都已经比别的小朋友矮了,真不知道你能长多高!”这个问题。我们或许可以使用回归算法来分析一下,当然我们首先需要有一些数据,假设孩子的身高可能跟父母身高、孩子的性别,等等有关系,那么我们获取一百组父母的身高和孩子的身高、孩子的性别、孩子吃多少饭、喝多少奶、有多少运动量等等数据,就可以构建一个线性方程,通过已有的数据把系数算出来,然后把我自己的数据输入到这个方程中就可以算出一个数来了。

回归的计算其实跟分类类似,都是预先已经有了特征数据和结果数据,只不过分类的结果是一个确定的标签,而回归的结果是一个连续型数值。很多时候,我们甚至可以在回归方法和分类方法之间进行转化

4.关联分析

正当我还在思索孩子能长多高的时候,我媳妇又说:“他不吃饭那就冲点奶粉喝吧,奶粉快喝完了,你去某东上买点。”于是我打开了某东的 App,搜索了奶粉,正当我准备下单的时候,下面弹出了一个优惠信息:买了该奶粉的人还买了 xxx 尿不湿,组合购买可省 xx 元,然后是一个组合链接。于是我问媳妇,“尿不湿还够不够,需不需要买了,这个一起买能便宜一点。”接下来,就是我买了一桶奶粉,两包尿不湿,通过关联分析,某东成功把我本次下单的客单价从 1xx 提升到了 2xx。

关联分析是从已知数据中寻找相关关系的一类算法,比如说我们这里的奶粉和尿不湿,只是找到这样的销售搭配关系,并把它推荐给正在购物的人,就可以提升业绩了。在商业分析,推荐系统,以及用户行为分析中,经常会用到关联分析方法。

二、不同算法适合的情况

1.分类算法

分类算法对数据的要求比较高,需要一定的数据量以及事先的标注结果,通常是要根据学习过去已有的数据,对新的数据做出类别预测,比如说给新闻分类。

常见的分类算法有最近邻算法 KNN、决策树算法、朴素贝叶斯、人工神经网络、支持向量机等等。

2.聚类算法

聚类算法也是要去划分类别,但是聚类算法对数据的要求会低一些,并不需要事先标注好的结果,而是通过算法模型来判定。聚类算法通常是针对已经确定的数据集合进行划分,比如说对于用户分群,有一堆用户的基础信息和行为数据,我们不太确定这些用户到底有多少类别,又该如何划分,这时候就可以使用聚类的方式。常见的聚类算法有 k-means 聚类、DBSCAN 聚类、SOM 聚类等等。

3.回归算法

如果你有一些数据,其中要去预测的结果并不是一个标签,而是一个连续数值,可以用一个函数近似地模拟特征与结果的关系,那么就考虑使用回归算法。比如说你知道广告投入和产品销量存在着一定的关系,通常是广告投入越大销量越高,你可以用过去几年的广告费用和产品销量构建起一个函数方程,然后把明年的广告预算放进去,就可以得到一个销量的预测值。常见的回归算法有线性回归、Logistic 回归等。

4.关联分析

关联分析主要用于寻找两个项之间的关系,并给出关联规则,比如我们提到的尿不湿和奶粉的关系,关联分析可能是需要最少人工调整的方法。常见的关联分析算法有 FP-Growth 算法和 Apriori 算法。

三、一个现实问题如何转化

只是了解了不同的算法适合解决什么问题还不足以很好地完成工作。因为在实际的工作场景下,总是存在着这样或者那样的现实问题。举个例子,比如说我们的电商网站中有很多评论信息,产品经理希望能够从评论中识别到那些不好的评价,并进行深入的分析,从而根据评价来优化商品或者服务。

第一步,我们需要找到那些“不好的评价”,这可以认为是一种文本的情感识别,所谓“不好的评价”就是带有负面情绪的评价,他可能会说产品不好,或者服务不好,甚至是破口大骂。面对这样一个问题,自然而然我们想到把这个问题转化为分类问题,把评论分成正面情绪、负面情绪和无情绪三种类别。但是需要注意的是,分类需要有事先标注的结果,那这个标注必须由人来完成,如果没有人来标注怎么办呢?首先考虑自己来标注,这个方法最简单直接,但是耗时很多。如果不想自己标注,那看看在产品形态和数据层面是否有可以利用的信息?比如说有些电商网站除了写评价以外还会让用户进行打分,一般来说不好的评价往往伴随着更低的打分,那么我们可以认为这个分值是一种弱化的标注,虽然没有直接标注来得准确,但是在没有直接标注的情况下也不失为一种方案。

如果没有可以利用的标注信息怎么办呢?那这个时候可能就要考虑用聚类方法,我们是否可以先对评论朝着这三个维度进行聚类,在获得了聚类之后再对新数据进行分类呢?当然,这里可能需要对情感相关的特征进行抽取,不然可能聚类到别的维度上面去了。

在实际的工作中,像这种问题可能会经常遇到,除去优化算法本身,还有很多的事情需要去思考、去解决。我们的目的是解决业务中的问题,提升业务指标,如何更好地利用这些算法,需要因地制宜。

总结

基础的数据挖掘算法介绍,可以说数据挖掘中的算法就是在模拟人的决策过程,从而获取数据中的知识。就像我在文中写的小例子,我观察到刚出生的孩子在观察世界时的一举一动其实与这些算法有着类似的过程,或者说这些算法本身也就是从人类认知世界的过程中抽象出来的。

数据挖掘有哪些常用的方法
中琛魔方大数据
11-03 2967
  数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。   数据挖掘之七种常用的方法:   ①分。分是找出数据库中一组数据对象的共同特点并按照分模式将其划分为不同的,其目的是通过分模型,将数据库中的数据项映射到某个给定的别。   它可以应用到客户的分、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不...
数据挖掘神经网络算法,人工神经网络分析方法
m0_54846070的博客
08-25 1568
二、如何选择适合的数据分析工具要明白分析什么数据,大数据要分析的数据主要四大:1.交易数据(TRANSACTIONDATA)大数据平台能够获取时间跨度更大、更海量的结构化交易数据,这样就可以对更广泛的交易数据型进行分析,不仅仅包括POS或电子商务购物数据,还包括行为交易数据,例如Web服务器记录的互联网点击流数据日志。聚类分析是一种探索性的分析,在分的过程中,不需要事先给出一个分的标准,聚类分析能够从样本数据出发,自动进行分。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。
数据挖掘的常见方法
weixin_33921089的博客
07-26 373
数据挖掘的常见方法基本概念数据挖掘就是从大量的、不完全的、有噪声的、模糊的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。确切地说,作为一门广义的面向应用的交叉学科,数据挖掘集成了许多学科中成熟的工具和技术,包括数据仓库技术、统计学、机器学习、模型识别、人工智能、神经网络等等。过程模型对企业来说,数据挖掘就是在“数据矿山”中找到蕴藏的“知识金块”,...
大数据技术之中的数据挖掘,经常用的挖掘方法主要有哪几种?
01-27 2597
目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法以下对这四种算法进行一一解释说明。 遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型联合等优点从而在数据挖掘中得到了应用。 决...
数据挖掘最常见的十种方法
weixin_30709635的博客
09-13 139
下面介绍十种数据挖掘(Data Mining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!(甚至有数据挖掘公司,用其中的一种算法就能独步天下)1、基于历史的MBR分析(Memory-Based Reasoning;MBR)基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找...
数据分析——四种大数据分析方法
weixin_33836223的博客
08-03 736
1.描述型分析:发生了什么? 这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。 例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。 2.诊断型分析:为什么会发生? 描述性数据分...
数据挖掘中适用于分的时序数据特征提取方法.pdf
07-14
特征提取的方法可以大致分为四大: 1. 基于基本统计方法的特征提取:这方法通常包括计算时序数据的均值、方差、最大值、最小值、极差等统计量。这方法的优点是计算简单、快速,并且不需要对数据进行复杂的...
最新数据挖掘基础(第一章)_数据挖掘 课题(2)
2301_76379606的博客
05-04 977
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。广义:数据挖掘是指知识发现的全过程狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法数据挖掘的数据源包括数据库、数据仓库、Web或其他数据存储库。知识发掘的过程如下:(1)数据准备:掌握知识发现应用领域的情况,熟悉相关的背景知识,理解用户需求。
在线数据分析四大常用功能.docx
10-26
数据挖掘是在线数据分析的另一项关键技术,它运用各种算法(如聚类、关联规则、分和回归)来发现隐藏在大量数据中的模式和规律。数据挖掘不仅可以帮助找出有价值的见解,还可以用于预测未来趋势,支持决策制定。...
面向解决复杂工程问题的“大数据与数据挖掘”教学研究.pdf
07-14
其次,大数据与数据挖掘课程具有系统性、交叉性、丰富性和伦理性四大特点。系统性体现在该领域涉及的知识体系广泛,包括但不限于数据库、数据分析、可视化、机器学习和高性能计算等。交叉性则体现在该课程融合了多个...
数据挖掘.zip
06-01
用SQLServer2012实现数据挖掘的K-means算法、Apriori算法关联规则、ALOP算法等相关挖掘算法
ETL设计之数据抽取工具
08-13
主要记录了ETL中数据抽取的一些工具,并对工具进行了一部分的对比
[DataAnalysis]数据挖掘常见的几种分算法
热门推荐
TOMACAT的博客
01-19 5万+
一、数据挖掘任务分1、预测性和描述性的主要区别在于是否有目标变量2、预测性包括分和回归:(1)分:输出变量为离散型,常见的算法包括(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林。(2)回归:输出变量为连续型。3、描述性包括聚类和关联:(1)聚类:实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。例如零售客户细分。(2)关联::指的是我们想发现数据
数据挖掘的方法有哪些?
weixin_33943836的博客
05-17 287
利用数据挖掘进行数据分析常用的方法主要有分、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。 1、分是找出数据库中一组数据对象的共同特点并按照分模式将其划分为不同的,其目的是通过分模型,将数据库中的数据项映射到某个给定的别。它可以应用到客户的分、客户的属性和特征分析、客...
数据挖掘常用算法有哪些?分聚类、预测、关联规则
csdn_bajie
07-01 1万+
数据挖掘常用算法 1 分数据挖掘的发展过程中,由于数据挖掘不断地将诸多学科领域知识与技术融入当中,因此,目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看,数据挖掘常用分析方法主要有分聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归,目前数据挖掘算法主要分为三大:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索..
四种方法,用数据挖掘潜力用户
weixin_45534843的博客
11-02 531
“挖掘一下,哪些客户有潜力”是很多同学在日常工作中老大难问题。到底怎么算是有潜力?又该怎么用数据挖掘?不清楚。经常是做数据的同学辛辛苦苦做出来,然后被业务抱怨:“我早知道了,你说的这有啥依...
数据挖掘的11大算法python实现(个人笔记整理,非教学用)
03-05 1万+
算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CARTl 。聚类算法:K-Means,EMl 。关联分析:Aprioril 。连接分析:PageRank 文章目录前言一、C4.5 算法二、SVM 算法三、KNN算法四、AdaBoost算法五、CART算法六、Apriori算法七、K-Means算法八、朴素贝叶斯(Naive Bayes)算法九、EM算法十、PageRank算法二、使用步骤1.引入库2.读入数据总结 前言 国际权威的学术组织 ICDM (the
数据挖掘全流程解析
weixin_60535956的博客
08-09 1784
详细说明数据挖掘全流程
什么是数据挖掘python
最新发布
2303_82176667的博客
07-04 1770
这个问题看似很简单,但似乎也很难有一个明确的答案。如果非要给数据挖掘一个定义的话,那么我认为数据挖掘就是寻找数据中隐含的知识并用于产生商业价值。也就是说,它是我们在数据中(尤其是在大量的数据中)找到一些有价值,甚至是非常有价值的东西的一种手段。

博客专家认证

548
原创
483
点赞
1824
收藏
2万+
粉丝
关注
私信
写文章

热门文章

  • RequestMapping的用法(完整) 158546
  • vSphere Client无法连接vSphere server解决一例 50491
  • 路由器默认密码 47815
  • AuthenticationException异常详解 38691
  • 自适应布局webkit-box的用法 33385

分类专栏

  • 产品之剑 17篇
  • 大数据(AI&python&量化) 31篇
  • 架构之美 42篇
  • API接口 6篇
  • 算法数据结构 4篇
  • 低代码技术 4篇
  • Java模块 213篇
  • 前端APP开发 12篇
  • UE/UI 20篇
  • db开发 71篇
  • 虚拟化 8篇
  • Delphi模块 1篇
  • .NET模块 20篇
  • LOTUS技术 1篇
  • linux管理 25篇
  • ERP实施 12篇
  • 技术管理 59篇
  • 網絡之路 27篇
  • 运维管理 26篇
  • 英語樂園 1篇
  • 产品&项目 11篇
  • 业务解析 3篇
  • 商业思维 1篇
  • ICO模块 1篇

最新评论

  • Docker 部署Jira8.1.0

    Jerick.: 无法破解注意啦 下载的文件为.rar压缩文件需要将文件解压拿到.jar文件在传入容器内,文件名也不能改变否则激活不成功

  • ​实体entity、JavaBean、Model、POJO、domain的区别​

    creat 引擎: 很详细啊,不过有些因为码龄太小还是看不懂表情包

  • Docker 部署Jira8.1.0

    2301_78695232: 为啥我的还是试用的

  • Docker 部署Jira8.1.0

    2301_78695232: 破解了还是使用版本的啊,表情包

  • Docker 部署Jira8.1.0

    2301_78695232: 破解没成功啊

最新文章

  • AI产品经理 - 如何做一款软硬协同AI产品
  • AI产品经理-借力
  • AI产品经理 - 方法篇-工作方法
2023年77篇
2022年59篇
2021年6篇
2020年3篇
2019年60篇
2018年33篇
2017年170篇
2016年30篇
2015年11篇
2013年3篇
2012年4篇
2011年14篇
2010年6篇
2009年4篇
2008年5篇
2007年34篇
2006年17篇
2005年43篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家春节商场美陈布置效果图滁州小区玻璃钢雕塑厂家湖南酒店玻璃钢雕塑厂家常宁玻璃钢南瓜屋雕塑定西大型玻璃钢雕塑价格江苏专业玻璃钢雕塑销售电话河北玻璃钢雕塑设计商惠州玻璃钢雕塑生产厂家天津商场中庭创意美陈江西玻璃钢雕塑制作过程杭州象山区商场美陈哈尔滨玻璃钢孔子雕塑深圳玻璃钢果蔬雕塑广东玻璃钢雕塑制品金华公园玻璃钢雕塑销售厂家包头玻璃钢雕塑设计日照玻璃钢海豚雕塑厂家四川成都玻璃钢雕塑玻璃钢人物雕塑经销商圆圆景观玻璃钢雕塑开阳玻璃钢雕塑订做江苏玻璃钢雕塑茶几上海k11商场美陈美陈商场方案宝鸡玻璃钢仿铜雕塑生产晋城优质玻璃钢仿铜雕塑厂家湖北户内玻璃钢雕塑图片广东透明玻璃钢雕塑供应商望都县玻璃钢雕塑厂南宁奔技玻璃钢雕塑香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化