数据挖掘技术与应用
作者:过正 侯振泉
来源:《中国新通信》2015年第12期
【摘要】 数据挖掘一直是各个行业的关注的重点。近几年,数据挖掘伴随着大数据的火热开始迎来更大的机遇。本文介绍了数据挖掘相关的概念,一些常用的数据挖掘的分析方法,最后介绍了数据挖掘技术几个常见的应用领域。 【关键词】 数据挖掘 大数据 分析方法 应用领域 一、数据挖掘
数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域。从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。
从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。 二、数据挖掘的基本分析方法
分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法。
目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。 2.1聚类分析
聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。它是一种无先前知识,无监督的学习过程,从数据对象中找出有意义的数据,然后将其划分在一个未知的类。这不同于分类,因为它无法获知对象的属性。“物以类聚,人以群分”,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。
聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法。硬聚类就是将对象划分到距离最近聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类。一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。
龙源期刊网 http://www.qikan.com.cn
2.2分类和预测
分类和数值预测是问题预测的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别。常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等。预测就是根据分类和回归来预测将来的规律。常见的预测方法主要有局势外推法、时间序列法和回归分析法。 2.3关联分析
在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生。关联分析就是利用事物之间存在的依赖或关联知识来发现事物之间存在的规律性,然后通过这种规律性进行预测。如经典实例购物篮分析,就是通过分析顾客购物篮中物品的管理规律,来分析顾客的购物心理和习惯,然后根据这种规律来帮助营销人员制定营销策略。 三、大数据时代的数据挖掘的应用领域 3.1市场营销领域
市场营销是数据挖掘技术应用最早和最多的领域。通过分析和挖掘用户的消费习惯和消费特点,来提高商品的销售业绩。目前,数据挖掘在市场营销方面已经不仅仅限于超市购物等方面,已经普及到各个金融领域,如保险、电子商务、银行、电信零售等行业。利用数据挖掘技术来分析顾客的消费行为,为本行业带来潜在的客户和效益。 3.2科学研究
在科学研究中,经常需要分析各种大量的实验和观测数据,并找出相关的规律和知识。这些数据分析和挖掘都需要一定的算法,利用数据挖掘技术能科学的找出数据之间的规律以及找出我们未发现的知识。例如,对外空星体的探索、对DNA数据的分析等等。
在制造业、电信、教育领域,数据挖掘也发挥着巨大的作用,对过去政策的评估和新政策的制定都有很大的帮助。
伴随着大数据的数据管理,检索技术研究的进步,数据挖掘技术将迎来巨大的发展机遇,数据挖掘技术的应用也将更加广泛,数据挖掘的工具也将更加强大. 参 考 文 献
[1]胡天状.数据挖掘技术在教育决策支持系统中的应用[D].杭州:浙江师范大学,2002.
龙源期刊网 http://www.qikan.com.cn
[2]吴文绍.甘肃省教育管理信息决策支持系统[D].兰州:兰州理工大学,2006.
[3]丁守哲.基于云计算的建筑设计行业信息系统开发模式与实现技术研究[D].合肥:合肥工业大学,2012.
[4]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(1):146-149.
[5]程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013(3):43-45.
因篇幅问题不能全部显示,请点此查看更多更全内容