2016年 第16期Science and Technology & Innovation┃科技与创新
文章编号:2095-6835(2016)16-0007-02
数据挖掘应用研究前沿和发展趋势
任 冷
(上海大学机电工程与自动化学院,上海 200072)
摘 要:互联网催生了大数据,在互联网渗透各个产业的过程中,同时也实现了数据电子化,使产生的大数据具备了前所未有的利用价值。大数据将通过自己的“智慧”,重塑了很多产业。因此,研究了数据挖掘在各行业的应用,以及在这些应用要求下面临的技术挑战和发展趋势。
关键词:数据挖掘;应用研究;新的挑战;发展趋势
中图分类号:TP311 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.16.007
根据数据挖掘结果有针对性地采取有效措施,比如如何改进服务质量,确保顾客的满意度;如何提高商品的销售量;如何设计较优的运输路线以及采取怎样的销售策略等,从而提高企业效益。此外,由于数据挖掘的推荐系统已经成为电子商务的关键技术,通过数据挖掘,再对网站进行系统分析,对用户的行为模式加以识别,在增加客户黏性,提供个性化服务,优化网站设计等方面也取得了很好的效果。 1.4 电信领域
电信运营商已逐渐发展为一个融合了语音、图像、视频等增值服务的全方位立体化的综合电信服务商。三网融合,即电信网、因特网和有线电视网的“融合”,是未来的一种发展趋势。这一现象将会产生巨量的数据。运营商要合理地分析商业形式和模式,运用数据挖掘是非常有必要的。例如对用户行为、利润率、通信速率和容量、系统负载等电信数据,可以运用多维分析方法进行分析;要发现异常模式,可以运用聚类或孤立点分析等方法进行数据挖掘;要得到电信发展的影响因素,可以运用关联或序列等模式进行分析等。总之,数据挖掘技术对电信业的发展发挥着非常重要的作用,比如如何提高相关资源的利用率、更深入更充分地了解用户行为、如何获取更好的经济效益。
1.5 社交网络分析
社交网络分析是从关系和结构两个方面来了解、度量和预测行为的科学。结合图论和非参数统计技术,研究人员利用数据,比如电话数据,或者表明人与人之间联系的观察数据,来识别网络内和跨网络的关键人员和关键群体,或者特殊模式和重要途径。现在,社交网络分析呈现爆炸式增长,数据一般是以元网络的形式表示,即关于谁(who)、什么(what)、哪里(where)、怎样(how)和什么时候(when)的信息以多模态、多链接、多层次的网络连接起来。数据通常是动态的。这一动态性正是我们感兴趣的地方。我们可以通过这些数据来分析人们的活动取向,为公司的营销提供有力的依据,也可以利用多个社交媒体来交叉验证同一个人,这对于追踪犯罪行为、恐怖分子、恋童癖者尤为重要。 1.6 交通领域
交通问题对城市的民生有很大影响。该领域积累了大量的数据,比如出租公司积累的乘客出行数据和公交公司的运营数据。通过对乘客数据和运营数据进行分析和挖掘,能够为公交、出租公司科学的运营和交通部门的决策提供依据,比如合理规划公交线路,实时为出租车的行驶线路提供建议等。这样,不仅可以提升城市运力和幸福指数,还可以有效减少因交通拥堵问题造成的成本浪费。另外,航空公司也可依据历史记录来寻找乘客的旅行模式,以便提供更加个性化的服务,合理设置航线等。
近年来,互联网已经融入我们生活中的方方面面,尤其是这几年以来,在互联网技术的推动下,很多行业都已经从传统的模式转变成了物联网模式,又从物联网变成了现在的“互联网+”运营模式了。海量数据的分析就显得尤为重要,那么数据挖掘技术的发展就会有了质的飞跃,将来也会成为企业发展一个必需的依赖技术。数据挖掘典型的应用领域包括金融、医疗、零售和电商、电信、交通等。另外,由于新的数据类型也随着技术进步不断增加,因此本文指出了数据挖掘的发展趋势和所面临的挑战。
1 数据挖掘的应用
数据挖掘所要处理的问题就是在庞大的数据中找出有价值的隐藏事件,并加以分析,获取有意义的信息和模式,为决策提供依据。数据挖掘应用的领域非常广泛,只要有分析价值与.com.cn. All Rights Reserved.需求的数据,都可以利用挖掘工具进行发掘分析。目前,数据挖掘应用最集中地领域包括金融、医疗、零售和电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。 1.1 金融领域
不管是银行,还是其他金融机构,都存储了海量的金融数据,比如信贷、储蓄与投资等金融数据。对于这些数据,运用数据挖掘技术进行有针对性的处理,将会得到很多具有价值的知识。金融数据具有可靠性、完整性和高质量等特点。这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。 1.2 医疗领域
在人类的遗传密码、遗传史、疾病史以及医疗方法等医疗领域中,都隐藏着海量的数据信息。另外,对医院内部结构、医药器具、病人档案以及其他资料等的管理也产生了巨量的数据。对于这些巨量的数据,运用数据挖掘相关技术处理,从而得到相关知识规律,将有利于相关人员工作的开展。运用数据挖掘技术,在很大程度上有助于医疗人员发现疾病的一些规律,从而提高诊断的准确率和治疗的有效性,不断促进人类健康医疗事业的发展。
1.3 零售和电商领域
由于零售业会产生庞大的数据,主要是销售数据,比如商品的购进卖出记录、客户购买、消费记录等。特别是随着Web以及电子商务等商业方式日益普及流行,相应的数据也以飞快的速度增长着。运用数据挖掘技术对这些海量的数据进行针对性的处理分析,可以获取很多极具价值的知识。例如可以有效地识别顾客的购买行为,从而把握好顾客购买的趋势。这些关于顾客的有效信息是商家采取最佳决策的关键依据。商家可以
·7·
科技与创新┃Science and Technology & Innovation
2016年 第16期 近年来,数据挖掘的应用发展迅速,不仅在以上领域,在政府部门、军事、制造业、科学研究等方面也都取得了一定的进展。 3.2.3 数据噪声太大
由于普适终端所处地理位置的复杂性,产生的数据具有很多噪2 数据挖掘中隐私问题
隐私权是指个体的私人信息部被他人非法收集、公开和利用的权利。隐私保护就是保护个体的隐私权不被侵害,保护个体隐私在未经授权的时候不被泄露和恶意利用。基于隐私的数据挖掘存在以下2个层面的问题。 2.1 原始信息隐私保护
企业、医院、政府部门通常收集了大量的个人原始信息,泄露这些信息可能识别出个人用户的身份。为了防止个人隐私的泄露,这些原始数据均需要在进行数据挖掘之前进行修改和隐藏。这个层面主要解决的问题是如何在原始数据不准确的前提下得到正确的挖掘结果。 2.2 敏感规则隐私保护
企业、医院、政府部门不仅存储着大量的个人原始信息,通过对这些原始信息的挖掘,还可以得知某一群体的特征和行为规律。为了防止这些敏感规则被挖掘出来,通常事先改变原始数据的统计特征,使这些敏感规则的生成概率大大降低。
我们既不能否认通过数据挖掘产生的巨大利益,也不能因为存在有隐私保护技术正得到越来越多的关注,在保护隐私信息方面还需要更多的探索。更好的一个愿景是,将计算机科学、管理科学、社交网络技术、政策法规等多个方面有效地结合在一起,共同来完成从数据中发现有效的知识。 3 数据挖掘的发展趋势
3.1 数据挖掘与物联网、云计算和大数据
简单来说,物联网就是物物相连的网络,是数字世界和物理世界的高度融合。物联网底层的大量传感器为信息的获取提供了一种新的方式。这些传感器不断地产生着新的数据,随着各种各样的异构终端设备的接入,物联网采集的数据量也就会
越来越大,其数据类型和数据格式也会越来越复杂。这些数据
与时间和空间相关联,有着动态、异构和分布的特性,也为数据挖掘任务带来了新的挑战。
云计算是一种基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源(包括硬件、平台和软件),实现了设备之间的数据应用和共享。随着物联网的发展,感知的信息不断增加,需要不断地增加服务器的数目来满足需求。但由于服务器的承载能力是有限的,服务器在节点上出现混乱和错误的概率大大增加。为了更好地提供服务,基于云计算的系统能有效地解决物联网分布式数据挖掘中所遇到的问题,在进行相关数据挖掘时能够显著地提高性能。
目前,大数据已成为继物联网、云计算之后又一信息科技的新热点。大数据在本质上仍然是海量数据,但规模更大,实时性和多样性特点更明显,相应的数据挖掘技术也需要有所改进,研究如何处理半结构化,甚至非结构化的数据是目前大数据挖掘面临的挑战之一。
将物联网、云计算、大数据与数据挖掘研究联系起来,不仅具有深远的科学研究价值,而且将产生巨大的经济效益和社会价值。 3.2 数据挖掘研究和应用面临的挑战
大数据时代的数据挖掘面临着新的挑战,主要表现在以下几个方面。
3.2.1 数据类型的多样性
不同的应用、系统和终端,由于标准的差异性,会产生不同结构的数据,其中包括结构化数据、半结构化数据和非结构化数据、对这些异构化数据的抽取与集成将成为一大挑战。 3.2.2 数据挖掘算法的改进
大数据时代数据的量级达到了一个新的阶段,而且还有其他新的特征,现有挖掘算法需要基于云计算进行改进,以适应不同应用对数据处理能力的需求。 ·8·
声。在进行数据清洗时,不易把握清洗粒度——粒度太大,残留的噪声会干扰有价值的信息;粒度太小,可能会遗失有价值的信息。 3.2.4 数据的安全性与隐私保护
互联网的交互性使得人们在不同地点产生的数据足迹得到积累和关联,从而增加了隐私暴露的概率,且这种隐性的数据暴露往往是无法控制和预知的。随着数据挖掘工具和电子产品的日益普及,保护隐私和信息安全是数据挖掘将要面对的一个重要问题。这就需要进一步地开发,以便在适当的信息访问和挖掘过程中保护隐私和信息安全。 3.3 数据挖掘的发展方向 3.3.1 应用的探索
数据挖掘正在探索、扩大其应用范围。通常,数据挖掘技术在处理特定应用时存在着局限性。因此,目前存在一种针对特定应用来开发数据挖掘系统的趋势。 3.3.2 可视化数据挖掘
可视化能更直观地展示数据的特性,图像展示更符合人的观察习惯。可视化数据挖掘已成为从大量数据中发现知识的有效途径,系统研究和开发可视化数据挖掘技术将推进数据挖掘作为数据分析的基本工具。 3.3.3 多种系统的集成
数据库/数据仓库系统等已经成为信息处理系统的主流,而且与数据库和数据仓库系统的紧耦合方式正是数据挖掘系统的理想体系结构。将不同的系统集成到统一的框架中,有利于保证数据的可获得性和一致性,以及数据挖掘系统的可移植性、可伸缩性和高性能。 4 结束语
数据挖掘的应用在很多领域取得了一定的成果,而且其广阔的应用前景已吸引了众多的研究人员和商业公司的加入。但是,数据挖掘所带来的有关隐私和信息安全的问题需要着重考虑。数据挖掘技术发展的时间很短,属新兴科学,在技术和社会不断发展的今天,还面临着很多挑战和值得重点研究的方向,相信数据挖掘技术的研究与应用将会得到长足的进步,必将产生巨大的经济效益和社会效益。 参考文献
[1]郭群.多媒体信息挖掘综述[J].信息系统工程,2010(08). [2]Maciejewski T,Stefanowski J.Local neighbourhood extension
of SMOTE for mining imbalanced data.IEEE Symposium on Computational Intelligence and Data Mining(CIDM),2011(01).
[3]Knerr U.H..Pairwise classification and support vector
machines.MA:MIT Press,1999.
[4]李明江,唐颖,周力军.数据挖掘技术及应用[J].中国新
通信,2012(22).
[5]徐振龙,郭崇慧.隐私保护数据挖掘研究的简要综述[C]
//第七届中国管理学年会商务智能分会场论文集,2012. [6]王惠中,彭安群.数据挖掘现状及发展状况[J].工矿自动
化,2011,2(2).
[7]梁志.基于数据关系的SVM多分类方法研究[D].山西大
学计算机与信息学院,2013
[8]He H.B.,Garcia E.A.Learning from imbalanced data.IEEE
Transaction Knowledge and Data Engineering,2009,21(9). [9]Xue Zhenxia,Liu Sanyang,Liu Wanli.Unbalanced squares
support vector machines.System Simulation,2009(21). [10]Y. Tang,Y.-Q.Zhang,N. Chawla,et al.“SVMs modeling
for highly imbalanced classification”Systems, Man and Cybernetics,Part B:Cybernetics.IEEE Transactions on,2009,39(1).
〔编辑:刘晓芳〕
.com.cn. All Rights Reserved.
因篇幅问题不能全部显示,请点此查看更多更全内容