数据挖掘技术的研究应用综述口张雪松(1中国石油大学(北京)北京昌平.’毛云龙2。檀竹南。102249;摘要随着计算机技术的飞速发展,、,各类信息的成熟。最新发展有:分类技术研究中,,试图建立其集合理数据量迅速增长要从这些海量的以不同形式存储的数论体系实现海量数据处理,;以粗糙集和模糊集理论为基,据资料中发现有价值的信息或知识已成为当前数据挖掘技术的一础将二者融合用于知识发现,构造模糊系统知识模型与项艰巨任务,。本文总结并评价了国内外数据挖模糊系统辨识方法构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念格进行文本挖掘目前,。掘技术的发展现状关键字1对各个领域的数据挖掘技术应用进。行了系统的评价与综述国内的数据挖掘技术主要应用在农业,,金融及数据挖掘技术现状石油工程研究应用Web等领域,而在作为现代化生产主力的工业部门应用一却不多.只在电力部门火力发电方向有。些系统的应用,前言Miningcover其他领域只有少数零散的应用),可以说数据挖掘技术在数据挖掘(Data现(Know又称为数据库中的知识发Database,我国还有很大的发展潜力3。ledgeDisy、inKDD),是从大.量数据中获取有效新颖潜在有用且最终可理解的模式、数据挖掘技术常见的方法的非平凡过程简单的说数据挖掘是从大量历史数据中。,数据挖掘技术常见的技术主要有以下六种:寻找其规律的技术是统计学数据库和人工智能技术的,、(1)关联分析:在大型数据集中发现项之间感兴趣的关联关系。综合。(2)决策树方法22.:以树型结构表示分类或决策集合,,数据挖掘技术研究现状1产生规则和发现规律寻找数据库中具有最大信息量的.国外研究现状字段,建立决策树的一个人工只能和识别技术,。国际KDD(知识发现)组委会于1995年在加拿大蒙特(3)神经网络方法:由大量的简单神经元布存储通过极其,利尔市召开了第次。一届KDD国际学术会议,每年召开,一丰富和完善的连接构成自适应非线性动态系统、具有分近年来,KDD在研究和应用方面发展很快。尤其是联想记忆。、大规模并行处理、自组织、自学习、在商业和银行领域的应用速度更是迅速目前,自适应等功能国外数据挖掘的研究方向及趋势主要是对数一(4)粗集方法:在数据库中视行为对象列为元素同满足R的对象组成的集合称为其等价类,,定据挖掘方法研究的进及Boos步发展如Ba,yes(贝叶斯)方法以义等价关系R为不同对象在某个(或几个)属性上取值相。ting方法的研究和提高;传统的统计学回归法在DDKDD2中的应用;K.与数据库的紧密结合等[11。(5)聚类方法:将数据对象分组成为多个簇个簇中的对象具有较高的相似度。,在同一2国内研究现状,与国外相比国内对数据挖掘的研究起步稍晚且不(6)遗传算法:模拟生物进化过程,由繁殖交叉变、、cuw”wc,,一s译崔訾紫沿蹦瑶60维普资讯 http://www.cqvip.com
E 咖En n n n她 『石油工程技术】 异三个基本算子组成。可起到产生优良后代的作用,经过 (3)网络教育:分析学习者特征,辅助决策;跟踪学 若干代的遗传,将得到满足要求的后代【2l。 习者特点,提供个性化服务;分析需求趋势,挖掘潜在客 户;改进网站设计优化网络教育资源组织。 4.数据挖掘技术在各个领域的应用 (4)网络信息安全管理:对各类网络信息安全事件信 4.1数据挖掘在农业的应用 息深度关联分析 描述网络提供政策支持和安全态势,为 农业是国民经济的最基础部门。全国土壤的数据普 网络安全的主动防御能力提供技术支撑。 查、各种农作物的苗情、土情等方面都存在着大量的数据 (5)电子商务:发现潜在客户、客户的驻留、改进站 处理。只有以大量的动态市场信息了解农作物的生产规 点设计、聚类客户等。 划,才能使我国农业的发展更加健康合理。 (6)通信网络管理:主要应用移动与固定通讯设备网 气象预报是农业最重要的技术之一,它通过各种参 络,通过大量的数据分析获得有价值的信息,定位检测网 数数据进行处理监测参数值是否正常,为农业提供气象 络故障,预测严重故障等。 信息服务和可靠的科学依据。在农业市场信息中,数据挖 4.4数据挖掘技术在医学中的应用 掘技术以市场监控信息为数据库,以进出口贸易仓库数 数据挖掘和知识发现技术可以抽取大量纷繁临床数 据为数据源,从而提供可信信息。关联分析、技术统计可 据中的趋势及规律性,辅助医务人员快速准确地诊断、确 用来预测农产品的价格走势;聚类分析可简化问题,例 定最优的治疗方案。目前,数据挖掘主要应用在生物医学 如:在条件允许的情况下把水产与肉、蛋与油合为一类, 和一般医学领域。 使得数据更加简单;孤立点分析则可以找出罕见事件、灾 生物医学中,DNA包含大量的遗传信息,数据挖掘 情、金融事件及进出口方面存在的问题,对农业市场有很 是DNA分析中强有力的工具,它可以在DNA序列间进 强的指导性。 行相似搜索与比较,关联分析识别同时出现的基因序列 4.2数据挖掘在金融业的应用 的;路径分析发现不同的致病基因。 金融领域中每天都会产生巨大的现金流和数据量, 一般医学中,数据挖掘技术大大提高了医务工作者 随着高科技的发展,金融犯罪越发猖獗,严重威胁了国家 的工作效率,且节省了大量的资金。主要应用于对疾病的 安全及全球经济发展。金融业是数据挖掘技术应用最迫 辅助诊断、相关因素分析及预测等等。 切的一个领域,主要技术包括金融投资和欺诈甄别。具体 另外,数据挖掘技术在医学的其他领域也都有所渗 应用在:对目标市场进行分类与聚类,客户价值分析,客 透。医院信息系统中,数据挖掘为医院科学管理、医疗保 户行为分析,为多数据分析和数据挖掘设计构造仓库,贷 健政策的制定、卫生资源的合理配置方面提供决策支持 款偿还预测和客户信用政策分析,业务关联分析,汇率及 的信息来源。药物开发中,建立药物卡法系统用来寻找同 股票的预测以及洗黑钱和其他金融犯罪的侦破等方面。 药效学相关的有效化学物质基础,确定药效基因,从而缩 4.j敷掾挖掘技街在互聊绸方面的愿用 短新药的研究开发周期,降低开发费用。医学图像应用 Web信息中除了丰富的文本、图形图像、声音等媒 中,利用决策树和神经网络对图像特征分析,找到能够对 体信息外还包括链接结构信息和使用记录信息。挖掘 图像分类的图像特征临界值。 Web内容、结构、记录等可以快速获得有效信息方便查 4.5数据挖掘在工业中的应用 询,发现权威页面优化网站组织结构录,从而提高用户访 在工业生产领域,大部分工厂都积累了大量实际生 问效率,聚集同类用户。 产数据,大多数以数据文件、生产记录等形式存在且处于 数据挖掘技术在互联网的应用主要表现在以下几方 闲置状态。数据挖掘技术很好的利用了这些闲置的数据, 面: 并为工业生产提供帮助。工业生产领域是数据挖掘应用 (1)网络检索:采用数据挖掘信息处理技术,通过目 最有潜力的领域。 标样本的特征提取、分词处理、文本的自动分类与聚类等 美国钢铁公司和神户钢铁公司利用基于KDD技术的 方法从网络信息资源中发掘用户所需信息。 ISPA,研究分析产品性能规律进行质量控制,GE与法国 (2)网络入侵监测系统:应用时间序列模式的挖掘方 飞机发动机制造公司利用KDD技术研制质量控制系统, 法通过对网络传输数据包和系统日志分析来判断是否有 并得到了欧洲国家的好评。 非授权使用计算机的个体或计算机系统合法用户非法访 数据挖掘技术在我国工业领域的广泛应用包括:环 问系统以企图实施上述行为的个体。 境工程中,遗传算法用于环境质量评价,各污染源对大气 61 一 e “铠一c nus RY 维普资讯 http://www.cqvip.com
颗粒物贡献率的目标函数优化;粗集理论用于地下水指 到自身技术发展的限制;其次,数据挖掘技术本身还没有 标属性约简,大气颗粒物源解析;人工神经网络应用于城 形成一套系统的科学理论体系和使用方法,到目前为止 市环境评价和预测,环境监测优化布点等;流程工业上, 数据挖掘技术和石油工业结合的也并不是十分紧密,多 利用决策树归纳法建立反应温度波动模型,预测实时数 数科研人员只能根据用户需求来开发出相应的科研成果; 据,提出建议性的决策树规则。电力行业中的应用有状态 第三,尽管在石油工业中存在着大量需要处理的数据,但 监测和检修决策;电力设备寿命管理;电力设备故障诊 已有的数据库技术已经可以应对这些数据的处理,也就 断;备用备件管理等。同时在客户关系管理(CRM)、电网 是说人们还没有完全的意识到数据挖掘技术的优点;第 规划以及调度自动化等方面也得到应用。 四,在石油工业中人们并不需要很迫切的应用数据挖掘 4,6数据挖掘技术在石油工程中的应用 技术,这点和金融领域形成了鲜明的对比,在金融领域巨 当前,数据挖掘技术与石油工程领域还没有做到充 大的数据量和严格的安全要求使得人们不得不找到一种 分结合,应用也并不广泛。有部分学者将数据挖掘技术应 高效的数据处理方法即数据挖掘技术,在石油工业中这 用到石油工程领域,取得了一定的效果。 种紧迫感还不是很明显,这也是数据挖掘技术没有在石 La Sapienza将模糊逻辑理论与神经网络系统和Ad 油领域得到广泛应用的原因之一。 Hoc网络结合并将其应用到油井监测与诊断,提供了一 综上所述,作为一项新兴的技术,虽然数据挖掘技 种生产井动态分析的新方法;Gert de Jonge等人提出 术在我国各个领域的应用还不是很成熟,但不可否认 通过数据挖掘技术开发相关的软件系统并应用到油田自 这项技术有着广泛的市场。尤其是工业领域,随着数 动化监控中,从而达到提高油井生产效率并为管理者提 据挖掘技术工业化标准的建立,这项技术将会被广泛 供更可靠的管理决策的目的;G.Zangl通过建立数据 应用到工业之中提供辅助决策,为我们的日常生产生 挖掘模型,对油田各项数据的质量及油井或整个生产系 活贡献力量。 统的监视提高了油气田的产量_31;Leonardo Ocanto应用 神经网络方法建立数学模型,从而实现了对人工举升系 参考文献 统进行模式识别的目的;Christian Oberwinkler等人 [1】王宏威.油田数据挖掘技术的研究与应用[DI.大庆 运用算法与神经网络方法进行压裂设计,大大提高了设 石油学院硕士研究生学位论文2005,2. 计最优裂缝的效率,与常规方法相比,节省了大量的时 [2】刘素芹,时念云,徐九韵,等.数据库中的知识发现 间【41。 研究进展[J】.油气田地面工程第22卷第4期,2003,4:54— 国内学者刘兰娟、谢美萍将小波分析与已有的神经 55. 网络相结合,对我国石油产量的预测分析,构造出自适应 [3】G.Zangl,C.P.Oberwinkler,Schlumberger. 小波神经网络,只需利用历史数据便可建立数学模型进 SPE Annual Technical Conference and Exhibition, 行预测 1。高文玲将数据挖掘技术应用到石油地质信息系 26-29 September 2004,Houston,Texas. 统,用历史数据预测地质情况,对出油量及石油成分进行 [4】Christian Oberwinkler,Gerhard Ruthammer, 进度管理,实现对石油油井的管理与信息的预测。杨明 Georg Zang1.Michael J.Economides.SPE Interna— 合、翟应虎、夏宏南在钻头的优选中,应用粗糙理论集处 tional Symposium and Exhibition on Formation Damage 理数量巨大的数据资料,对钻头信息进行约简,取出荣誉 Control,1 8-20 February 2004,Lafayette,Louisiana. 信息,明显减少了网络训练样本数和训练步数,提高迭代 [5】杨明合,翟应虎,夏宏南.数据挖掘技术在钻头优 精度_5J。王晓芳在储层评价中应用沃尔什变换实现对测井 选中的应用[J】.断块油气田,2007年11月14卷第六期: 数据的离散化,使用粗糙集和模糊集对底层情况进行预 60-62. 测_6J。张允针对油气田开发的需求和油藏数据特点利用数 [6】王晓芳.数据挖掘及其在储层评价中的应用[DI.西 据清洗、数据挖掘、知识评估、可视化等技术提出了数字 南石油学院硕士学位论文2005年4月10日. 油藏知识发现的一种新思路。 可以看出在我国石油工业领域,数据挖掘的应用不 作者简介:张雪松,1983年3月生,河北秦皇岛人, 算广泛,主要局限于具体问题需求具体分析,还没有形成 2007年毕业于中国石油大学(华东)信息与计算科学专 一套系统的理论知识体系。造成这一现象的原因有很多。 业,现于中国石油大学(北京)石油与天然气工程学院攻 首先数据挖掘技术是一门新兴的技术,其应用范围还受 读油气田开发工程专业硕士研究生。 盈 c c s 62
因篇幅问题不能全部显示,请点此查看更多更全内容