当前位置:首页>行业资讯>技术应用>资讯内容

数据挖掘及其在电力系统中的应用

发布日期:2017-07-10 来源: 本网 查看次数: 1342 作者:admin

核心提示:  概念随着数据库技术不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,可是面对这些海量数据,目前能对其进行分析处理的工具却很少。目前所使用工具的局限性使人们无法将大量数据背后隐藏着的

  概念随着数据库技术不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,可是面对这些海量数据,目前能对其进行分析处理的工具却很少。目前所使用工具的局限性使人们无法将大量数据背后隐藏着的许多重要信息挖掘出来,而这些信息却可以很好地支持人们的决策。为解决实际中这些问题,以满足人们需要,数据库中的知识发KDD)技术逐渐发展起来,KDD也有人称之为数据挖掘(Data Mining-DM),实际两者是有区别的,但一般可不加区别地使用。

  数据挖掘本身是多种技术的集成体,主要包括成熟的数据库管理系统、数据仓库、统计学及机器学习技术。数据挖掘可应用于很多领域及过程控制,如医药、金融、情报、法律、国防、逻辑学、教育,也可应用在异常检测和诊断当中。在科学研究和工程实践的许多领域里,经常会遇到一些情况,需要做出快速诊断和决策。而对于电力系统这样一个复杂的大系统,这种情况更是经常出现,如电力系统故障。

  而数据挖掘正适于此类发现隐藏规律,并用以快速诊断和决策的应用方向。

  人们通常对数据挖掘所下的定义是:数据挖掘是按既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的方法。

  对KDD比较公认的一个定义是:KDD是从大量数据中提取出可信、新颖、有效的并能被人理解的模式处理过程,这种处理过程是一种高级的处理过程。

  该定义中有几点需要解释“数据”是指一个有关事实F的集合,它是用来描述事物有关方面的信息,一般来说这些数据都是准确无误的。“模式”是指对于集合F中的数据,通过用某种语言L的描述而得到其中的特性。“处理过程”是指KDD中多步骤的处理过程,包括数据预处理、模式提取、知识评估及过程优化。“可信”通过KDD从当前数据所发现的模式必须有一定的正确程度,否则KDD就毫无作用。

  系统来说应如此。如果通过KDD所得到的模式只是揭示了一般规律,则被认为是无用的。“潜在作用”是指提取出的模式应是有意义的,如果提取出来的模式虽然新颖,但毫无实际意义,也被认为是无用的。

  应用技术中国电力bookmark3帮助人们更好地了解数据库中所包含的信息。2数据库中知识发现的处理过程模型知识发现的处理过程模型是多阶段的。通常情况下,KDD处理过程可分为几个阶段:(1)领域问题的分析、理解和定义。数据挖掘人员与领域专家合作,对问题进行深入分析,以确定可能的解决途径和对学习结果的评估方法。(2)相关数据的收集、提取和清理。根据问题的定义收集有关数据。在数据提取过程中,可利用数据库查询功能以加快数据提取速度。

  同时要了解数据库中字段的含义及其与其他字段的关系,然后对提取出的数据进行合法性检查并清理含有错误的数据。(3)数据工程。对数据进行再加工,主要是冗余属性剔除、从大量数据中选择具有代表性的数据以减少学习量及对数据的表述方式进行转换以适于学习算法等。(4)选择并运行数据挖掘算法。根据所要解决的问题和数据选择合适的数据挖掘算法,并决定如何在这些数据上使用该算法。然后根据选定的知识发现算法对经过处理后的数据进行模式提取,即数据挖掘。(5)结果模式的评估。对挖掘结果的评估依赖于需要解决的问题,由领域专家对发现模式的新颖性和有效性进行评估。(6)结果的表达和使用。将结果模式以人们所能理解的形式表达出来,并在实际工作中应用这些挖掘结果,为决策提供支持。

  这种模型强调由数据挖掘人员和领域专家共同参与KDD的全过程。领域专家对该领域内需要解决的问题非常清楚,在问题的分析、理解和定义阶段由领域专家向数据挖掘人员解释,数据挖掘人员将数据挖掘采用的技术及能解决问题的种类介绍给领域专家。双方经互相了解,对要解决的问题达成一致的处理意见,包括问题定义及数据处理方式。在数据挖掘人员得到准确的问题定义和分析后,开始收集需要使用的数据,进行再加工以使得数据更适合后面的挖掘算法使用。根据解决问题的需要选择合适的挖掘算法。提取出来的知识需要向领域专家进行解释,以对知识及整个过程进行评价。

  可见,上面给出的这种模型主要是根据实际应用的需要而提出的,它主要强调领域专家的参与,由领域的专业知识指导KDD的各个阶段,并对所发现的知识进行评价。这种模型也是实际工程当中最常用的一种。同时,数据挖掘上只是KDD中诸多阶段之一,而且是最重要的一个,因为它可以发现隐藏的模式。但通常可不加区分地将二者都称为数据挖掘。

  3典型数据挖掘系统的体系结构典型数据挖掘系统的体系结构主要由如下组件典型数据挖掘系统的体系结构数据库、数据仓库或其他信息存储方式是指1个或多个数据库、数据仓库、扩展式表单或其他种类的信息仓库。(2)数据库或数据仓库服务器负责取得相关数据,它是建立在用户数据挖掘需求基础之上的。(3)知识基础是指某个领域中的知识,用来指导数据搜索或评估用户所关心的结果模式。(4)数据挖掘引擎通常由一些针对特定任务的功能模块组成,如描述、联合分析、分类、进化与异化分析等。(5)模式评估模块通常利用效益措施与数据挖掘模块交互作用,以使对数据的搜索向用户关心的方向发展。为更有效的数据挖掘,应把模式效益评估尽可能紧密地与挖掘过程相结合,以限定只对关心的模式进行搜索。(6)用户界面主要负责用户和数据挖掘系统之间的交互,提供信息以帮助用户集中数据挖掘的搜索方向。

  4应用4.1电力系统中数据利用现状在电力系统中,除某些特别的应用外,各种数据的主要来源包括实时数据、档案数据、模拟数据。同时,每一种数据来源中还包含有许多不同种类的数据,所有这些数据构成了一个极其庞大的信息存储体系。然而,就目前看来,在电力系统实际运行及规划管理中,人们通过这些数据所获得的信息量仅仅是这些海量数据中所包含信息量的一部分,如潮流计算、状态估计等的结果,而隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征描述及对其发展趋势的预测,这些信息是常规方法无法获得的,但这些信息在决策生成的过程中却具有重要的价值,即大量的有用数据并没有得到充分开发和利用,这一现状势必造成这样一种局面:数据虽然应用技术充足,但能从中得到的信息相对而言却是缺乏的,即许多有价值的数据对于信息提取来说处于一种“死亡”状态,大量的可利用资源被浪费掉。这一切都是因为缺乏对数据进行深层分析的技术所造成。

  4.2基于电力系统的数据挖掘应用既然目前电力系统中的数据利用很不充分,从中获得的信息相对缺乏和单一,因此需要一种适于电力系统应用的数据深层分析技术来改变这一现状,而数据挖掘技术(即数据库中的知识发现)的逐渐成熟带来了这一契机。通过将数据挖掘技术以适用于电力系统的方式应用于这些数据,将会有利于对这些潜在重要信息的利用。

  在电力系统中,有几类数据可运用到数据挖掘技术:(1)电力系统的范围特征(包括时间和空间上的)与统计特征,往往包含有几千个状态变量;(2)混合存在的离散信息(诸如网络拓扑结构的改变或保护的动作等)和连续信息(如某些连续变化的状态变量)(3)对某些不确定量的掌握和处理(如噪声和不完整信息等)。

  当使用经典的电力系统分析方法来处理这些数据的时候,通常只能针对常规的目标得到一些一般应用的结果。但使用数据挖掘技术可解决一些传统方法无法解决或解决起来有一定难度的问题,对于某些特定的常规问题,使用该技术有时也会具有更高的效率或能得到更好的结果。

  下面是数据挖掘技术在电力系统当中的一些应用方面:(1)对电力系统运行状态的分类。电力系统被分为正常状态、警戒状态、紧急状态、测试状态或恢复状态。这种把电力系统分为各种状态的分类是重要的。因为一旦电力系统的状态被确定下来,那么对于该状态的一个合适的指令就会被发给操作员,完成操作。数据挖掘算法有助于这种分类处理过程。

  对电力系统运行状态的描述。也就是利用机器学习算法来学习一种规则,该规则描述了由数据库中的数据所满足的某种电力系统运行状态。如电力系统的紧急状态被多个母线上的电压降低及其它一些特征所描述。数据挖掘有助于发现更好的描述规则。(3)利用数值法则分析电力系统故障间的关系。

  这一类数据挖掘利用了数值法则形式,通过学习一种功能,可利用给定的数据来预测新输入的值。数据挖掘可发现不同事故发生时产生的某些关系,从而可对电力系统故障提供可靠的描述。(4)电力系统的稳定性分析和安全性评估。这一类知识发现往往以决策树或依存表形式存在,如利用决策树可把电力系统分为稳定状态和不稳定状态,利用其他一些机器学习技术对电力系统的安全性进行评估等。

  当然,这也需要对某些规则的合理描述。(5)电力系统运行中变化与异化的检测和预测。利用数据挖掘可从以前存储的大量历史数据中发现许多重要的潜在变化规律,再利用电力系统的领域知识对其加以系统化,以进一步利用。这种类型的数据挖掘对于电力系统负荷预测、电力市场中的电价制定策略等,都是非常有意义的。(6)利用对事故案例分析得到的归纳法则来构造专家系统。可利用数据挖掘对电力系统故障报告数据库进行分析,形成某种归纳法则,该法则可应用于针对不同类型故障的诊断专家系统。这种利用归纳法则形成专家系统的方法要相对容易很多。

  4.3主要优越性与面向经典理论的电力系统分析方法相比,数据挖掘在3个主要方面能体现出较高的优越性:对潜在问题和规律更高的预见性、计算效率、对不确定量的检测和管理。(1)对潜在问题和规律更高的预见性。在目前的工程实践中,往往在系统中出现不符合需要的结果后,工程人员才不得不去解决一些新的问题,即总体上缺乏一种对潜在问题和规律的高预见性。然而,“对数据整体特征的描述及对其发展趋势的预测”正是数据挖掘的特点所在,运用数据挖掘可克服这些困难。(2)更高的计算效率。利用数据挖掘提取出来的是综合信息,而不是数值结果,它们可为实时决策带来更高的速度。此外,对于输入信息的需求,数据挖掘可能只需要有意义或可用的输入参数,而不需要对模型的完整描述,即屏蔽掉了冗余信息。这些特点势必会带来效率的提高。(3)对不确定量的管理。在电力系统中发生的某些事件,总是带有一定的不可预料性,如继电保护误动、操作员误操作、对某一负荷模型的不正确描述等。数据挖掘通过放宽对动态模型的假设来进行仿真,再利用相应的领域知识对其加以有效管理。

  总之,电力系统结构相当复杂,所面临的各种问题庞大而复杂,有的无法建立精确的数学模型,或不允许单纯用数学模型来描述,有的则无法建立数学模型。对于这些问题,数据挖掘技术的应用都能体现出较高的优越性,是解决此类问题的有力工具。

  4.4重点和难点(1)背景知识的指导作用。与电力系统某一研究领域相关的背景知识或理论,必须被用来正确地指导数据挖掘的处理过程,这样才能使挖掘算法能与该领域密切结合。(2)对不同种类知识的挖掘。电力系统中不同的应用方向需要的信息种类也不同,数据挖掘就应当能覆盖该应用方向上更广的范围。

  挖掘过程的交互性。应通过交互方式利用电力系统某一领域的背景知识来指导数据挖掘,这样有利于用户集中于对关心模式的搜索,并提高效率。

  应用技术挖掘结果的易懂性和可利用性。已发现的知识应以易于被人理解和利用的方式表达出来,即所发现的潜在规律必须是可理解的,它才能具有实用价值。(5)处理异常和不完整数据。电力系统中的海量信息不可避免的会含有噪声、异常或不完整数据。这些信息可能会使分析处理过程变得混乱,降低已发现模式的精确度。事实上,数据挖掘通过放宽对动态模型的假设来进行仿真,就可对这些信息加以有效的管理,关键是实现的方式。(6)数据挖掘结果模式的评估。对于挖掘的结果,需要电力系统的领域知识来对其进行评估,因为该结果必须应用在特定的领域中才是有意义的。

  5结束语数据挖掘是一种新兴的数据分析手段,到目前为止,一些商业数据挖掘产品和研究原型已得到应用。但将数据挖掘结合电力系统的特点应用到该领域中的研究才刚刚展开。随着电力工业进一步发展,在电力系统各项应用中对数据分析的方向必将进一步扩展,常规方法已捉襟见肘,适时地将数据挖掘引入电力系统分析中,对于解决现有问题必将起到积极作用。正致力于解决电力系统相关问题的研究人员应对数据挖掘有所了解,并能运用不同技术来得到全面而切实可行的解决方案。

网友评论

共有0条评论
马上注册
在线客服系统