1.4 数据挖掘功能
日期:2007年6月10日 作者: 查看:[大字体 中字体 小字体]-
1.4 数据挖掘功能—可以挖掘什么类型的模式
我们已经观察了可以进行数据挖掘的各种数据库系统和信息存储。现在,让我们考察可以挖掘的数据模式的类型。
数据挖掘功能用于指定数据挖掘任务要找的模式类型。一般而言,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质。预测性挖掘任务对当前数据进行推断,以做出预测。
在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是数据挖掘系统要能够挖掘多种类型的模式,以满足不同的用户需求或不同的应用。此外,数据挖掘系统应当能够在各种粒度(即不同的抽象层)发现模式。数据挖掘系统还应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式都附上一个确定性或“可信性”度量。
数据挖掘功能以及它们可以发现的模式类型介绍如下。
1.4.1 概念/类描述:特征化和区分
数据可以与类或概念相关联。例如,在AllElectronics商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders和budgetSpenders。用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。这种类或概念的描述称为类/概念描述(lass/concept description)。
这种描述可以通过下述方法得到:(1)数据特征化,一般地汇总所研究类(通常称为目标类(target class))的数据;(2)数据区分,将目标类与一个或多个可比较类(通常称为对比类(contrasting class))进行比较;(3)数据特征化和比较。
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL查询收集关于这些产品的数据。
有一些有效的方法将数据汇总和特征化。基于统计度量和图的简单数据汇总在第2章介绍。
基于数据立方体的OLAP上卷操作(见1.3.2节)可以用来执行用户控制的沿着指定维的数据汇总。该过程将在第3、4章讨论数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第4章讨论。
数据特征的输出可以用多种形式,包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系(generalized relation)或规则形式(称作特征规则)提供。这些不同的输出形式和它们的转换在第4章讨论。
例1-4 数据特征化。数据挖掘系统应当能够产生一年之内在AllElectronics花费1000美元以上的顾客特征的汇总描述。结果可能是顾客的一般轮廓,如年龄在40~50岁、有工作和有很好的信誉等级。系统应当允许用户对任意维下钻,如对occupation下钻,以便根据他们的职业类型来观察这些顾客。
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。例如,用户可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的软件产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。
- [1] [2] [3] [4] 下一页
-
- 1.4 数据挖掘功能 相关文章:
- ·1.4 数据挖掘功能
- 1.4 数据挖掘功能 相关软件
- 特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作
- 者.文章版权归文章原始作者所有.对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转
- 载的文章有版权问题请联系编辑人员,我们尽快予以更正. 转载请注明来源:http://www.hackhome.com
上一篇:1.6 数据挖掘系统的分类
下一篇:1.3 对何种数据进行数据挖掘
精品推荐
热点TOP10
- ·UML业务建模实例分析
- ·GIF文件格式
- ·代码静态分析工具PC-LINT安装配置
- ·游戏外挂设计技术探讨
- ·开发WDM型的USB设备驱动程序
- ·设计模式探索系列之Bridge模式
- ·逆向思维 《魔兽世界》封包分析
- ·LZW压缩算法简介
- ·Solaris 10 安装及SVC管理及X及Vmware及其它可能遇到的一些问题
- ·1.2 什么是数据挖掘
- ·Spring让LOB数据操作变得简单易行
- ·编写QQ外挂插件的原理和方法
- ·使用BHO定制你的IE浏览器
- ·利用API在Windows下创建进程和线程
- ·在内存中修改数据的网游外挂
- ·程序语言效率比较
- ·正则表达式从入门到精通
- ·网络监听技术概览
- ·游戏开发新手入门之跟踪窗口和使用GDI
- ·原始套接字透析之实现Ping
