计算机研究与发展
JournalofComputerResearchandDevelopment
ISSN
1000—1239/CN11—1777/TP
47(Suppl.):520—523,2010
中国出生缺陷数据挖掘系统HealthyBaby
段
磊1
左
劫1
李
川1
陈
瑜1
唐常杰1
朱
军2
代
礼2
牟
昕1
1(四川大学计算机学院成都610065)2(中国出生缺陷监测中心成都610041)(cjtang@SCU.edu.cn)
HealthyBaby:A
MiningSystem
over
BirthDefectsDataofChina
DuanLeil,ZuoJiel,LiChuanl,ChenYul,TangChangjiel,ZhuJun2,DaiLi2,andMouXinl
1(School
ofComputerScience,SichuanUniversity,Chengdu610065)
forBirthDefectsMonitoring,Chengdu610041)
miningsystemthatworks
thedata
recent
2(NationalCenter
Abstract
HealthyBabyis
a
data
over
warehouseofthebirth30years.Itissupported
defectsofChina,whichcontainshugenumberofbirthdefectsdatafor
bythe11一thFiveYearsKeyProgramsforScienceandTechniqueandtheNFSCprogram.TheBetaversionof
HeahhyBabynOWworks
a
well.Thispaper
introducesanddemonstratesthe
special
techniquesinHealthybaby,including
column—storeddatawarehouse,visualizedOLAPquery,the
BD-GIA,i.e.thebirth—defectsbasedgeographicinformationanalysis,thebirthdefectsdatabasedassociation,classification,clustering,interventionrulesmining,andsub—complexsystem.Keywords
birthdefectintervention;sub-complexsystem;datamining;column-store
摘要在国家“十一五”科技支撑计划“出生缺陷干预效果评价系统”和国家自然科学基金“亚复杂系统中干预规则挖掘”支持下,中国出生缺陷数据挖掘系统HealthyBaby的测试版本已经在具有30年数据的全国出生缺陷数据仓库运行.介绍并演示HealthyBaby特色技术,包括中国出生缺陷数据仓库的列存储方式,可视化的OLAP查询,出生缺陷地理信息分析BD-GIS技术,面向出生缺陷数据的关联、分类、聚类知识发现,干预规则挖掘,亚复杂系统等.
关键词
出生缺陷干预;亚复杂系统;数据挖掘;列存储
中图法分类号TP311
出生缺陷是关系可持续发展的重大公共卫生和社会问题.建立全国出生缺陷监测数据仓库,深度挖掘出生缺陷规律,预防和控制出生缺陷是提高人口素质、建设和谐社会的重要组成部分.出生缺陷数据的特殊性和干预规则挖掘的特殊需求向传统数据挖掘技术提出了挑战.
在国家“十一五”科技支撑计划“出生缺陷干预效果评价系统”和国家自然科学基金“亚复杂系统总
干预规则挖掘关键技术”项目支持下,四川大学计算机学院数据库与知识工程研究所与中国出生缺陷监测中心联合攻关,开发了中国出生缺陷数据挖掘系统——HealthyBaby,测试版本已经开始试运行.
1
HealthyBaby系统概述
HealthyBaby系统的开发主要涉及如下工作:
收稿日期:2010—06—25
基金项目:国家自然科学基金项目(60773169);国家“十一五”科技支撵计划基金项目(2006BAl05A01);四川大学青年教师科研启动基金项
目(2009SCUll030,JS20091014507022)
通信作者:唐常杰(cjtang@scu.edu.cn)
万方数据
段磊等:中国出生缺陷数据挖掘系统HeahhyBaby
1.数据预处理.利用近30年来全国医院出生缺陷监测数据、各省级监测数据、干预现状调查数据进行多源数据的融合和预处理工作.包括数据清理、数据融合和集成、数据转换等.
2.提供基于30年出生缺陷监测数据的在线分析处理功能.建立出生缺陷数据仓库,将不同类型、不同来源的国家级、省级的多个监测数据集成至其中.并在此基础上进行在线分析处理(oLAP)和在线分析挖掘(OLAM)操作.
3。知识发现算法设计.利用已有出生缺陷数据资源,设计、开发高效算法,从大规模数据库中提取知识,挖掘规律,进行决策支持.
4.数据挖掘新理论、新算法研究.
HealthyBaby系统开发平台为:JZEE+Java,稳
定、开发效率和可移植性高、易部署于多种应用服务器上.HealthyBaby系统结构为基于B/S模式.客户端无需安装软件.用户界面了采用AJAX技术,在不增加任何额外安装前提下,为用户提供了更加友好的用户体验.HealthyBaby采用基于角色访问控制(RBAC)的权限管理机制.用户登录后拥有与其
权限对应的界面布局和功能.图1描述了用户访问HealthyBaby系统的应用逻辑图.
图1
HealthyBaby应用逻辑图目前,HealthyBaby测试版本已通过国家“十一五”项目课题组中期进展交流会议验收,中国出生缺陷监测中心已开始对HealthyBaby进行试运行.
2
HealthyBaby特色技术
2.1
中国出生缺陷数据仓库
中国出生缺陷数据涵盖逾100项出生缺陷,300
多张表,300多个属性,初始事实表(facttable)包含60×106条记录.预处理后,事实表记录包括37×106条记录.测试表明,传统的索引技术难以获得满意的查询效率.为此,设计了新的OLAP数据存储模式
MetaGalaxy.运行表明:MetaGalaxy能有效减少
存储空间,提高查询效率,伸缩性好.关于Meta
万方数据
521
Galaxy的实现细节请见文献[-13.
2.2
oLAP查询及结果可视化
对于系统用户,HealthyBaby中OLAP查询有
下列特色:1)输入清晰,提供了简洁灵活的查询条件输入窗口;2)查询效率高,通常在毫秒级时间完成;3)查询结果可视化,HealthyBaby支持柱状图、饼图等方式显示0LAP查询结果.
图2、图3分别示例了HealthyBaby柱状图和饼图显示0LAP查询结果的截图.
图2
HealthyBaby系统OLAP查询及柱状图显示
图3HeahhyBaby系统OLAP查询及饼图显示
2.3出生缺陷地理信息分析
出生缺陷地理信息分析可视为含“Where地理维度特定值”约束集合的特殊OLAP分析.
图4
HeahhyBaby系统出生缺陷地理信息显示
HeahhyBaby出生缺陷地理信息分析功能模块称为BD-GIS(birthdefects—GIS),要点包括:1)界面布局直观,出生缺陷地理信息分析界面为3窗口,右侧大窗是出生缺陷各监测点分布信息.左侧上下窗分别是当地高发出生缺陷分布信息和当地检测点的详细信息.如图4所示.2)适应我国出生缺陷监测三级体制,可任意查看各级监测点的信息.3)在正常网速的情况下,出生缺陷地理分析运行流畅、平稳.
2.4知识发现
HeahhyBaby提供了出生缺陷数据的多种挖掘算法.目前版本含关联规则、分类、聚类等典型算法和若干特色算法.图5为HealthyBaby系统建立出生缺陷分类决策树的结果.特色算法包括朴素干预规则挖掘、基于数据流的未知干预发现、基于并行事件序列的干预规则挖掘等.这些算法的设计思想及实现细节,请详见文献[2—5].
图5
HeahhyBaby系统建立出生缺陷分类决策树
3基于HealthyBaby的数据挖掘新研究
3.1干预规则挖掘
数据处理有4个哲学层次,即搜集、存储、挖掘和干预.搜集存储是手脑的延伸,挖掘是认识自然,干预是在尊重自然的前提下改造自然,是数据处理活动的最高境界.典型干预如局部气候干预、金融调控、糖尿病干预、出生缺陷干预,等等.
干预不是藐视自然,而是“循律促变”;发现并遵
循事物发展的动力学规律,施加干预,使被干预对象向人们期望的方向发展.通常含3个要点:1)挖掘数据干预动力学规律,即干预规则;2)挖掘对象对干预
的响应规律,发现有效干预措施和力度;3)见微知
著,从对象微变发现和预测外界干预因素.分析结果广泛应用于工程、科研和社会调控、政策评价等领
域,为决策提供有力的依据.
万方数据
计算机研究与发展2010,47(增刊)
为简洁解释干预规则挖掘,给出了必要的符号和术语,限于篇幅,主要通过例子来说明思路.
被干预对象记为o,其状态记为S。,干预手段F,预期干预效果为S。(干预实施后0的预期状态),实际干预效果为Si(干预实施后O的实际状态).干预行为表达为
/nv(0,F):S。一S。.
F
干预规则挖掘分为3类【6],下面举例说明.第1类干预规则.已知当前状态S。,干预措施F,预测干预F实施后,干预效果S卜
例1.已知某地婴儿神经管缺陷的发病率,预测对产妇补充叶酸(降低婴儿神经管缺陷的一种措施)后,该地区出生婴儿患神经管缺陷的发病率.
第2类干预规则.已知当前状态S。,干预措施F,设£描述干预措施的实施参数(如:强度、频率等).求达到预期干预效果S。,e的取值.
例2.已知产妇补充叶酸能降低婴儿神经管缺陷发病率,为使得某地出生婴儿该缺陷发病率降低声(预期干预效果),应该补充多大剂量的叶酸?
该类任务的另一种形式是求取要达到最佳干预效果,干预措施的实施参数.
第3类干预规则.已知当前状态S。,预期干预
效果S。,挖掘能达到干预目的的干预措施F.
例3.已知某地区某类出生缺陷发病率为p.通
过对比其他地域同类缺陷发病情况,利用数据挖掘方法挖掘能使该缺陷发病率降低p7的潜在规则.
上述3类任务中,挖掘能到达预期干预效果的
干预规则难度最大.通常还需要结合领域知识.
将干预规则挖掘任务分为:1.静态数据的干预规则挖掘;2.流数据对象的干预规则挖掘;3.不确定数据的干预规则挖掘.
根据分类基数,可将干预规则挖掘任务分为:1.单个体干预规则挖掘.例如:对某一特定产妇
进行出生婴儿缺陷干预.
2.类个体干预规则挖掘.例如:对某一地区产妇
进行出生婴儿缺陷干预.
干预规则挖掘可广泛地应用于其他领域中.
3.2亚复杂系统
为简化研究对象、降低研究难度,作者提出了“亚复杂系统”模型【7。.它是在对复杂系统进行特征提取、抽取主要因素、降低数据维度等操作后,得到
的目前有可能做出工程性解决方案的系统.具有下
段磊等:中国出生缺陷数据挖掘系统HeahhyBaby列优点:1)屏蔽了复杂系统中次要或噪声因素;2)便
于“分而治之”,亚复杂系统概念和相关方法深化和
指导了HealthyBaby系统的建设及应用.
4
HealthyBaby演示要点
限于篇幅,我们这里没有将HeahhyBaby的特
色设计和实现技术详细列出.HeahhyBaby的特色设计包括:
1.界面设计.HeahhyBaby界面布局简洁,操作容易,应用Ajax技术提高用户使用体验.
2.机构管理.采用灵活的机构树管理系统用户
所在的各级机构.各级机构按层次管理.系统管理员
可以添加、修改机构.机构管理结合基于角色访问控制提高了系统使用的安全性.
3.0LAP查询.采用针对设计的MetaGalaxy
数据存储模式,支持增加新的缺陷监测项,查询简
便、高效.查询一般在毫秒级完成.
4.出生缺陷地理信息分析.根据现行出生缺陷监测的三级体系.HealthyBaby提供出生缺陷地理信息分析.授权用户可直观地查看其授权区域的出
生缺陷地理信息分析.
5.数据挖掘.HeahhyBaby提供了面向出生缺
陷数据的关联规则、分类、聚类等数据挖掘算法.为开展适用于出生缺陷数据的数据挖掘算法研究提供
了技术平台.
6.干预规则挖掘.针对出生缺陷干预需求,HealthyBaby提供了若干干预规则挖掘算法.干预规则挖掘是数据挖掘研究的一个新领域.
参
考
文
献
It]ZuoJie,TangChangjie,Duan
Lei,eta1.Metagalaxy:A
flexible
and
efficientcubemodel
fordata
retrieval
in
OLAP//
LNCS5731:Proc
ofthe
Int
Workshop
on
Database
and
InformationRetrieval&Aspectsin
EvaluatingHolistic
QualityofOntology-basedInformation
Retrieval(APWeb_
WAlM
Workshop).Berlin:Springer,2009;234—244
万方数据
523
[2]DongGuozhu,Duan
Lei,TangChangjie.Mining
disease
stateconverters
formedicalinterventionofdiseases.Journal
ofBioinformatiesandComputationalBiology,2010,8(1):
77-97
[3]张悦。唐常杰,李川,等.出生缺陷监测数据中的朴素干预
规则挖掘.计算机科学与探索,2009,1(2):188-197[4]Wang
Yue,TangChangjie,YangNing,et
a1.Intervention
events
detectionandpredictionin
data
streams//LNCS
5446:
ProcofAPWeb—WAIM
2009.Berlin:Springer,2009:519—
525
[5]Yang
Ning,Tang
Changjie,Wang
Yue,et
a1.Mining
interventionsfrom
parallel
event
sequences//LNCS
5446:
ProcofAPWeb-WAIM2009.Berlin:Springer,2009:297—
307
[6]唐常杰,段磊.王悦。等.干预规则挖掘的任务分类和3项
技术进展.计算机应用,2010,30(1):10—14
[7]唐常杰,张悦。唐良,等.亚复杂系统中动力学干预规则挖
掘技术研究进展.计算机应用,2008,28(11):2732—2736・
2748
段磊男,1981年生,博士,讲师,主要研究方向为数据库技术、数据挖掘.
左劫男,1977年生,博士,讲师,主要研究方向为数据库技术、数据挖掘.
李川男,1977年生,博士,副教授,主要研究方向为
数据库技术、数据挖掘.
豫瑜男,1974年生,博士,讲师,主要研究方向为数
据库技术、数据挖掘.
唐常杰男,1946年生,教授,博士生导师,主要研究方向为数据库技术、数据挖掘.
朱军女,1964年生,教授,主要研究方向为出生缺陷干预.
代礼男,1974年生,博士,副教授,主要研究方向为
出生缺陷干预.
牟昕男,1986年生,硕士,主要研究方向为数据库
技术、数据挖掘.