国土资源数据与信息

2024-08-27

国土资源数据与信息(11篇)

1.国土资源数据与信息 篇一

ICS 35.240 L 70

DB37 山 东 省 地 方 标 准 DB 37/T XXXXX—2020

政务信息资源 数据集 人口 第 2 部分:

户籍人口信息 Government information resource—Data sets—Population —Part 2:

Registered population information

(报批稿)

2020-XX-XX 发布 2020-XX-XX 实施 山东省市场监督管理局

发 布

DB37/T XXXXX—2020

I 目

次 前言................................................................................II 引言...............................................................................III 1 范围..............................................................................1 2 规范性引用文件....................................................................1 3 术语和定义........................................................................1 4 总则..............................................................................2 5 户籍人口信息数据集................................................................2 6 户籍迁入信息数据集................................................................5 7 户籍迁出信息数据集................................................................8

DB37/T XXXXX—2020

II 前言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。

本文件由山东省大数据局提出并归口。

本文件起草单位:山东省大数据局,山东新一代标准化研究院有限公司,山东省计算中心(国家超级计算济南中心),山东省政法委,山东省大数据中心,济宁市大数据中心。

本文件主要起草人:王伟,刘建涛,张东,王雅坤,林林,刘彭彭,厉文,张淼,赵春霖,张媛,史丛丛,王溪,李杨,逄锦山。

DB37/T XXXXX—2020

III 引

言 DB37/T XXXX《政务信息资源 数据集 人口》旨在规范政务信息资源人口数据集相关内容,由以下部分构成。

——第1部分:出生登记信息。

——第2部分:户籍人口信息。

——第3部分:流动人口信息。

——第4部分:婚姻登记信息。

——第5部分:养老保险信息。

——第6部分:医疗保险信息。

——第7部分:失业保险信息。

——第8部分:工伤保险信息。

——第9部分:生育保险信息。

——第10部分:死亡信息。

——第11部分:……

DB37/T XXXXX—2020政务信息资源 数据集 人口 第 2 部分:户籍人口信息 1 范围 本文件规定了户籍人口信息数据集的数据项名称、数据项定义、数据类型及格式、数据元标识符、值域代码标识符、数据来源及备注等。

本文件适用于户籍人口信息资源的采集、存储及交换共享。

注:本文件规定的户籍人口信息主要依据居民户口簿、居民身份证、准迁证、迁移证等信息。规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T 2260

中华人民共和国行政区划代码 GB/T 2261.1

个人基本信息分类与代码 第1部分:个人性别代码 GB/T 2659

世界各国和地区名称代码 GB/T 3304

中国各民族的罗马字母拼写法和代码 GB/T 4658

学历代码 GB/T 4761

家庭关系代码 GB/T 6565

职业分类与代码 GB/T 19488.1

电子政务数据元 第1部分:设计和管理规范 GB/T 19488.2

电子政务数据元 第2部分:公共数据元目录 GA 214.12

常住人口管理信息规范 第12部分:宗教信仰代码 GA/T 543.1

公安数据元(1)GA/T 543.6

公安数据元(6)GA/T 1221

户籍管理信息数据项 GA/T 2000.22

公安信息代码 第22部分:人口迁移(流动)原因代码 GA/T 2000.36

公安信息代码 第36部分:兵役状况代码 GA/T 2000.37

公安信息代码 第37部分:血型代码 DB37/T 3448.3

政务服务平台 第3部分:基础代码集 DB37/T XXXXX—2020

政务信息资源 数据元 第1部分:人口 DB37/T XXXXX—2020

政务信息资源 数据元 第2部分:法人单位 DB37/T XXXXX—2020

政务信息资源 数据元值域代码 第1部分:人口 DB37/T XXXXX—2020

政务信息资源 数据标准 基本要求 3 术语和定义 GB/T 19488.1和DB37/T XXXXX—2020(政务信息资源 数据标准 基本要求)界定的术语和定义适用于本文件。

DB37/T XXXXX—20204 总则 数据集属性符合DB37/T XXXXX—2020(政务信息资源 数据标准 基本要求)第7章要求。户籍人口信息数据集 户籍人口信息数据集见表1。

表1 户籍人口信息数据集 序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 1 姓名 在户籍管理部门正式登记注册,人事档案中正式记载的姓氏名称。

a..50 DE00101001

公安部门等 GB/T 19488.2 中“姓名” 2 身份证件类型代码 由特定机构颁发的可以证明个人身份的证件类型的代码。

n2 DE00101003 CS00101001 公安部门等

DB37/T 3448.3中“身份证件类型代码” 3 身份证件号码 身份证件上记载的、可唯一标识个人身份的号码。

an..18 DE00101004

公安部门等

GB/T 19488.2 中“ 身 份 证 件 号码” 4 曾用名 曾经在户籍管理部门正式登记注册、人事档案中正式记载的姓氏名称。

a..50 DE00101001

公安部门等

GB/T 19488.2 中“姓名” 5 性别代码 人的性别代码。

n1 DE00101006 CS00101002 公安部门等

GB/T 2261.1 中“性别代码” 6 民族代码 个人所属的,经国家认可在户籍管理部门登记注册的民族名称代码。

n2 DE00101008 CS00101003 公安部门等

GB/T 3304 中“民族数字代码” 7 出生日期 出生证签署的,并在户籍部门正式登记注册、人事档案中记载的日期。

YYYYMMDD或YYYY-MM-DD DE00101023

公安部门等

GB/T 19488.2 中“出生日期” 8 照片 身份证件上的照片。照片的大小、格式等应根据具体应用来确定,建议照片的数据格式为JPG。

二进制 DE00101026

公安部门等

GB/T 19488.2 中“照片” 9 户号 户的管理编号,长度不满 9 位的应前置补“0”。

n9 DE00103001

公安部门等

GA/T 543.6 中“户号”

DB37/T XXXXX—2020表1 户籍人口信息数据集(续)

序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 10 与户主关系代码 户成员与户主的关系代码。

n..2 DE00103003 CS00103001 公安部门等

GB/T 4761 中“家庭关系代码”文化程度代码 个人在教育机构接受科学,文化知识训练并获得国家教育行政部门认可的学历证书代码。

n2 DE00101012 CS00101005 公安部门等

GB/T 19488.2中“学历名称代码” 12 兵役状况代码 个人服兵役情况的代码。

n1 DE00101020 CS00101009 公安部门等

GA/T 2000.36中“兵役状况代码” 13 宗教信仰代码 个人宗教信仰的代码。

n2 DE00101022 CS00101010 公安部门等

GA 214.12 中“宗教信仰代码” 14 身高 个人的身高。

n..3 DE00101025

公安部门等

GA/T 543.1 中“身高”,计量单位为厘米 15 血型代码 个人的血型代码。

n1 DE00101018 CS00101008 公安部门等

GA/T 543.6 中“血型代码” 16 职业代码 个人为获取主要生活来源所从事的社会性工作的类别代码。

n5 DE00101014 CS00101006 公安部门等

GB/T 19488.2中“职业代码” 17 服务处所 个人服务的场所、单位名称。

an..100 DE00201002

公安部门等

GB/T 19488.2中“机构名称” 18 出生地国家和地区代码 个人出生地国家和地区代码。

n3 DE00101030 CS00101011 公安部门等

GB/T 2659 中“国家和地区代码” 19 出生地省市县(区)代码 个人出生地的县级以上行政区划代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 20 出生地区划内详细地址 个人在区、县级行政区划所辖区域内的出生地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 21 籍贯国家和地区代码 个人祖居地或原籍地国家或地区代码。

n3 DE00101030 CS00101011 公安部门等

GB/T 2659 中“国家和地区代码”

DB37/T XXXXX—2020表2 户籍人口信息数据集(续)

序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 22 籍贯省市县(区)代码 个人祖居地或原籍地县级及县级以上代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 23 籍贯区划内详细地址 个人在区、县级行政区划所辖区域内的祖居地或原籍地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 24 户籍地址编码 用于唯一标识户籍地址元素的字符串。符合 GUID(全球统一标识符)规则,由数字(0-9)、大写字母(A-F)和连接符(-)组成的具有唯一性的字符串。

an36 DE00103004

公安部门等

GA/T 1221 中“户籍地址编码” 25 住址 个人的居住地点或机构所在地的名称。

an..100 DE00101036

公安部门等

GB/T 19488.2 中“详细地址” 26 签发机关 身份证件、凭证签发机关的名称。

an..100 DE00201002

公安部门等

GB/T 19488.2 中“机构名称” 27 签发机关统一社会信用代码 签发机关在全国范围内唯一的、终身不变的法定身份识别码。

an18 DE00201001

公安部门等

应满足 GB 32100中的编码要求 28 户籍登记日期 户籍登记的日期。

YYYYMMDD或YYYY-MM-DD

DE00101037

公安部门等

GB/T 19488.2 中“日期” 29 有效期起始日期 身份证件、凭证有效期的起始日期。

YYYYMMDD或YYYY-MM-DD

DE00101037

公安部门等

GB/T 19488.2 中“日期”有效期截止日期 身份证件、凭证有效期的截止日期。

YYYYMMDD或YYYY-MM-DD

DE00101037

公安部门等

GB/T 19488.2 中“日期”

DB37/T XXXXX—20206 户籍迁入信息数据集 户籍迁入信息数据集见表2。

表2 户籍迁入信息数据集 序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 1 姓名 在户籍管理部门正式登记注册,人事档案中正式记载的姓氏名称。

a..50 DE00101001

公安部门等

GB/T 19488.2 中“姓名” 2 身份证件类型代码 由特定机构颁发的,可以证明个人身份的证件类型代码。

n2 DE00101003 CS00101001 公安部门等

DB37/T 3448.3中“身份证件类型代码” 3 身份证件号码 身份证件上记载的、可唯一标识个人身份的号码。

an..18 DE00101004

公安部门等

GB/T 19488.2 中“ 身 份 证 件 号码” 4 曾用名 曾经在户籍管理部门正式登记注册、人事档案中正式记载的姓氏名称。

a..50 DE00101001

公安部门等

GB/T 19488.2 中“姓名” 5 性别代码 人的性别代码。

n1 DE00101006 CS00101002 公安部门等

GB/T 19488.2 中“性别代码” 6 民族代码 个人所属的,经国家认可在户籍管理部门登记注册的民族的代码。

n2 DE00101008 CS00101003 公安部门等

GB/T 19488.2 中“ 民 族 数 字 代码” 7 出生日期 出生证签署的,并在户籍部门正式登记注册、人事档案中记载的日期。

YYYYMMDD或YYYY-MM-DD DE00101023

公安部门等

GB/T 19488.2 中“出生日期” 8 出生地国家和地区代码 个人出生地国家和地区代码。

n3 DE00101030 CS00101011 公安部门等

GB/T 2659 中“国家和地区代码” 9 出生地省市县(区)代码 个人出生地的县级以上行政区划代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“省市县代码” 10 出生地区划内详细地址 个人在区、县级行政区划所辖区域内的出生地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2 中“详细地址” 11 户号 户的管理编号,长度不满 9位的应前置补“0”。

n9 DE00103001

公安部门等

GA/T 543.6 中“户号” 12 与户主关系代码 户成员与户主的关系代码。

n..2 DE00103003 CS00103001 公安部门等

GB/T 4761 中“家庭关系代码”

DB37/T XXXXX—2020表2 户籍迁入信息数据集(续)

序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 13 文化程度代码 个人在教育机构接受科学,文化知识训练并获得国家教育行政部门认可的学历证书的代码。

n2 DE00101012 CS00101005 公安部门等

GB/T 19488.2中“学历名称代码” 14 兵役状况代码 个人服兵役情况的代码。

n1 DE00101020 CS00101009 公安部门等

GA/T 2000.36中“兵役状况代码” 15 宗教信仰代码 个人宗教信仰的代码。

n2 DE00101022 CS00101010 公安部门等

GA 214.12 中“宗教信仰代码” 16 身高 个人的身高。

n..3 DE00101025

公安部门等

GA/T 543.1 中“身高”,计量单位为厘米 17 血型代码 人的血型代码。

n1 DE00101018 CS00101008 公安部门等

GA/T 543.6 中“血型代码” 18 工作单位名称 个人所在工作单位的名称。

an..100 DE00201002

公安部门等

GB/T 19488.2中“机构名称” 19 工作单位统一社会信用代码 工作单位在全国范围内唯一的、终身不变的法定身份识别码。

an18 DE00201001

公安部门等

应 满 足 GB 32100 中的编码要求 20 职业代码 个人为获取主要生活来源所从事的社会性工作的类别代码。

n5 DE00101014 CS00101006 公安部门等

GB/T 19488.2中 “ 职 业 代码”。籍贯国家和地区代码 个人祖居地或原籍地国家或地区代码。

n3 DE00101030 CS00101011 公安部门等

GB/T 2659 中“国家和地区代码” 22 籍贯省市县(区)代码 个人祖居地或原籍地县级及县级以上代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 23 籍贯区划内详细地址 个人在区、县级行政区划所辖区域内的祖居地或原籍地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 24 户籍地址编码 用于唯一标识户籍地址元素的字符串。符合 GUID(全球统一标识符)规则,由数字(0-9)、大写字母(A-F)和连接符(-)组成的具有唯一性的字符串。

an36 DE00103004

公安部门等

GA/T 1221 中“户籍地址编码”

DB37/T XXXXX—2020表2 户籍迁入信息数据集(续)

序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 25 户籍地址省市县(区)代码 户籍地址县级及县级以上代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 26 户籍地址区划内详细地址 个人在区、县级行政区划所辖区域内户籍地址的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 27 迁出地省市县(区)代码 迁出地县级及县级以上代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 28 迁出地区划内详细地址 个人在区、县级行政区划所辖区域内迁出地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 29 迁移(流动)原因代码 个人迁移流动的原因代码。

an3 DE00103006 CS00103002 公安部门等

GA/T 2000.22中“人口迁移(流动)原因代码” 30 准迁证编号 准迁证的编号,1-2 位为省、自治区、直辖市的通用简称,第 3-10 位为 8 位阿拉伯数码组成。

an10 DE00103007

公安部门等

GA/T 543.6 中“ 准 迁 证 编号” 31 迁移证编号 迁移证的编号,1-2 位为省、自治区、直辖市的通用简称,第 3-10 位为阿拉伯数字组成。

an10 DE00103008

公安部门等

GA/T 543.6 中“ 迁 移 证 编号” 32 迁入日期 户籍迁入的日期。

YYYYMMDD或YYYY-MM-DD DE00101037

公安部门等

GB/T 19488.2中“日期” 33 办理单位名称 户籍迁入办理单位的名称。

an..100 DE00201002

公安部门等

GB/T 19488.2中“机构名称” 34 办理单位统一社会信用代码 办理单位在全国范围内唯一的、终身不变的法定身份识别码。

an18 DE00201001

公安部门等

应 满 足 GB 32100 中的编码要求

DB37/T XXXXX—20207 户籍迁出信息数据集 户籍迁出信息数据集见表3。

表3 户籍迁出信息数据集 序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 1 姓名 在户籍管理部门正式登记注册,人事档案中正式记载的姓氏名称。

a..50 DE00101001

公安部门等

GB/T 19488.2中“姓名” 2 身份证件类型代码 由特定机构颁发的,可以证明个人身份的证件类型代码。

n2 DE00101003 CS00101001 公安部门等

DB37/T 3448.3中“身份证件类型代码” 3 身份证件号码 身份证件上记载的、可唯一标识个人身份的号码。

an..18 DE00101004

公安部门等

GB/T 19488.2中“身份证件号码” 4 性别代码 人的性别代码。

n1 DE00101006 CS00101002 公安部门等

GB/T 19488.2中“性别代码” 5 民族代码 个人所属的,经国家认可在户籍管理部门登记注册的民族的代码。

n2 DE00101008 CS00101003 公安部门等

GB/T 19488.2中“民族数字代码” 6 出生日期 出生证签署的,并在户籍部门正式登记注册、人事档案中记载的日期。

YYYYMMDD或YYYY-MM-DD DE00101023

公安部门等

GB/T 19488.2中“出生日期” 7 迁入地省市县(区)代码 迁入地县级及县级以上代码。

n6 DE00101032 CS00101012 公安部门等

GB/T 2260 中“ 省 市 县 代码” 8 迁入地区划内详细地址 个人在区、县级行政区划所辖区域内迁入地的完整描述。

an..100 DE00101036

公安部门等

GB/T 19488.2中“详细地址” 9 迁移(流动)原因代码 个人迁移流动的原因代码。

an3 DE00103006 CS00103002 公安部门等

GA/T 2000.22中“人口迁移(流动)原因代码” 10 准迁证编号 准迁证的编号,1-2 位为省、自治区、直辖市的通用简称,第 3-10 位为 8 位阿拉伯数码组成。

an10 DE00103007

公安部门等

GA/T 543.6 中“ 准 迁 证 编号” 11 迁移证编号 迁移证的编号,1-2 位为省、自治区、直辖市的通用简称,第 3-10 位为阿拉伯数字组成。

an10 DE00103008

公安部门等

GA/T 543.6 中“ 迁 移 证 编号”

DB37/T XXXXX—2020表3 户籍迁出信息数据集(续)

序号 数据项名称 数据项定义 数据类型及格式 数据元标识符 值域代码标识符 数据来源 备注 12 迁出日期 户籍迁出的日期。

YYYYMMDD或YYYY-MM-DD DE00101037

公安部门等

GB/T 19488.2中“日期” 13 办理单位名称 户籍迁出办理单位的名称。

an..100 DE00201002

公安部门等

GB/T 19488.2中“机构名称” 14 办理单位统一社会信用代码 办理单位在全国范围内唯一的、终身不变的法定身份识别码。

an18 DE00201001

公安部门等

应 满 足 GB 32100 中的编码要求

_________________________________

2.国土资源数据与信息 篇二

处于现代信息社会, 高校人力资源管理的核心字眼将是“信息”二字。目前, 高校人事部门利用管理信息系统已经积累了大量的数据, 但对现有数据资源缺乏有效的组织、整理和提取, 进行客观分析难度很大, 在其中寻找决策支持时更显得不知所措。基于高校人力资源管理工作量大, 工作内容繁琐而又重要等因素, 迫切需要实现信息管理的科学性、系统性。数据仓库技术的出现及发展, 大大简化了数据的整合与转换, 它能对繁杂的数据进行有效地组织, 通过公正客观的统计和分析, 快速而正确地找出隐含的模式, 准确地掌握未来动态, 提高数据利用的效率和能力。随着竞争的日益激烈, 高校要想获得跨越式发展, 必须充分利用先进的信息技术, 高校人事部门建立高校人力资源数据仓库, 用数据挖掘辅助决策分析将成为发展趋势。

1. 设计高校人力资源数据仓库

数据仓库是一个面向对象的、结合的、非易失性的、时间可变的、用于管理决策支持的数据集合[1]。数据仓库首先可以被看作一个特殊的DBMS, 我们所开发的平台包含如图1所示:

高校人力资源数据仓库建立的过程实际上是从传统的以数据库为中心的操作型系统结构转移到以数据仓库为中心的体系结构的过程。要实现体系结构的变迁, 要做的第一件事就是了解系统己经具备了哪些数据, 这是建立数据仓库的基点。了解系统具有的数据之后, 可以根据用户需求分析确定数据挖掘系统主题。对于一个大型的数据仓库系统, 涉及的业务系统众多、功能复杂, 因此采用螺旋式开发方法, 通过将庞大的目标分成若干个实施阶段, 分而治之[2]。关联规则挖掘子系统是其中比较简单明确的小问题之一。

2. 高校人力资源数据仓库数据的预处理与转换

论文采用的人力资源数据集取自江西南昌一所理工科大学, 是一个真实的数据集 (数据集隐去了工号、姓名等个人隐私信息) 。

数据集记录了员工的个人统计信息、学位、专业、技术职称、本校工作经历等信息。数据集中反映员工基本个人信息的数据库特征有数百个之多, 分布在数10个数据库表中。根据专家建议, 选取了有代表意义的特征24个, 包括:所属部门、国籍、民族、出生日期、聘用日期、工作日期、性别、职称系列、职称名称、职称开始时间、职称级别、工作岗位、工作性质、学位、教育时间、教育水平、毕业时间、毕业院校、专业、职务级别、职务、干部任命日期、级别名称、党派等。

采用相关统计工具, 对“基本信息”数据子集中的部分数据进行基本的统计和分析。如:年龄中最小的为25, 最大的为68;毕业院校中共涉及174所高校, 其中本校毕业有286个, 占8.4%, 国外及港澳大学48个, 占6.4%, 国内其他大学411个55.2%;党派中共有8个党派, 其中中国共产党党员有491位, 占57.2%等等。

数据集的数据整理遵循以下几点原则:

(1) 删除与科研能力没有显著相关性的特征, 如“所属部门”、“国籍”、“民族”、“干部任命日期”等。

(2) 删除底层概念 (描述更为明细) 特征, 保留有更高层抽象概括白价待征。如删除“职称系列”、“工作岗位”, “职称开始时间”等描述专业技术职务相关的内容, 保留“职称名称”, “职称级别”两个特征。

(3) 删除特征取值定义混淆的特征, 或将其取值明确。如“教育水平”中的分类不够准确清晰而被删除。原“学位”特征既描述员工学习专业, 又描述员工获得的最高学位, 将其表述明确为最高学位。

数据集的数据整理方法如下:

(1) 将日期型特征变量转化为数值型。如用“年龄”, “校龄”, “工龄”特征分别表示原来的“出生日期”、“聘用日期”、“工作日期”等特征变量。

(2) 将数值型特征变量离散化。离散化的准则是离散化后的每一个特征离散化取值所包含的员工数接近, 同时离散化过程对离散化的划分点不敏感[3]。根据这个准则, 对数值型特征取值的分布绘图, 在数据分类汇总的图形按谷底分类, 将数据离散化。如“年龄”变量可以离散化成3段:25岁一40岁、41岁一50岁和51岁一68岁。同理, 亦可进行“校龄”、“工龄”等特征变量的离散化。

(3) 对分类型特征变量值归约。如将“学位”的特征值归约为“本科、硕士、博士”三类, “党派”归约为“党员、民主党派、群众”三类。部分特征可有不同的特征变量值归约结果, 如“毕业院校”可归约为“本校、国内其他大学、国外及港澳大学”三类, 或“本校、其他211院校、国外及港澳大学、其他”四类, 或“本校、985院校、国外及港澳大学、其他”四类。

经过以上数据处理, 数据集包含有14个独立的特征, 其中部分特征保留不同的特征表达方式 (数值型、分类型) 以适用于不同的数据挖掘算法。保留的14个独立特征包括:出生日期 (年龄) , 聘用日期 (校龄) , 工作日期 (工龄) , 性别, 职称名称, 职称级别, 学位, 毕业时间, 毕业院校, 专业, 职务级别, 职务, 级别名称, 党派等。

3、高校人力资源数据仓库的构建

3.1 建立数据集

可以使用SQL Server的Query Analyzer工具, 具体步骤如下:

(1) 、打开SQL Server中的Query Analyzer工具

(2) 、选择好将要运行的数据库编写生成表的CREATE语句, 然后运行即可

也可以这样建立数据集:在SQL Server的Enterprise Manager中通过选择数据库, 然后单击鼠标右键选择New Table属性, 进入New Table窗口, 再一步一步操作即可。

3.2 浏览数据集

有四种方式可对数据集进行浏览:第一种是在装有PowerBuilder的数据仓库管理工作站上利用PowerBuilder中的Database窗口进行浏览;第二种是在SQL Server的Query Analyzer工具中编写SQL语句 (也可利用系统存储过程) , 然后运行即可得到相应的结果;第三种是在SQL Server的Enterprise Manager中通过选择数据库直接浏览;第四种是在平台目录维护模块中间接浏览。

下图所示即为高校人力资源数据仓库的星型结构图:

4. 关联规则挖掘

关联分析是一类常用的数据挖掘任务, 用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则的形式表示。由于搜索空间是指数规模的, 所以关联分析的目标是以有效的方式提取最有趣的模式。关联模式发现早期主要用于零售业交易数据分析, 进行物品更合理的摆放, 最终提高销售量, 因此该方法有时也称为“货篮分析”[3]。

关联规则定义描述如下:设I={i1, i2, i3, ...im) 是由m个不同的数据项组成的集合, 其中的元素称为项, 项的集合称为项集, 包含k个项的项集称为k项集, 给定一个事务 (交易) D, 即交易数据库, 其中的每一个事务 (交易) T是数据项I的一个子集, 即T I, T有一个惟一的标识符TID;当且仅当X T时, 称交易T包含项集X;那么关联规则就形如“X→Y”的蕴涵式;其中, X I, Y I X∩Y=, 即表示满足X中条件的记录也满足Y。关联规则在交易数据库中成立, 具有支持度s (support) 和具有置信度c (confindence) [4]。

4.1 经典关联规则挖掘Apiroir算法的研究与分析

Apiroir算法是第一个通过频繁项目集来挖掘布尔型关联规则的很有影响的算法, 许多其他关联规则挖掘算法都是以Apriori算法的基本思想为核心的[5]。

Apriori算法利用了频繁项集的先验知识, 采用广度优先搜索策略, 使用一种逐层搜索的迭代方法来找出所有的频繁项集, 然后根据置信度对频繁项集逐一生成规则。它开创性地使用了基于支持度的剪枝技术, 控制了候选项集的指数增长。下面是Apriori算法产生频繁项集的过程:

其中, I表示事务数据库, Fk表示频繁k-项集, Ck表示候选k-项集, σ (c) 表示包含项集c的记录数, N表示事务数据库I的记录总数, minsup表示最小支持度。

该算法初始通过单遍扫描数据集, 确定每个项的支持度。完成这一步, 就得到了所有频繁1一项集的集合F, (步骤1和2) .

接下来, 算法将使用上一次迭代发现的频繁 (k-1) 一项集, 产生新的候选k-项集 (步骤5) 。候选项集的产生使用apriori-gen函数实现。

为了对候选项的支持度计数, 算法需要再次扫描一遍数据集 (步骤6-10) 。计算完候选项的支持度计数后, 算法将删去支持度小于minsup的所有候选项集 (步骤12) .当没有新的频繁项集产生, 即Ft为空集时, 算法结束[步骤13) .

关联规则挖掘算法的核心是寻找频繁项集, 这一步决定了关联规则挖掘算法的总体性能。要求解这个问题, 往往需要多次扫描数据库, 这意味着大量的时间将花在数据库扫描和I/O操作上。因此, 如何迅速、高效地找出所有频繁项集是各种关联规则挖掘算法需要解决的主要问题, 也是衡量各种关联规则挖掘算法优劣的标准。

本算法利用SQL技术直接生成频繁项集, 并将结果保存到临时表中, 省去了Apriori算法中产生候选集的步骤.如生成职称 (title) 、学位 (degree) 组合的频繁2-项集的SELECT语句可以写为如下形式:

其中basic_info是待挖掘表名, 11_mincount是满足最小支持度的最小记录数。

利用这种方法产生频繁项集的效率主要由执行SQL语句的次数来决定, 即可能产生频繁项集的不同属性组合数。本算法借鉴了Apriori算法的连接思想, 用连接操作产生各属性组合, 避免了组合重复出现的情况。从总体上看, 这种方法充分利用了在关系型数据库及数据仓库中进行挖掘的优势, 节省了计算候选项集的时间, 减少了算法对内存的依赖。

4.2 关联规则挖掘算法的实现

利用PowerBuilder8.0在程序中, 首先根据用户输入的相关信息, 获得待挖掘属性、最小支持度、最小置信度和最小影响度, 并将最小支持度转化为满足条件的最小记录数, 将待挖掘的各属性名保存到is_dfxl数组中.之后创建存放频繁项集的临时表, 将is_dfxl数组中的各属性名相互组合, 作为group衍语句的分组条件, 利用动态SQL语句生成各项频繁项集, 并将结果保存到相应的临时表中。然后依次对各项频繁项集生成规则。先生成规则后项数为1的规则组合, 通过计算置信度, 影响度筛选出符合条件的规则。再采用连接操作, 依次利用后项个数为k-1的规则生成后项数为k的符合要求的规则, 其中25≦k≦ll_p-1.ll_p为当前频繁项集的项数。最后, 将规则转换为用户可以理解的方式输出。

4.3 规则挖掘

根据统一编码, 分别为这些属性建立码表, 将数据插入到相应的码表中, 进入关联规则挖掘系统, 首先输入待挖掘属性名。第一次进行关联规则挖掘的属性为:age, degree, title, 即年龄、学位、职称在待挖掘表中的属性名, 然后输入各阈值。在本次挖掘中, 将最小支持度设为0.1, 最小置信度设为0.5, 最小影响度设为1.25。第一次挖掘结果如表1所示。

第二次进行关联规则挖掘的属性为:gender, age, degree, title, 即性别、年龄、学位、职称在待挖掘表中的属性名.在本次挖掘中, 将最小支持度设为0.15, 最小置信度设为0.6, 最小影响度设为1.2。第二次挖掘结果如表2所示。

4.4 关联规则的解释

在第一次挖掘时, 从规则学士→中年教师, 支持度13%, 置信度64%, 影响度1.26可知, 在教师中, 学位为学士的中年教师占了13%, 而置信度64%表明, 在学位为学士的教师中, 中年教师占64%.

从规则青年教师→中级, 支持度21%, 置信度68%, 影响度1.98可知, 在教师中, 职称为中级的青年教师占了21%, 而置信度68%表明, 在青年教师中, 具有中级职称的占68%.

分析以上两条规则, 我们可以看出师资队伍结构存在有待改进的地方:部分中年教师存在学位较低的问题:青年教师的职称水平普遍不高。

在第二次挖掘时, 加入了性别属性.通过对以下四条规则:正高→男, 支持度18%, 置信度84%, 影响度1.57;中级→女, 支持度21%, 置信度63%, 影响度1.34;博士, 男, 支持度25%, 置信度67%, 影响度1.26;硕士, 女, 支持度19%, 置信度61%, 影响度1.30的分析, 我们可以看出女教师的学位和职称水平有待提高。

通过进行关联规则挖掘并对生成的规则进行解释分析, 对于今后师资队伍建设工作, 我们得到了如下启示:

(1) 、高校师资队伍建设的途径主要有培养和引进两条, 从对上述关联规则的分析结果中我们可以发现, 在引进人才上, 应尽可能引进高学位高职称的年轻教师;在培养人才上, 应针对不同类型的教师采取不同的培养方式。

(2) 、得到的关联规则, 既可以帮助学校有关部门采取相关措施提高教师的学位层次、改善教师的职称结构, 如引进高学位人才, 或将本校已有教职工送出去进一步培训等, 也可以鼓励教师主动进修或攻读学位, 从而提高师资队伍的整体素质。

通过这个例子, 我们可以感受到用关联规则挖掘方法可以从大量数据中挖掘出表面上无法发现的数据间的关联性, 有利于决策者根据这些规则对本单位师资队伍建设工作做出进一步的合理调整和改进。

5. 结语

本文将关联规则挖掘应用于高校人力资源系统中, 分析教师基本信息之间存在的关联关系。高校人力资源数据仓库已经对各年度的教师基本信息数据进行了汇集和综合。本文利用其中一年工作情况事实表中的数据, 应用改进的关联规则挖掘算法, 挖掘教师年龄、职称、学位、性别等基本属性之间的关系及其相互影响, 试图发现教师在年龄结构、学位结构、职称结构等方面构成不尽合理的地方, 找出目前师资队伍结构存在的一些问题, 从而为高校师资队伍建设提供参考和依据, 为更合理地安排利用教师资源提供一定程度的决策支持, 实现师资队伍的优化。

参考文献

[1]William H.Inmon, 王志海译, 数据仓库 (第四版) .机械工业出版社, 2006.8

[2]Han J, et al.Generalization-based datamining in object-oriented databases usingan object-cube model.Data and KnowledgeEngineering.2003, Vol.25:55-97

[3]S.Papadimitriou, A.Brockwell, C.Faloutsos.Adaptive, unsupervised steam mining.VLDBJournal.2004.1, 3 (3) :2 22-239.

[4]Zhang Dan-ping, A Data WarehouseBased on University Human ResourceManagement, IFITA 2009, 2009.5:P655-658

3.国土资源数据与信息 篇三

关键词:数据流;交换共享

中图分类号:TP311.52文献标识码:A文章编号:1007-9599 (2011) 07-0000-02

Data flow Design and Research in Information Resources Exchange Sharing System

Chang Xianfa

(Heyuan Vocational and Technical College,Heyuan517000,China)

Abstract:The process of information exchange and sharing of resources,focus on information exchange platform given model and the advantages of three-tier structure,and described the shared data collection and use of data flow process,the data stream of information exchange and sharing of resources System provides a feasible solution.

Keywords:Data flow;Exchange and sharing

一、引言

随着现代计算机和通讯技术的飞速发展,为了避免资源浪费,实现资源共享,那么数据在各业务部门实现共享就成了一个非常重要的技术。信息交换平台是数据在各业务部门实现共享的基础;共享数据的数据流的采集是实现信息资源交换共享系统的前提;共享数据的数据流的使用是实现信息资源交换共享系统的最终目的。

二、信息交换平台的计算模型

信息交换平台的核心技术是应用集成代理。集成代理主要有统一访问构件和源适配器组成。统一访问构件根据不同的业务数据库都有一套规则去访问。源适配器主要有数据抽取构件、数据转换构件和数据出版构件组成。而目的适配器是源适配器的逆向转换,包括数据订阅构件、数据转换构件和数据保存构件。然后再通过统一访问构件把从业务数据库抽取到的数据放到中心数据库里。信息交换平台的计算模型如图1所示。

图1 信息交换平台的计算模型

从图1可以看出,信息交换平台的计算模型主要有3层:数据访问层、数据抽取层和数据交换层。在数据访问层中,主要是实现对各个不同的业务数据库(包括SQL Servler、Oracle和MySql等)的对接和无缝访问;数据抽取层是在数据访问层的基础上,把业务数据库有用的数据抽取出来,放到资源交换平台中;数据交换层相当于数据交换中心,把业务数据库的数据通过适配器转发给中心数据库,也可以把中心数据库的数据转发给业务数据库,实现数据库间的交换共享。

三、共享数据的数据流的采集

共享数据的数据流的采集是信息资源交换共享系统实现数据交换共享的基础。我们的目的就是最大限度的使用原有的资源,使各个数据库的数据资源达到共享。共享数据的数据流采集包括两部分:一部分是业务部门;一部分是数据中心。业务部门可根据需要定义自己的部分共享数据,定义的共享数据包括哪些数据需要共享,以及把这些数据共享给谁等等。而数据中心主要是存储各个业务数据库需要使用的基础数据,这样可以避免资源重复建设,最大有效的利用资源。

图2 共享数据采集流程

从图2的流程中可以看出数据流采集的过程。业务数据库不但对应于自己的业务应用系统,而且通过数据镜像子系统,可以把数据库里的数据抽取到采集库。采集库通过数据适配器把共享数据发送到数据中心。从而与数据交换中心的数据库里的数据进行交换。

四、共享数据的数据流的使用

共享数据的数据流的使用是信息资源交换共享系统实现数据交换共享的最终目的。通过数据交换中心,我们就可以把业务数据库里的共享数据抽取到共享数据库里。数据交换中心和承担着为业务数据库访问共享数据库的重任。

从图3我们可以清晰的看出共享数据流在业务部门中的使用流程。在业务部门放一个前置机,主要是通过数据交换适配器完成对共享库的访问和通过数据比对子系统比对共享数据库里的数据进行筛选、抽取和使用。业务部门不但可以有效使用共享库里的共享数据,还可以在基础数据一致性的基础上,对抽取的共享数据的使用具有选择性。

图3 共享数据流在业务部门中的使用流程

五、小结

本文介绍了信息交换平台的计算模型、业务部门和数据中心的交换流程和业务部门使用共享数据流程。通过数据交换中心,共享数据被发布到共享数据库里。通过数据交换适配器和前置机,方便各业务单位对共享数据库的访问和分发。

参考文献:

[1]宋继革.我国发电企业信息资源整合问题的研究[D].华北电力大学,2005,3,1

[2]黄萃.基于门户网站的电子政务信息资源整合机制研究[D].武汉大学,2005,4,1

[3]孙琳.企业信息资源整合的目录服务系统及应用研究[D].大连理工大学,2005,12,1

[4]杨传健.LDAP在政务资源整合中的数据一致性应用研究[D].合肥工业大学,2007,6,1

[5]May,Wolfgang,and Lausen,Georg.Auniform framework for integration of information from the web.Imformation Systems,2004,29(1):59-61

4.国土资源数据与信息 篇四

基于元数据仓储的图书馆信息资源管理研究

通过对国内图书馆信息资源开发利用现状分析,针对在图书馆信息资源利用过程中难以发现与管理所需信息的`实际问题,提出一种基于元数据仓储的信息资源管理方法,并设计出图书馆信息资源管理系统,对系统每个功能模块进行了详细介绍.

作 者:作者单位:刊 名:榆林学院学报英文刊名:JOURNAL OF YULIN UNIVERSITY年,卷(期):19(4)分类号:G250.7关键词:信息资源管理 元数据仓储 数据交换

5.矿产资源空间数据库的分析与设计 篇五

矿产资源空间数据库的分析与设计

在GIS软件和面向对象的关系数据库Oracle的支持下,从需求分析、概念结构设计、逻辑结构设计以及物理结构设计等几个方面,详细阐述了矿产资源空间数据库的`设计方案,并分析了空间数据库建立过程中必须注意的问题.

作 者:张望 洪金益 ZHANG Wang HONG Jin-yi 作者单位:中南大学地学与环境工程学院,湖南,长沙,410083刊 名:西部探矿工程英文刊名:WEST-CHINA EXPLORATION ENGINEERING年,卷(期):21(6)分类号:P62关键词:矿产资源 空间数据库 ArcGIS Oracle

6.野外数据采集与巡护信息系统 篇六

野外考察是获取数据资源的重要方法之一,它是保护自然保护区物种免受 人为破坏和开展大熊猫等物种的生态生物学研究的基础。卧龙及周边其它大熊 猫自然保护区每年都需要开展定期和不定期的野外调查,以获取物种分布和人 为干扰等数据。自然保护区的野外调查分为野外监测和野外巡护,获取的数据 包括动物生境信息、大熊猫粪便咬节、样线调查、竹子样方和植被样方等。目前,卧龙以及其它大熊猫自然保护区的野外调查数据获取方式是科研人 员提前准备好一定格式的纸质报表,在野外考察过程中手写录入。待回到办公 室后,再将获取的数据录入计算机系统。这种方法的缺点:(1)需要录入两次,效率较低,而且容易出错;(2)实时性差;(3)格式不规范;(4)无法集成 采集多信息源(文本、图片、音频、视频等);(5)纸质材料在野外环境下容 易破损和丢失,不便保存,也影响到数据的有效长期保存。另外在卧龙保护区 的保护和科研工作中,都要进行野外巡护,通常来说工作人员都是携带相关的 设备去野外进行调研,然后记录下这次野外巡护过程中经过的地点,在这些地 点拍的照片或者记录的信息,作为这次巡护过程的信息保存下来。目前这种记 录过程都是靠人工完成,而且无法把巡护的路径和照片等信息进行自动集成整合,实现野外巡护多源信息的自动化集成和保存。所以需要一套野外观测数据 的自动化采集与巡护信息系统。

5.5.1.2.2 标准规范

《全球定位系统(GPS)测量规范(GBT18314-2001)》 《全球定位系统城市测量技术规程(CJJ 73-97)》 《国家三角测量规范(GB/T 17942-2000)》

《数字地形图系列和基本要求(GB/T 18315-2001)》 《数字测绘产品质量要求第 1 部分(GB/T 1794.1-2000)》 《软件工程术语(GB/T 11457)》 《计算机软件开发规范(GB 8566)》

《计算机软件产品开发文件编制指南(GB 8567)》 《计算机软件质量保证计划规范(GB/T 12504)》 《计算机软件配置管理计划规范(GB/T 12505)》 《软件配置管理计划(CADCSC)》

5.5.1.2.3 建设方案

野外数据采集与巡护信息系统主要是根据自然保护区科研人员野外监测和巡护的需求,能够动态定制数据采集信息,在野外考察过程中通过携带的移动 设备实现数据的数字化采集,并能够将采集到的科学数据通过网络或者存储卡 自动导入后台数据库系统中。同时实现巡护路径和巡护信息获取与保存、无缝 集成和可视化展现,实现保护区巡护信息的有效管理,为巡护工作提供参考,更好的促进保护工作。该系统应主要实现如下功能:(1)野外数据采集:

1)基础数据维护:维护野外采集点的信息。

2)采集任务管理:生成采集任务,并将其发送到采集终端上。

3)采集数据管理及分析:接受采集到的信息,并根据业务需要进行分析和 管理。

4)身份认证:完成野外作业人员的身份认证管理。保证调查结果真实有效。5)任务获取:完成野外人员采集任务的获取。可获取阶段性任务和实时任务。6)采集数据填报:完成外业人员监测数据的填报和获取数据填报相关的辅 助数据。包括自动生成:时间、地点(坐标、海拔)等信息。

7)数据传输:通过无线WIFI、运营商网络完成外业数据到数据中心的及时 传输和或异步导入。

8)消息管理:具有多种手段的消息传递的方式,保证业务正常及时的进行。(2)与中心系统配合完成巡护信息录入: 1)制定巡护计划及巡护内容。

2)巡护计划可以定期制定,或临时决定,巡护内容可以预先设置。3)输入实际巡护时间及路线,并将采集信息反馈到中心。4)录入巡护内容数据。

5)实现对巡护计划及内容的查询,并根据预先的计划作提示功能。6)提供对巡护内容的统计功能。

数据采集主要通过定制的采集终端实现,采集完成后,通过WIFI、运营商 3G 网络等将采集信息上传局端采集系统。具体网络结构如下:

具体功能模块设计如下:

1)定制模块:数据定制模块以Web 方式提供用户定制界面,用户选择所需 要的采集信息,并生成定制信息的描述文件。

2)数据采集模块:数据采集模块主要是根据用户生成的定制信息描述文件,动态生成能在移动设备上运行的采集程序,为用户提供友好的采集界面,同时 能自动获取地理位置信息和时间信息,以准确定位用户采集信息的位置和时间,减少用户的操作时间:防止人为输入导致的错误。

3)数据同步模块:数据同步模块主要是实现两大功能:第一是把相关字典 信息同步到移动设备上,这样用户在野外采集信息时候可以选择而不是输入字 典信息(如物种信息);第二是把用户采集的数据通过网络或者存储卡实现和 后台数据库的同步,以实现采集数据有效保存。

4)巡护路径和巡护信息的获取和保存模块:首先获取巡护设备中的路径信 息和其它设备(如照相机等)采集的其它巡护信息(如照片等)。再根据数据 库结构和关联性写入到后台数据库中,实现持久化的保存。

5)巡护信息的集成和可视化展示模块:把路径信息和巡护信息无缝集成,并通过WebGIS平台实现巡护路径及其相关信息的可视化展示。

6)巡护相关历史信息的查询:科研人员通过该模块可以查询原来的巡护路 线,以更好地制订现在或者未来的巡护路线。

野外数据采集与巡护信息系统包括野外数据采集子系统和野外巡护信息子 系统,野外数据采集子系统的具体业务实现流程如下:首先,用户(数据库管理员)基于已建好的后台关系数据库,根据具体的 采集需求进行定制操作(包括为每个采集页面的所有录入字段设定标题、编辑 风格、数据源等信息,以及设定移动设备上的采集菜单项、每个子菜单项对应 的采集页面集合),定制子系统将用户的定制信息保存成固定格式的 XML 文件;

另外用户可以设定数据库中的某些关系表作为字典数据表,定制子系统从这些 字典表中抽取出字典数据,保存成嵌入式关系型数据文件格式。然后,用户利 用数据同步子系统的数据导入功能将 XML 文件和字典文件复制到移动设备上; 最后,运行移动设备上的数据采集程序,即可获得用户需要的数据采集系统。用户录入的信息保存在移动设备上的嵌入式数据库文件中,最后通过数据同步 子系统的数据导出功能将这些数据从移动设备导出到后台数据库。野外巡护信息子系统的具体流程如下:首先,运用 GPS 记录仪,自动记录工作人员巡护的 GPS 轨迹,工作人员 再通过照相机等其它设备采集其它信息。其次,巡护数据获取模块从 GPS 定位 设备获取位置信息、从照相机等设备获取巡护信息,并存入到后台巡护数据库 中。然后,巡护信息集成把路径信息和巡护信息无缝集成,转换成能在WebGIS平台展现的文件(如 KMZ 文件等),并利用WebGIS平台可视化展示。最后,工

作人员可以通过检索巡护数据库的巡护历史数据,去罗列以前的巡护航迹,为 现在或者未来的巡护作参考,从而实现更好的保护工作。

5.5.1.2.4 设备配置和性能要求

本系统根据整体情况需求,配置55 台工业级数据采集终端(主机设备由主 机系统统一考虑配置),工业级采集终端设备主要技术指标要求如下: 1.触摸屏,屏幕大小不低于3.5 英寸,彩色显示不低于320*240 像素; 2.锂电池,待机时间要求8 小时以上(可包含外接电池); 3.有扩展插槽;

4.主机通讯:与主机通讯至少有其中一项:USB、RS232; 5.处理器:主频不能小于533MHz ;

6.操作系统:Windows Mobile 6.1 或以上操作系统;

7.内存:RAM 不少于128M;ROM 不少于128M,并且有可扩展内存插槽,扩充内存不低于4G 内存; 8.工作温度:-10°C-40°C; 9.密封规格:IP65 以上;

10:集成GPS,可采集航点、航线、航迹,自定义属性数据。导航精度不 低于5 米;

7.国土资源数据与信息 篇七

关键词:大数据时代,国土资源测绘,档案管理,信息化建设,管理对策

基层国土资源测绘档案, 即基层国土资源管理部门利用大地测量与地图绘制手段所测量与完成的技术性文件, 分为基础地理信息测绘档案、专业地籍测绘档案与现势性更新档案等内容, 从具体表现形式通常分为1∶500~1∶5万比例尺地形图、高分辨率遥感数据资料、地籍档案数据库资料、土地权属调查资料、土地分类利用数据档案等相关内容。具体测绘档案资料的管理工作是我国基层国土部门对我国基层土地所有权及其规划、利用等问题进行记录的重要文件, 而对基层国土资源测绘档案的管理工作, 基于大数据时代背景开展, 有助于基层土地管理人员对国土资源进行科学规划与利用, 有效监督与管理对国土资源利用不当的现象。

1 大数据概念分析

当前计算机技术、信息技术日益发展, 互联网, 行业数据迅速增长, 传统的信息管理手段逐渐被大数据处理的计算技术所代替, 并推动软件工程技术、操作系统、人工智能、程序设计技术与方法等技术的发展。

步入大数据时代后, 国土测绘档案资源数据信息服务, 主要是利用档案资源的各种数据信息进行新开发与新利用, 从而有效地促进数据信息的快速扩散、数据信息的增值、数据信息的创新利用。同时, 还能凭借信息搜索、重组、分析等功能, 按照用户的需求提供更便捷、更时效的数据信息服务, 有效地完善国土测绘信息档案资源馆数据信息管理。

2 当前基层国土资源测绘档案管理工作中存在的问题

2.1 基层国土部门对基层国土资源测绘档案管理工作不够重视

根据调查可以发现, 在一些偏远地区, 部分基层国土部门的相关领导认为对基层国土资源测绘档案进行管理不仅需要耗费本就不多的管理资金, 还常常无法得到理想中的管理效果。基层国土资源测绘档案是记录我国国土利用情况的重要文件, 其记录的信息不仅可以给基层国土部门的土地管理工作提供较好的参考, 还可帮助基层国土部门做好土地的规划工作, 极大影响我国基层国土的管理效果。

2.2 基层国土资源测绘档案管理工作人员配备不完善且人员工作不规范

相比于其他国土资源档案管理工作来说, 我国基层国土资源测绘档案管理工作常常出现人员配备不完善的问题, 甚至在一些偏远县城甚至出现了一人管理所有档案的现象。该类现象的产生不仅使得基层国土档案管理工作的难度被人为加大, 还大大提高了基层国土资源测绘档案管理问题出现的概率。除此之外, 在调查的过程中, 基层国土部门人员管理工作不规范同样也是阻碍基层国土资源测绘档案管理的重要原因之一。而产生这一问题的主要原因除了与当地国土部门对基层国土资源测绘档案管理的重视程度有一定的关系之外, 还与当地基层国土资源测绘档案管理制度以及管理人员工作能力培训有较大关系。

3 大数据背景下的基层国土资源测绘档案管理对策

3.1 加快基层国土资源测绘档案管理系统的信息化进程

大数据背景下, 伴随计算机云平台建设的日益增多, 极大方便了多门类信息源数据的综合管理, 对我国基层国土资源测绘档案管理工作来说, 加快基层国土资源测绘档案管理系统信息化的脚步至关重要。随着大数据信息化建设时代的进步, 传统的纸质化的档案管理方法中所蕴藏的问题 (如保管问题、安全问题等) 已经逐渐暴露出来, 这些问题给我国基层国土资源测绘档案管理效率的提升带来了极大的阻碍。在这一环境下, 相关部门只有积极引进信息化的管理系统与管理方法, 才可能使得我国基层国土资源测绘档案管理得到更好的保障。

从设计思路来看, 基层国土测绘资源档案管理可参照以下思路开展: (1) 分布式集成与内外网结合。构建“数据物理分布、服务逻辑集成”的方式, 实现数据分布式管理的同时, 通过档案资源系统可实现内网档案信息服务、外网档案信息服务的有效结合; (2) 多层次框架管理。从系统建设的内外结构进行区分, 其内部档案信息服务部分, 为内部工作人员与管理人员提供档案信息检索、档案目录服务;公开申请与管控部分, 能满足外部用户受理申请与电子文件利用的需求;实现档案信息服务的公开, 能满足外部用户对国土资源测绘档案目录信息查询目的。

3.2 提高对基层国土资源测绘档案管理工作的重视程度

为了提高我国基层国土资源测绘档案管理工作, 基层国土部门必须在短时间内深化相关人员的基层国土资源测绘档案管理意识, 从而使部门上下能够深切地认识到基层国土资源测绘档案管理的重要性。当然, 为了实现这一目标, 基层国土部门可以通过组织宣讲会或是交流会等形式, 利用考试或绩效考核的方法提高相关人员对基层国土资源测绘档案管理工作的认识。

档案管理人员的工作素质与工作技能是影响档案管理质量的主要因素之一, 为了使基层国土资源测绘档案管理的质量得到较好的提高, 建议基层国土部门能够在科学调整基层国土资源测绘档案管理人员分配的基础上, 通过组织学习等方式来提高基层国土资源测绘档案管理人员的工作素质与工作技能。当然, 有条件的地区还可以组织地区间基层国土资源测绘档案管理人员的交流活动, 从而在基层国土资源测绘档案管理人员之间形成良好的学习与竞争氛围。

4 结语

基层国土资源测绘档案项目建设周期较长、专业技术要求严、时效性标准高, 要兼顾信息共享与数据保密等多方要求, 利用大数据加强基层地理信息资料使用的同时, 做好地形资料数据、航空影像资料、控制点数据等文件的权限管理工作。因此, 相关部门与相关人员应该尽早意识到基层国土资源测绘档案管理的重要性, 并通过多方努力来提高基层国土资源测绘档案管理的质量与效果, 从而使我国基层国土资源测绘档案获得更好地保存与利用。

参考文献

[1]黄海.国土资源档案管理现存问题与对策建议[J].企业导报, 2015, 23:32+29.

[2]王雪兰.浅析基层国土部门档案管理工作现状及改进建议[J].山东工业技术, 2016, 01:277.

[3]余晓松.测绘档案管理信息系统设计与实现[J].测绘技术装备, 2013, 03.

8.国土资源数据与信息 篇八

关键词:大数据;数字档案信息资源;传统档案数字化副本;存储备份;信息安全;数据安全

1 数字档案信息资源数据风险概述

我们已经进入了大数据时代,2013年中国产生的数据总量超过了8亿TB,并且每天以倍数递增,大数据相关的技术蓬勃发展,技术应用随处可见,我们经常上网使用的百度搜索就是用Hadoop大数据技术管理数据的。与此同时,每年全球数据安全问题损失已经达到万亿美元数量级,我国也有数百亿美元的经济损失,对于档案行业,大量的档案数字化副本、电子文件、音视频文件组成巨量的数字档案信息资源,档案馆虽然安全意识越来越高,但远远没有满足现实要求。

1.1 风险的原因。风险的原因来自多方面,忽视硬件故障、忽视软件崩溃、人为失误造成数据丢失、缺乏管理措施造成恶意被盗、对电脑病毒熟视无睹、面对潜在危险抱有侥幸心理、自然灾害直接导致数据丢失、在恢复工作中不能定期对恢复机制进行测试、想当然认为能写入磁带就代表能随时读取、想当然认为管理面板显示成功就能顺利从备份文件中恢复资料。

1.2 风险的危害。不要认为数据存储已经非常安全了,就规避了数据风险,风险的危害是多方面的。目前,数据泄露的问题非常突出,人们一般对黑客攻击总能引起高度重视,人们也不能容忍IT人员的恶意违规行为,但实际上,人们经常忽略的最有可能泄露数据的却往往是那些没有丝毫恶意的员工。对数据库没有非正常访问的监督,没有为不同用户的当前可用访问权设定限制,这样系统就很容易出现特定工作的员工访问超出了工作范围的数据;没有使用防数据丢失工具,个人数据在通过电子邮件、打印或者复制到笔记本电脑及其他外部存储设备时很容易发生数据泄露。

1.3 风险的种类

1.3.1 自然环境风险。计算机机房不符合规范要求,存在环境风险因素。

1.3.2 硬件系统风险。网络、服务器、客户端、存储设备等损坏、故障、老化风险。

1.3.3 应用系统风险。应用系统架构、应用系统功能、应用系统性能等方面,不完备、设计存在缺陷。

1.3.4 网络信息安全风险。计算机网络缺乏安全设施防护,没有防火墙、防病毒、IDS、PKI、攻防技术等。

1.3.5 人为管理风险。人为因素带来风险,缺乏制度管理。

2 构建数字档案信息资源安全保障体系

2.1 构建可靠数据中心为核心的数字档案信息资源安全管理体系。现阶段,大多数的数据中心并不是规划好而建设起来,通常是随着数据积累、设备增多而逐步装备起来。这样做出现很多问题:办公室改成机房,空间狭小,电力不足,承重不够,民用空调24小时超负荷运转,消防措施不到位,监控手段缺乏等。以往对数据中心机房的建设往往只注重利用计算机技术、网络技术来实现网络层的可靠性,而忽略了基建、供电、消防、环保、制冷等方面的影响,其中任何一个环节都有可能会导致系统瘫痪甚至数据丢失。

因此,数据中心是数字档案信息资源安全管理体系的核心,数据中心建设应以实现技术标准化、能力服务化、提供快速化、资源弹性化、管理自动化、管控集中化为目标,从管理、技术、运维多层面保障系统安全、数据安全。

数据中心从规划、设计、建设到设备的安装、调试、运维都必须遵守行业的规范标准,应该按照三级等保要求,把数据中心建设达到科学、安全、经济、绿色、环保的标准。

2.1.1 构建数字档案信息资源安全管理体系

2.1.1.1 安全策略与管理制度。总体安全方针及安全策略必须包含安全管理策略、安全技术策略、安全运维策略。

2.1.1.2 系统建设管理。系统建设包含:系统定级、方案设计、系统交付、系统备案、软件开发、工程验收、产品采购和使用、安全服务商选择。

2.1.1.3 安全管理组织机构及人员安全管理。安全管理组织机构和人员安全管理分为三个层级:信息安全决策层、信息安全管理层、信息安全执行层,内容包含:人员录用、人员离岗、人员考核、人员培训、访问管理。

2.1.2 构建数字档案信息资源安全技术体系。体系划分为安全计算环境、安全区域边界、安全通信网络三部分。第一部分指用户身份鉴别、自主访问控制;第二部分指安全区域、结构安全、区域边界强制访问、区域边界包过滤、区域边界安全审计、区域边界完整性保护;第三部分指通信网络安全审计、通信网络数据传输完整性保护、通信网络数据传输保密性保护、通信网络可信接入保护。

2.1.3 构建数字档案信息资源安全运维体系。体系内容涉及安全规划、安全控制、安全监控、事件响应、灾难恢复、信息安全事件管理、信息安全问题管理、信息安全配置管理、信息安全变更管理、信息系统配置管理。

2.2 数字档案信息资源在业务流转中的风险控制。数据流转过程中的风险控制就是对数字档案信息资源安全的日常防护,一般毁灭性的灾害百年不遇,而数据流转中的风险,就隐含在日常工作中,时有发生,却往往被忽视。先从数据流转规律加以分析,在馆藏数字加工、系统内调用、常规利用、档案接收、移动介质拷贝、整体存备环节之中数据流转规律:移动设备→系统;系统→移动设备;移动设备→移动设备;系统中调用即系统→系统。再观察数据存储状态它们有逐层包含关系:网络与系统包含数据中心、库房,数据中心、库房包含硬件设备、移动介质,硬件设备、移动介质包含数据。表1、表2、表3、表4分别对四种存储状态列举了风险与控制情况。

2.3 数字档案信息资源的容灾备份。数字档案信息资源的容灾备份是档案信息系统抵御灾害的能力,是保证数字档案信息资源安全的重要举措,是对信息安全的底线防备,是构建数字档案信息资源安全保障体系中重要一环。当档案馆受到毁灭性灾害时,馆藏档案信息或历史记录得以保存下来,并能够用异地保存的数字档案信息资源,以数字形式恢复档案馆运行。以对全部馆藏数字档案信息资源进行容灾为原则。

针对局部出现故障、本地发生事故、本地域受到灾害,分别选择本地、同城、异地备份。目前这三种备份所用的介质主要选择硬盘、磁带和光盘,这三种介质在存取速度、存储容量、保存时间、备份成本、管理难易程度等方面的性能,各有所长,基于条件,不可取代。可根据存备的内容、不同的用途和客观条件选择介质,通常用磁带和光盘为主备份介质,硬盘作为应急备份介质,三种介质配合使用,使不同介质的优势可以互补,最大可能地保证数字档案信息资源的安全。国家档案局《档案馆防治灾害工作指南》中,将档案信息系统的容灾等级划分为七级,其中,0级为无异地备份;1级为实现异地备份;2级为热备份站点备份;3级为在线数据手动恢复;4级为定时数据自动备份;5级为实时数据远程异步备份;6级为零数据丢失数据远程同步。档案馆通常采取1级容灾并参照2级容灾管理为最基础策略。即:将数字档案信息资源数据、备份数据处理系统及系统环境参数数据备份到选定介质上,送往异地保存,制订有相应的灾难恢复计划,灾难发生后,利用通用的硬件设备,调用异地备份的数据,按照预定的恢复计划实施业务恢复。根据数据量、载体类型,选择数据运送的交通工具,应尽量避免托运,推荐采用汽车方式运输。可根据备份介质不同,选择不同的更新周期,光盘介质可采取每年抽检并增量备份,五年做一次全备方式。

2.3.1 本地备份。以北京市档案馆为例,依托档案馆设施,对馆藏电子文件采用磁带介质备份,对其中重要内容进行缩微化异质备份,两种备份介质分区域保存。

2.3.2 同城备份。北京市档案馆依托城市应急备份机构,北京市容灾备份中心设施,选用“介质备份业务”服务模式,对全部电子文件采用磁带介质备份。

2.3.3 异地备份。北京市档案馆依托异地备份合作伙伴,陕西省档案馆的设施,对电子文件重要内容,采用磁带介质备份。

3 研究意义

3.1 构建数字档案信息资源安全保障体系必须服从和服务于档案信息化的发展。随着档案信息化的发展,档案馆已经成为档案数据存储与利用、发挥档案社会服务效应的重要部门,不再仅仅是提供服务支持保障的角色。数字档案信息资源安全体系的建设要站在业务发展的角度来研究,以档案业务的连续可用性为出发点,以给业务提供7×24服务支持为目标。

3.2 健全的安全管理体系是数字档案馆稳定运营的保障。数字档案信息资源安全体系的建立对于档案信息化的发展起到了很大的促进作用,数字档案馆的安全运营关系到档案馆全部业务的顺利进行,关系到社会各界是否能及时获得档案咨询服务,关系到档案部门的形象及保存城市记忆,服务社会发展的重要功能,为了规避数据集中带来的生产运行风险,数字档案馆不仅要在技术层面通过基础设施的建设来化解集中的风险,还要从管理角度通过分析和细化风险,建立以安全防范、安全制度管理和安全控制管理为核心的安全管理体系,为业务的稳定运营提供可靠的保证。

3.3 数字档案信息资源安全保障体系是档案资源开发利用的保证。优质的档案馆数字资源是政府管理的基础、决策的前提和为社会服务的依据。电子文件具有纸质文件难以比拟的优越性,理应成为现代社会的优质战略资源。加强电子文件的科学管理,数字档案信息资源安全体系就能为信息资源的开发利用创造条件,由此带来可观的经济和社会效益。它是数字档案信息资源开发利用的保证。

4 结语

总之,数字档案信息资源的长期保存是我们的终极目标。采用技术、管理两种手段,实施对信息网络、业务系统、档案数据、中心机房设备、终端设备等的安全防护;从应急、日常维护两方面,加强容灾和数据流转过程的保护措施,筑牢数字档案信息资源安全的防护体系。

9.《信息资源检索与利用》作业 篇九

课程:《信息资源检索与利用》作业

姓名:___________班级:__________学号:______________

1.简述文献检索的主要步骤。(15分)

2.简述信息、知识、情报和文献之间的关系。(15分)

3.按功能可将工具书分为哪几类(至少写出十类)?并各举一个例子说明。(15分)

4.常用的文献信息检索方法有哪些?(15分)

5.我校图书馆订购了哪些数据库资源?至少列举7个。(15分)

10.国土资源数据与信息 篇十

平顶山市第十中学 胡月豪

学习内容分析

本节课是河南科学技术出版社信息技术七年级下册第二单元第一课中的活动二,本节课是在学生掌握了在电子表格中输入数据和格式设置等基本知识的基础上,进一步对数据进行分析的一节新授课。“数据的排序和筛选”是用excel管理数据的基础方法,是本册书中学生必须掌握的几个重点之一,是对前面所学知识的一个综合运用,也是学习用图表表示数据的重要基础。因此,本节课在学生今后的excel学习中,起着铺垫的作用。学习者分析

学生已经对Excel有了一些操作经验,并且经过前面的学习,对Excel的基本知识、基本技能也有了一定的了解,并能处理一些生活中的实际问题。但基于他们年龄的特征,他们对理论性强的知识点不易理解,认知较直观,而对具体操作易于接受。教学目标 知识与技能:

1、掌握利用Excel对数据进行排序和筛选的方法。

2、能利用这些操作解决实际生活中数据管理与分析的问题。过程与方法:

1、自主探究

2、实战演练 情感、态度与价值观:

1、培养学生自主学习、合作探究的精神和分析问题、解决问题的能力。

2、培养学生管理信息的能力,激发学生学习数据处理的兴趣。教学重点难点

重点:数据排序与筛选的操作方法

难点:关键字的概念、自定义筛选条件以及灵活运用解决实际问题。教学类型 讲授型

设计思路 情景激情,引入课题。贴近生活,解决问题,掌握技能。教学过程

一、片头

显示课题,作者、单位等有关信息

二、正文讲解

1、创设情境导入

探险就是到从来没有人去过或很少有人去过的艰险地方去考察、寻究自然情况的活动。今天,我们将要组织一支后备探险队,去参加一个探险活动。为了能尽快了解队员名单中的相关信息,需要队队员名单信息进行排序和筛选。

2、以任务串的形式讲解对数据的排序与筛选

任务

一、按年龄从小到大排序。任务

二、按性别和年龄排序。任务

三、筛选出男性队员。任务

四、筛选出有“急救”专长的40-60岁的队员。

三、小结

排序就是将一组无序的数据序列调整为有序的数据序列,排序分为升序和降序两种,可进行简单排序和多条件排序。排序时,要先选中整个数据表或数据表中的一个单元格。

筛选就是从大量数据中选择符合要求的数据。筛选时,要先选中整个数据表或数据表中的一个单元格。

四、布置作业:

1、按国籍和年龄排序。

11.国土资源数据与信息 篇十一

关键词:大数据时代;档案信息资源;共享平台;性能优化;数据库优化

Abstract:Internet and archival information resources sharing platform is being integrated deeply.It is need to process data between server, Web client, mobile client and other platforms. With the increase of the number of users, the performance requirements of the system should be improved with the use of the file information resources sharing platform.Not only should the platform be able to adapt to the existing network environment, but also to make the data processing response to favorably control, the platform's concurrent service processing ability has been enhanced.Therefore,we can optimize the performance of the shared platform from three aspects of the function of the file information resources sharing platform, the data network transmission level, the database level, the platform service architecture level and so on, Optimized platform can meet the performance requirements of the era of big data and promote the use of the system fluency, and to maximize the user experience in the use of the platform.

Keywords:Big data era; archives information resources; sharing platform; performance optimization; database optimization

档案信息作为一种重要的信息资源,其有效开发和合理利用,不仅是社会技术进步的需要,更重要的是关系到档案信息创新成果能否充分运用到社会生产和各项活动中。档案信息资源共享平台的构建便于档案机构向外部提供公开的各种档案信息资源[1],而大数据具有大量、高速、多样、价值等特征,它正在以一种独特的方式和手段对海量数据集进行深入挖掘和分析[2],将互联网技术与档案信息进行创新融合将成为未来发展的必然趋势。当前互联网技术,尤其是移动互联网技术的发展,为档案信息资源共享平台的实现提供了新的实现,其中将传统的Web平台上的资源共享于移动平台的性能瓶颈成为打通平台互联互通的难点。在大数据时代,针对档案信息资源共享平台,从实际使用平台用户的体验方面入手,在数据传输、后台数据处理方式和应用服务架构等三个方面对档案信息资源共享平台进行优化,为档案信息资源共享平台的性能优化提供了综合的解决方案参考。

1 大数据时代档案信息资源共享平台性能需求

大数据时代来临之前,档案信息一般采用档案网站进行发布,用户群体也仅限于普通的计算机用户,这种方式存在档案信息资源匮乏,服务方式单一,资源利用效率不高[3]。大数据时代背景下,随着移动互联网技术的发展,用户除了可以通过电脑进行档案信息的检索利用外,还能够随时随地通过移动设备接入档案信息资源共享平台进行检索利用,这就对档案信息资源共享平台提出了性能需求,在现有的网络条件与设备配置条件下,能够运用移动设备进行档案信息的检索、上传、下载及评论等相关操作,在实际的操作过程中由于各种限制,应用会出现卡顿现象,这就对档案信息资源共享平台在性能方面提出更高的要求。

1.1 平台能够适应现有的网络环境。档案信息资源共享平台在大数据时代应用的最大的特点是支持移动客户端,移动设备可以支持的网络已发展到今天的3G、4G,但仍存在大量的只支持2G的移动设备,这就限制了使用移动客户端进行检索利用的效果,主要表现为数据传输速度慢。另一方面,4G网络虽然网络速度可以满足要求,但是使用现有的平台进行检索利用,需要耗费大量的流量,由于目前流量资费的限制,会使用户转向采用移动互联网进行学术研究的习惯转变带来障碍。由于以上用户实际体验及网络环境实际的限制,就需要对档案信息资源共享平台做实质性的优化,目标是优化数据网络传输及提升后端处理的效率。

1.2 平台的数据处理响应有效控制。档案信息资源共享平台是面向终端用户的应用,平台上线应用后随着用户量的增长,档案信息的利用量也会快速增长。用户使用档案信息资源共享平台最多的是档案信息的检索与档案信息的处理,在实际的档案信息处理中需要一体化、便捷化、知识化的数字化融合服务[4],这就要求平台的检索效率有较大提升。现实情况是对于数据量非常大的表,其检索效率随着数量的增长会变得越来越低。同时,平台对于档案信息的操作比较频繁,比如上传、审核、编辑数字化的档案信息等操作,在实际的档案信息处理过程中会出现数据丢失的情况。因此,平台在数据处理响应方面要求系统能够满足高效检索、实时处理信息的能力。

1.3 平台的并发服务处理能力增强。随着移动互联网技术的发展,大数据档案信息资源共享平台会出现终端用户同时对平台进行操作,这就会产生很多的并发数据请求, 遇到该情况系统的服务会出现死锁现象,同时会影响后继用户正常使用系统。档案信息资源共享平台的优化后需要能够有效提升用户体验,做到用户同时使用平台不会出现请求得不到有效处理,进一步改变用户使用该平台进行检索利用的方式,做到随时随地采用移动客户端进行档案信息的实时交互。

2 数据网络传输层面优化

数据网络传输层面的优化目标主要有最大限度减少档案信息数据中间传输过程中的数据量,另外对于档案信息资源共享平台,对超长信息上传与浏览操作产生的传输数据量压缩至最低,并使系统能够适应用户实际的网络环境。

2.1 采用JSON提升数据传输效率。对于档案信息资源共享平台首先要解决的是传输效率问题,使用户在操作的过程中能够正常使用系统,从系统开发与实践的角度看,主要是减少平台在数据交互中的传输的数据量。档案信息资源共享平台在数据传输前会将需要传输的数据转换成JSON(JavaScript Object Notation),它是一种轻量级独立于编程语言的文本型数据传输格式[5],相对于传统的XML格式数据传输,JSON数据格式比较简单,易于读写,格式都是压缩的,占用带宽小[6],实际的平台中会将需要传输的原始信息转换为JSON格式,到达目标后将JSON数据再次转换成需要操作的数据类型,具体的方式如图1所示:

通过JSON方式进行数据压缩后,由于传输的档案信息数据量的减少而提升了系统的传输效率,用户在实际的档案信息检索过程中可以大大加快档案信息数据中间传输的时间,从而使用户的系统使用体验得到有效改善。

2.2 采用GZIP进行传输数据压缩。档案信息资源共享平台上传与下载的档案信息量,在传输过程中需要占用大量的网络资源,因此系统操作员在实际的浏览与上传档案信息过程中会出现卡顿现象。针对大信息容量的数据传输,可以采用GZIP压缩的方式进行优化。该方式最早由Jean-loup Gailly和Mark Adler创建,一般对纯文本内容可压缩到原大小的40%[7],这样文件的体积就缩减很多,传输速度相应提高,采用gzip虽然可以取得较好的压缩比,但它在分析和压缩编码的过程需要进行大量的计算[8],档案信息资源共享平台采用.NET提供的GZipStream类进行压缩与解压处理,此类在 .NET Framework 2.0 版中是新增的,提供用于压缩和解压缩流的方法和属性,用户完成档案信息资源的上传下载压缩解压过程如图2:

采用GZIP压缩可以大大节省服务器的网络带宽,内容压缩后可以大大提升用户使用平台的体验。

2.3 采用CDN解决相关传输问题。我国目前档案信息资源共享平台用户使用的网络环境包括电信、移动、联通等网络,如果档案信息资源共享平台仅部署在某个网络环境下,其它网络环境的用户使用平台由于跨运营商的原因访问平台就会比较慢,这样很容易造成不同网络环境的用户使用系统的体验不同,从而最终导致部分非平台部署网络环境用户的流失。另外,当系统在某个瞬间有大量用户同时使用系统时,仅靠一台服务器来提供服务也会出现传输性能问题。针对以上性能问题,可以采用CDN技术来解决相关传输问题。CDN的全称是Content Delivery Network,即内容分发网络[9],它是一种基于Web的网络体系结构,能够更加快速有效地传送Web内容。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定[10]。使用CDN技术后档案信息资源共享平台数据访问与传输的方式如图3所示:

通过以上方式对数据传输方面进行优化,数据中间传输过程可以有效减少传输的信息量,有效减少无效的数据传输,同时在另网络层面减轻带宽压力。

3 数据库层面优化

数据库层面优化主要处理档案信息资源共享平台数据操作指令到达数据库服务器后进行的优化,主要目的是让数据层面的检索与操作均在数据库上进行处理,仅传入数据处理需要的信息,在处理后也仅输出用户需要的数据信息,包括采用存储过程、检索服务加索引,大表数据采用分离加分区的处理方式。

3.1 采用存储过程技术减少网络流量。档案信息资源共享平台用户在实际的系统使用过程中,数据操作是最频繁的动作,在实际的网络中进行数据交互时如果采用大量的SQL语句,主要存在如下问题:一是随着用户量的增长,数据的频繁操作会使数据库的执行效率变差;二是复杂的SQL的传输会使网络的通信量增加,通信速率会降低。

为了避免以上面临的性能瓶颈,档案信息资源共享平台在实际的数据操作过程中采用存储过程技术,在使用存储过程时只需用提供存储过程名和必要的参数信息,这样在一定程度上也可以减少网络流量、减轻网络负担。由于存储过程在创建时即在数据库服务器上进行了编译并存储在数据库中,所以档案信息资源共享平台数据处理采用存储过程运行要比单个的SQL语句块要快。

3.2 采用索引技术提升数据检索效率。快速检索档案信息是平台用户最基本的需求,平台上线之初,由于用户数据量有限,档案信息检索效率较高,随着用户数据量的增长,用户需求的档案信息也会出现爆炸式增长,信息检索的效率会随着数据量的增长而降低。针对检索效率性能瓶颈,档案信息资源共享平台采用了索引技术来提升数据检索效率。索引分为聚簇索引和非聚簇索引两种,聚簇索引是按照数据存放的物理位置为顺序的,而非聚簇索引就不一样了;聚簇索引能提高多行检索的速度,而非聚簇索引对于单行的检索很快,根据数据库的功能有唯一索引、主键索引和聚集索引。档案信息资源共享平台在实际的应用中将表的主键作为惟一索引,对于索引列是选择数据类型较小且常作为检索条件的字段作为索引字段。

3.3 采用分区表技术提高访问速度。档案信息资源共享平台存储档案信息的表随着用户新增信息的增加会变得十分庞大,此时需要将大型表拆分为多个较小的表,表数据会按指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个CPU进行处理。通过使用数据分区技术可以大大提高访问速度,分区可以显著提高访问大表时的性能,并且分区的存在对应用系统是透明的[11]。对于档案信息资源共享平台大数据量的数据表进行分区后,除了可以提高查询效率,还可以对历史数据进行区分存档。

4 平台服务架构层面优化

平台服务架构层面优化主要解决多用户及并发用户使用平台时调用服务的瓶颈问题,档案信息资源共享平台终端用户使用客户端进行数据操作都离不开对服务的调用,如何使用户的体验达到最佳,即用户使用系统过程中能够使用最快的方式完成一次服务调用,这部分优化具体思路为采用WCF架构,并对WCF进行优化,同时对于档案信息的存储与转发采用MSMQ(微软Message Queue)技术,数据库服务与应用服务采用独立布置的方式。

4.1 采用数据库连接池规避平台崩溃。档案信息资源共享平台终端用户的包括传统的个人计算机、平板及移动终端,从系统开发与实现角度,这部分的优化需要将数据操作部分进行集中管理,所有平台涉及到的基础操作均采用调用一个集中服务集群,可以采用WCF(Windows Communication Foundation)技术作为系统的整体架构。WCF是由微软开发的一系列支持数据通信的应用程序框架, 在具体使用过程中,WCF自身最频繁的操作为数据库的访问与操作,传统的WCF的数据处理方式是调用数据库操作类,每次调用服务需要进行一次数据库连接操作,数据库连接操作是比较耗费网络的操作,采用该方式影响了整个应用程序的伸缩性和健壮性,当同时有大量用户使用平台并进行数据库操作时,就会出现平台卡死直至退出的现象,因此需要对该模块进行优化。现有数据库连接池的参数配置都是在初始化时一次设定,连接池在运行过程中其值不会改变[12]。本系统采用的方式为将数据库连接部分用连接池技术解决,数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个。连接池初始化后,档案信息资源共享平台终端用户在实际调用WCF进行数据操作时,并非建立一个新的连接,而是从连接池中取出一个已建立的空闲连接对象,使用完毕后,用户也并非将连接关闭,而是将连接放回连接池中,以供下一个请求访问使用。采用该技术后,平台在涉及到数据库操作部分不会因为数据连接资源紧张而导致平台崩溃的情况出现。

4.2 采用MSMQ减少用户等待时间。随着档案信息资源共享平台用户数量的增长,其并发请求会越来越多。如果采用传统的同步技术,同一操作的下一个请求的开始需要等待上一个请求的结束,现有的平台用户真实的需求是对系统性能的体验,同步方式需要长时间的等待,从而影响了系统的用户体验过程。对于档案信息资源共享平台,采用MSMQ技术(MSMQ全称是Microsoft Message Queue,即微软消息队列)是一种利用队列机制实现部件间或者是应用程序间通信的技术,其工作原理如下图所示:

由图4可以看出,消息的发送者把自己想要发送的信息放入一个容器,然后把它保存到一个系统公用空间的消息队列中,采用消息队列机制,发送方不必要担心接收方是否启动,是否发生故障等因素,只要消息成功发送出去,就可以认为处理完成,本地或异地的消息接收程序再从该队列中取出发给它的消息进行处理。采用该技术可以大大减少用户的等待时间,由于采用了异步通信,无论是发送方还是接收方都不同等待对方返回成功消息,就可以执行余下的代码,大大提高了处理的能力,在信息传递过程中,具有故障恢复能力,MSMQ的消息传递机制使得通信的双方具有不同的物理平台成为可能。

4.3 采用服务集群来提升平台的整体服务能力。随着移动互联网应用的广泛普及以及档案信息资源共享平台用户数量的增长,完成应用程序自身与数据库方面的优化后,需要从硬件部署方面来提升档案信息资源共享平台的性能。该部分的优化思路为采用WCF服务集群来提升平台的整体服务能力,同时在数据处理上采用主备数据库的架构来完善数据库服务能力以及确保数据库服务的稳定性,具体的部署方式如下图所示:

如图5所示,在软件优化完成后,通过增加硬件资源的方式来优化平台是最有效的性能优化方式之一,该方式可以有效提升服务的分布式处理与并发处理能力。

经过对档案信息资源共享平台架构层面的优化,采用WCF技术集中处理数据[13],在服务器层面优化了服务的处理效率,在数据传输过程中,采用JSON方式进行数据传输,对于文件资料的传输经过gzip压缩后进行传输方式,大大减少了传输过程中的信息量,所有的应用在实际的操作过程中均采用存储过程的方式,既减少了调用服务传输的信息量,又加快了数据处理的效率。在经常使用的平台档案信息检索方面,数据库层面关键字段加上了索引,从而大大提升了信息检索的效率。多层面、全方位的平台优化使系统满足了大数据时代的信息系统对性能的需求,在此基础上更是满足了终端用户对平台体验的需求,从而使平台能够真正满足用户对于档案信息资源共享平台的性能需求,真正实现档案信息资源整合、信息发布、数据加工和提供档案信息的检索利用的一体化建设[14]。

*本文系2016年度教育部人文社会科学研究规划基金项目《大数据时代档案信息资源共享平台构建的研究》(项目编号:16YJA870001)阶段性成果。

参考文献:

[1]黄小忠.建设区域性高校档案信息资源共享平台的机制和途径研究 [J].山西档案,2015(4):77~80

[2]维克托·迈尔-舍恩伯格,肯尼斯·库克耶合.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛译,杭州:浙江人民出版社,2013:4

[3]王运彬,王小云,陈燕.档案信息资源配置的目标定位研究[J].档案学研究,2012(6):36~38

[4]王萍,王毅,赵红颖.图书档案数字化融合服务评价模型研究[J].图书情报工作,2013,57(12):34~40

[5]孙光明,王硕.基于JSON的Ajax数据通信快速算法 [J]. 计算机应用与软件.2015, 32(1):263~266

[6]卞咸杰.基于WCF技术的档案信息共享平台数据传输模型设计与实现[J].档案管理,2016 (2):25~28

[7]Qingting Wei, Jihong Guan, Shuigeng Zhou, Xin Wang.A New and Effective Approach to GML Documents Compression[J].Computer Journal.2014, 57:1727~1740

[8]宋刚,蒋孟奇,张云泉,刘胜飞.基于共享存储和Gzip的并行压缩算法研究[J].计算机工程与设计.2009, 30(4):781~784

[9]Pallis G,Vakali A.Insight and perspectives for content delivery networks[J].Commun ACM,2006,49(1):101~106.

[10]HA Alzoubi,S Lee,M Rabinovich,O Spatscheck,VDM Jacobus.A Practical Architecture for an Anycast CDN[J].Acm Transactions on the Web.2011, 5(4):2209~2220

[11]唐世伟,许璟龙,刘万伟,荣海亮. 基于分区表的RAC优化技术应用[J].计算机系统应用.2012, 21(3):190~192

[12]孟培超,胡圣波,舒恒,鄢富玉.基于ADO数据库连接池优化策略[J].计算机工程与设计.2013, 34(5):1706~1710

[13]卞咸杰.基于WCF技术的跨平台档案信息资源共享平台建设的研究 [J].档案管理.2016(4):37~41

[14]吴加琪.构建区域档案信息资源共建共享平台的思考[J].北京档案.2014(8):24~27

上一篇:郑州大学商学院本科毕业实习报告要求规范下一篇:杭州市市委委员名单