用数理统计的原理评估试卷质量(共3篇)
1.用数理统计的原理评估试卷质量 篇一
分 类 号: 密 级: 学校代码: 10638 学 号:
硕 士 学 科 论 文
利用统计软件Spss进行试卷质量分析
姓 名
敬晓萍
指 导 教 师 冯长焕 教授
培 养 单 位
数学与信息学院
学 科 专 业
教育统计与测评
研 究 方 向 数学教育
学 位 类 别
教育硕士
年 级 2010级
西华师范大学学位评定委员会
四川·南充
利用统计软件Spss进行试卷质量分析
摘 要
试卷分析是教学工作中的重要组成部分,同时也是每个教师必须完成的工作。通过对试卷进行分析,可以反馈学生学习结果和教师教学效果,帮助教师发现教学活动中的薄弱环节,提高教学质量。课程期末考试的试题应该如何命题,怎样组卷?如何把握一份试卷的整体难度和分量,使考试成绩及其成绩的分布符合正态,防止平均成绩的大起大落,避免不及格率的过高过低,以适应大众教育的需要等,这对稳定学校正常的教学秩序,保证学生正常的学习心态和情绪,直至就业应聘是否顺利等都会产生直接的影响。本文利用统计软件Spss对试卷分析的各项指标进行了定量分析,介绍了操作方法,以便为广大教师进行试卷分析提供一种模式参考,从而科学地进行试卷质量分析,提高教学质量和效率。
关键字:成绩统计;试卷分析;难度;区分度;信度
考试是教育评价的有效办法,随着高职高专技能教学改革的深入开展,对教学评价的要求越来越客观,对教学结果的分析越来越依赖于统计理论和方法。本文的目的是借助统计学软件Spss,介绍对试卷质量定量分析的方法。
一、考试试卷的统计分析[1]
(一)试卷难度的分析
所谓难度是指考试中试题或者试卷的难易程度,是考试题目对学生知识和能力水平适合程度的指标。
1.难度的计算
以往教师在考试中对试题难度的测定大部分是凭感觉。这种方法本身比较模糊,对有经验的教师也并不是非常有效。根据难度的概念,得到如下公式:
若第i题全部答对,则di=0;若第i题全部答错,则di=1;当di=0.5,说明此题难度适中。
试卷难度:
试卷难度的测定建立在试题难度的基础上,以试题难度为变量,以试题满分值为权数的加权算数平均数:
一般而言,试卷都是以100分为满分,于是:
对于学校的常规考试,目的在于测量个体差异。当d=0或d=0.5时,即试题全部答对或答错,该题便无法提供个体差异的信息。而只有当d=0.5时,题目才能做最大程度的区分度。但在实际工作中要使每题难度均达到0.5有一定的困难。
因此,一般要求试卷平均难度为0.5左右,各试题的难度控制在0.5±02之间。
2.难度的比较
按以上公式计算的试题及试卷难度,只能看出不同试题或不同试卷的难易程度,但却不能分析题目或试卷之间的相对难度。如某试卷中,第一,第二,第三题的难度分别是0.3,0.4,0.5。从难度数据中可以看出,第一题相对较容易,第三题较难。但第二题与第一题的难度差和第三题与第二题的难度差是否相等?这却不一定。原因是不同试题的难度位于不同的等距量表,因而不具有可比性。为解决试题及试卷之间难度的相互对比,需要将以上公式计算的难度,通过正态分布表,转化为标准分。如:d=0.3,z=-1.88;d=0.4,z=-1.75;d=0.5,z= 0。显然,第二题与第一题的难度差为0.13,第三题与第二题的难度差为1.75,难度差并不相等。
(二)试卷区分度的分析
区分度也叫鉴别力,就是通过一次考试将不同程度,不同能力的学生区分开来的重要指标。比如一道题目,水平高、能力好的同学都答对,而水平低、能力差的同学都答错,那么这道题就有好的区分度。
计算公式:
1.试题的区分度:
式中:Hi为班级中高分组同学第i题的平均成绩;Li为班级中低分组同学第i题的平均成绩。(一般而言,高分组与低分组的同学人数是以班级同学人数10%-15%确定)
当高分组平均成绩与低分组平均成绩差距较大时,Gi较大,这时对试题的区分度评价就比较好。
2.试卷区分度
区分度的评价标准:
(三)常用指标简介[2]
平均值:反映一组数据的总体情况。方差:反映一组数据的波动大小。
峰度:用来描述某变量所有取值分布形态趋势程度的统计量,是与正态分布相比较的量。峰度为0表示其数据与正态分布的趋势程度相同;峰度大于0表示比正态分布更加陡峭;峰度小于0表示比正态分布更加平坦。
偏度:用来描述数据的对称性的统计量。偏度大于0表示正偏差数值较大;偏度小于0表示负偏差数值较大。而偏度的绝对值越大表示分布形态的偏差程度越大。
二、具体操作步骤[3] 1.原始数据录入
下面我们以我校数学与信息学院《统计分析》期末考试试卷为例来说明各个指标的实现方法。
1.1试卷结构
本试卷(满分100分)有两个部分组成:客观性试题与主观性试题,其中客观性试题共40分,占40%,主观性试题共60分,占60%。具体情况见下表。
分值分布图
注:q1是填空题、q2是选择题、q3是判断题、q4是简答题、q5是问答题、q6是计算题。
1.2数据定义
图1 变量定义窗口
图2 试卷质量分析数据窗口
在SPSS软件中,点击Variable View标签,在Name标题下定义:学号、题号、总成绩、平时成绩,其中总成绩定义为total,平时成绩定义为daily,然后在相应的标签名中进行注释。在Type标题下定义各个项目的类型,其中学号定义为String类型、题号和平时成绩定义为Numeric类型,其余选项使用默认即可。如图1所示。
1.3数据录入 点击Data View标签,将47份试卷按照各部分得分情况和他们的总成绩、平
时成绩输入到相应的表格中。如图2所示。
2.基本描述性统计分析
主要包括参加考试的学生总数、缺考人数、每个部分的最高分、最低分、极差、平均分、标准偏差(方差)等。
在试卷质量分析数据中,运行菜单:Analyze→Descriptive Statistics→Descriptives,把除平时成绩外的所有变量加入到Variables中,点击Options选项对话框,选中Mean、Minimum、Maximum、Range、Std.deviation、Variance。点击Continue,再点击OK。运行后得到结果如下表所示。
描述性统计分析表
3.难度分析
试题难度是指测验题目的难易程度,难度系数一般用字母P表示,且0≤P≤1。对是非题和论文型的题目,我们可以统一为P=M/W(M:全体学生某题的平均得分;W:某题规定的最高得分)。对于选择题我们先计算得出难度系数P,然后再根据公式cp=(kp-1)/(k-1)(k为选项个数)算出矫正难度系数cp。(单项选择题学生可能随机猜测,此公式能排除这种影响)试题难度系数与试题实际难易程度正好相反,越大表示能够正确解答该题的学生越多试题越容易,而越小则试题越难。一般认为,难度适中更能客观地反映出学生的学习效果情况,多数试题应分布在0.3~0.7之间,选拔性测试为0.5左右为宜,通常期末考试为目标参照性考试,可适当偏高,全卷平均难度以0.7左右为宜,0.6~0.8为正常。
根据上表,很容易得到各个部分的难度系数,如下所示。
各个部分的难度系数
注:q2的难度系数为矫正难度系数 4.区分度分析
对于客观题来说,使用等级相关分析,在此使用斯皮尔曼(Spearman)等级相关分析。对于主观题来说,样本数为47,大于30,可以看成非等间距测度的连续变量,在此采用皮尔逊(Pearson)相关分析对试题进行分析。
具体操作如下:Analyze→Correlate→Bivariate。在弹出对话框中选择各个客观题题号变量和总成绩进入Variables,然后在Correlation Coefficients中单击Spearman,完成后即可得到客观题的区分度。主观题的区分度分析方法同上,只需选择主观题和总成绩进入,然后选择Pearson即可。得到每个部分的区分度,见下图:
各个部分的区分度
三、分析结果
(1)基本描述统计数据上来看,学生总数为47人,无人缺考,学生的的卷面总成绩平均分为82.83分,最高分为99分,最低分为59分,分数极差为40分,标准差为10.538,标准差比较大,说明学生个体间存在较大的差异,主要影响因素是他们入学时学历结构、上课听讲、作业完成、课后复习等。对一部分后进学生,在今后的教学过程中应当充分关注,努力调动他们的学习积极性,经常鼓励他们,从而达到提高学习成绩的目的。(2)从难度上来看,第二题(0.983)、第三题(0.996)难度系数过大,说明此题出的太容易,建议此题不宜进入题库,在修改后参加下一轮的遴选。(3)从区分度上来看,除了第二题、第三题区分度较低,其余都比较好,基本达到了考试要求。
四、成绩考试的信度分析[4]
“考试信度对于任何一种有效考试来说都是必不可少的,只有信度高的考试才能使教师对学生的评价客观、可靠,考试成绩才能正确地反映被试者的程度”。[5]教育测量学、教育统计学在理论上为考试的科学化和现代化奠定了基础,使得考试分析数量化,而SPSS统计软件又使广大教师使用计算机进行学业成绩考试信度的定量分析成为可能。
(一)考试分数的信度系数
衡量一次考试的可靠性指标叫做信度,表明信度大小的量叫做信度系数。虽然教育测量和统计书上介绍计算考试分数的信度系数有多种方法,但因为学科或学业成绩考试具有一般不进行前测和复测的特点,且试题多含有主观题,因而Cronbach’s α系数是最适合学科考试的信度分析。因为Cronbach’s α系数不仅适合主观题,也可以用于多项选择题等客观试题。
下面我们以我校外语学院语音考试题考试题为例介绍用Spss进行信度分析的步骤。
1.Cronbach’s Alpha系数的计算步骤
步骤1:选择信度分析程序。在数据编辑窗口中单击Analyze打开下拉菜单,选择Reliability Analysis„„程序,进入信度分析主对话框。
步骤2:选择要进行分析的原始变量。在信度分析主对话框中选择第1-5题共五个变量,单击右向箭头将其移入Items方框中。在Model的下拉菜单中选择Alpha模型,即表示希望获得Cronbach’s Alpha系数。在信度分析主对话框点击Statistics按钮,进入定义信度分析统计量对话框。
步骤3:在定义信度分析统计量对话框Descriptives for 中勾选Scale ifitem deleted复选项,表示要求在输出结果中显示删除各个项目之后的系数变化情况。然后点击Continue按钮,回到信度分析主对话框,并点击OK提交系统运行,出现运行结果。
2.信度系数输出结果及说明
按照上述参数设置,Spss软件在输出信息观察窗口输出一个表格(表1)。该表报告了“语音听力考试成绩”各题的信度分析结果。表首为分析方法,意为选择了Alpha模型。表中的第1栏为变量,是语音听力考试的五道大题。第二栏为删除该项目后试题的平均值。第三栏为删除该项目后试题的方差。第四栏为该项目与试题总分的相关系数,相关系数较低的项目往往是有问题的试题。例如表中第5题与试题的相关系数仅为.2854,说明该题应该修改或删除。
最后一栏为删除其中某个项目后考试题的Alpha系数变化情况,该栏在检验信度差的试题方面很有用。如果删除某一道试题后的Alpha系数比试题的信度系数大,则可考虑将该题删除。本例中删除第5题后,信度系数将由原来的.7491提高到.7819,由此我们可以从提高信度系数的角度,确认该题应该修改或删除。
Cronbach’s Ahlha系数介0-1之间,系数越高,说明试题的内在一致性越强,测试的结果越可靠。通常自编考试的Cronbach’s Ahlha系数“要求0.60-0.80之间,而标准化考试则要求在0.90以上”。[6]本例的信度系数为.7491,因此我们可以得出信度较好的结论。
二、考试分数的正态分布检验
李筱菊认为考试“分数拉开距离,它们的分布才可能正态。分数分布正态,说明它反映了人的能力分布实况,说明考试有信度。”[7]因此,我们除了使用信度系数还可使用考试成绩正态分布的数据及分布图来测量和检验信度。
考试分数是否服从正态分布,可以用曲线图来观察,也可以计算偏态值和峰值的方法来确定。
1.正态分布图表的制作方法
步骤1:在Spss数据编辑视窗,点击Analyze命令,Descriptive Statistics在下拉菜单中选择Frequencies„,打开频数直方图编辑对话框。
步骤2:在频数分析主对话框中左边变量列表中选择第1-5题和总分共六个变量,点击向右箭头将其移入Variable::(变量)下白方框中,然后点击Statistics „按钮,进入频数分析数据编辑子对话框。选择Display normal curve,表示同时显示正态分布曲线。
步骤3:在频数分析数据编辑子对话框中Distribution.中选择Skewness和Kurtosis,表示要求计算正态值与峰值。点击Continue返回频数分析主对话框,单击Options„按钮,进入图形选项对话框。
步骤4:在频数分析图形选项子对话框中Chart Type下选择Histograms(单选项,表示要求输出直方图,并选择With normal curve复选项,表示要求输出的直方图带正态分布曲线。点击Continue按钮返回到主对话框,单击Ok按钮提交系统运用。
2.正态分布图及解释
按上述参数设置,Spss共在输出信息观察窗口输出6幅图形与7个表格(其中6个表格是6个变量的频数分布表)。我们只以其中一幅图形和描述统计表格为例介绍报告结果的含义及解释。
考试分数是否服从正态分布,可以通过带正态分布曲线直方图来观察。直方图是以长方形面积表示频数分布的一种图形,它的长度和宽度均有意义,而且由于数据值具有连续性,所以各长方形须相连排列。图中的顶点是平均成绩。直方图中的曲线称分布曲线。正态分布曲线是中间高、两边低且左右对称的曲线。曲线的最高峰,即频数最多处,是曲线的中间位置。这一位置的分数正好是分数的平均值。由于带正态分布曲线的次数直方图具有以上特点,所以可以直观地确定分数分布是否服从正态分布。
3.正态分布表及结果解释
表2是该考试五道大题和总分共六个变量的偏态值和峰值描述统计表。表中第一行为变量名;第二行N Valid为参加考试的有效学生人数;第三行为缺考人数(Missing);第四行为偏态值(Skewness);第五行是峰值(Kurtosis)。
偏态值和峰值为0时表示完全正态,偏态值的正、负表示正、负偏态。峰值的正负表示峰的“高瘦”(分数集中)和“矮平”(分数分散)。
偏态值如表2第三行所示,本例中单词听写、短文听写和听对话简答三题的偏态值均为负数,是负偏态,表示这三题分数分布偏向了右边,也就是偏向了高分,得分高于平均分的人数超过50%。而听句子简答、短文听力理解和总分三个变量的偏态值均为正数,即正偏态,表示分数分布偏向了左边,也就是偏向了低分,得分低于平均分的人数超过了50%。
峰值如表2第四行所示,本例中单词听写、听对话简答和总分的峰值为正数。表示峰比理想正态分布的峰高尖,也就是分数过分集中在中分段。而短文听写、听句子简答和短文听力理解三个变量的峰值为负数。表示这三个变量的峰比理想正态分布峰矮平,也就是分数过分散开。
表2 偏态值及峰值描述统计表
“一般说一个考试偏态值和峰值能控制在±1之内,便算其分数基本符合正态分布”。[8]因此,我们可以得出结论:语音听力部分考试的五道大题和总分基本符合正态分布,这份试题总体信度较好。
综上所述,本文为不太熟悉数理统计的广大教师介绍了用Spss软件计算Cronbach’s Alpha系数和正态分布检验学业成绩考试信度的方法,从而使我们可以较好地测量出考试成绩是否正确反映了学生的学习程度,考试对教学的评价是否可靠。再用信度检验数据查找出影响信度的试题、修改提高试题质量,这对发挥考试评价教学的作用和改进教学效果、提高教学质量无疑是很有好处的。
参考文献:
[1]楼裕胜.学生成绩的统计分析[D].杭州:浙江金融职业学院,2007.[2]李良.巧用Excel和SPSS软件分析考试成绩[J].金华职业技术学院学报.2008年4月.第8卷第2期.[3] 王雪、邓振伟、陈玲、田七.SPSS软件在试卷质量分析中的应用[N].读与写杂志.2009年3月.第6卷第3期.[4] 秦志强、贾真真.学业成绩考试的信度分析[J].教育理论与实践.2006年第26卷第7期.第4-6页.[5]邹申,杨任明.简明英语测试教程[M].北京:高等教育出版社,2000.[6]宋兆鸿,刘世表,张才美,张国华,张颂增,彭成奖等.现代教育测量[M].北京:教育科学出版社,1986.[7][8]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,1997.
2.用数理统计的原理评估试卷质量 篇二
试卷分析是教学管理过程的一个重要环节。试题的取样是否恰当、科学的问题。试题过难过易或出一些怪题、偏题,都不符合教学大纲规定的目标,不能比较客观地反映教学的实际情况和学生掌握知识的程度及智力水平,也无法区分考生学习的优劣,很难暴露出教学上存在的问题,不利于进行教与学的质量评价,更不可能对教学质量的进一步提高起到积极作用。[1,2]
系统地对试卷成绩进行分析也必然面临着工作量大、工燥、烦琐、极易出错等问题,这在一定程度上影响了试卷工作实施的广度和深度。本文应用MATLAB功能强大的统计工具箱,以实现试卷质量分析,将广大教师及教学管理人员从繁琐的试卷分析计算过程中解脱出来。
2 试卷质量分析指标
按照教育评价理论,试卷质量可通过其难易程序(难度)、鉴别性(区分度)、可靠性(信度)、有效性(效度)等科学评价指标综合反映[3]。对测试结果是否满足理想的正态分布,则可由Jarque_Bera、Lilliefors及Kolmogorov-Smirnov检验方法进行统计判定。
2.1 难度
难度是反映试题的难易程度的指标。在编制试题时,难度分布从易到难,逐步增加难度,这样有利于考生水平的正常发挥。第题的难度Pi=1-Xi/Si。这里Xi为第i题的平均分,Si为第i题的应得分。整份试卷的难易程序则可由试题的平均难度反映,计算公式为,其中P为题目总数。
一般而言,若Pi≤0.2,说明试卷难度过低;若0.2
2.2 区分度
区分度是反映学生掌握知识水平和能力差异的指标。通过考试,学习好的学生得到高分,学习差的学生得到低分,则说明试题的区分度高;如果学生中好、中、差三个层次的考试成绩处于同一个分数段中,就反映不出学生学习水平,那么这样的试题区分度就低。我们通常采用比较方便的两端分组法来计算试题的区分度。所谓两端分组法,即当测试成绩成正态分布时,将考试总分进行排序,然后选出得分最高的27%列为高分组,将得分最低的27%列为低分组;若分布图曲线比较平坦,则可取33%。区分度表示如下:
,其中i=1,2,3,…n。
式中Hi和Li分别表示全体考生中的高分组和低分组中第i题的平均分;Qi表示第i题的满分值。试题区分度的评价标准如表1。
2.3 信度
信度是反映考试结果稳定性的一个指标,它是针对试卷总体而言的。信度高的试题很少受偶然因素的影响,对任何学生的多次测定,都会产生比较稳定的前后一致的结果。信度的定义如下:,其中:
S2为全班考生考试成绩的总方差,N为考生人数,Xi第i个学生的考试成绩,X为所有考生成绩的均值;Sj2为全体考生在第j题得分的方差。信度的最小值为0,表示学生得分完全随机,与实际水平无关;最大值为1,表示考试成绩绝对可靠。一般说来,信度值不小于0.5的才符合标准。若随机误差小,则试卷的可信度越高,反之可信度越低。
2.4 效度
效度是本次考试成绩能否正确反映考生掌握知识程度的指标,它表示了该题的得分与总分之间的内在一致性。一般来说,若测试的结果与学生平时学习成绩基本一致,这样的考试则有较高的效度。测试过程中,效度最大值为1,表示测试结果符合测试目的;最小值为-1,效果反之。一般测试的效度应在0.4—0.7之间为宜。测试的效度通常采用下面公式:
xij为第i个人在第j题的真实成绩,为第j题得分的平均分,Sj为全体考生在第j题得分的标准差。
3 MATLAB与假设检验
3.1 假设检验的基本步骤[4]
假设检验是统计推断的基本问题之一,用于按一定规则(检验准则)确定关于样本总体特征的判断是否合理。求参数假设检验问题的基本步骤为:
1)根据问题提出合理的原假设H0和备择假设H1;
2)给定显著性水平а:一般取较小的正数,如0.05,0.01等;
3)选取合适的检验统计量(它的抽样分布中不含任何未知分布)并确定拒绝域的形式;
4)令P{当H0为真时拒绝H0}≤а,求拒绝域;
5)由样本观察值计算检验统计量的值,然后做出决策:拒绝H0或接受H0。
3.2 基于MATLAB的单个样本正态分布检验[5]
MATLAB软件提供了一些常用的假设检验函数,可方便地在试卷处理时直接调用。一般认为,试卷理想的成绩分布应近似正态分布,这可由下述方法进行统计检验。
1)Jarque—Bera检验:MATLAB软件提供的单样本正态分布Jarque—Bera检验函数为jbtest,命令格式:[h,p,jbstat,cv]=jbtest(x,alpha),表示根据所给样本数据x进行显著水平为alpha的Jarque—Bera检验;返回值中h为假设检验的结果,如果h=1,表示拒绝x具有正态分布的假设,h=0则表示不能拒绝x具有正态分布的假设;p为零假设成立的概率;jbstat为检验统计量的值;cv为判断是否拒绝假设的关键值。值得注意的是,Jarque—Bera检验是一种近似检验,一般只用于小样本假设检验,也可以用后面提到的单样本正态分布lilliefors检验函数lilliete来代替。
2)Lilliefors检验:MATLAB软件提供的单样本正态分布Lil-liefors检验的函数为1i11iete,命令格式:[h,p,lstat,cv]=lillietest(x,alpha),其意义与前述的jbtest函数相仿。
3)Kolmogorov-Smirnov检验:MATLAB提供了单个样本总体x具有特定分布的检验函数kstest(),命令格式:[h,p,ksstat,cv]=kstest(x,cdf,alpha,tail)。其中:cdf为预设的统计分布,alpha为指定的显著性水平,tail表示备择假设类型(双边检验或单边检验);返回值h=l表示拒绝零假设,反之h=0表示不拒绝零假设;p为零假设成立的概率;ksstat为K-S统计量的值;cv为判断是否拒绝假设的关键值。
4 MATLAB处理函数片段:试卷分析与统计处理[6]
4.1 难度分析
4.2 区分度分析
4.3 信度计算
4.4 效度计算
4.5 正态分布检验(h=1表示检验结果以显著性水平0.05拒绝正态分布假设)
5 结束语
本文给出一种基于MATLAB数理统计的试卷质量分析方法,反映借助MATLAB强大的数学运算处理功能,可大大降低教学管理人员的工作强度,为改进考试管理工作,提高命题质量,最终实现教学管理的科学化与规范化提供了一种方便的途径。
参考文献
[1]朱伟民.实用试卷成绩统计分析[J].中国教育技术装备,2006(5):13-15.
[2]林治.试卷评价与试卷质量的分析研究[J].扬州教育学院学报,2006(1):40-42.
[3]王孝玲.教育统计学[M].上海:华东师范大学出版社,1986:31-32.
[4]贾俊平.统计学[M].北京:中国人民大学出版社,2003:128-130.
[5]伯晓晨,李涛,刘路,等.MATLAB工具箱应用指南--信息工程篇[M].北京:电子工业出版社,2000.
3.用数理统计的原理评估试卷质量 篇三
近年来, 随着电网行业的快速发展及日趋严峻的能源危机, 电网统计数据的需求越来越大, 要求也越来越高, 同时, 为了加快实现电网公司全面建设“一强三优”的战略目标, 提升统计数据在公司决策与经营管理中的监督作用, 协调推进公司与社会的可持续发展, 迫切需要依据电网公司发展的新形势、新理念建立一个科学有效的统计数据质量评估模型[1]。
虽然现有的统计指标体系已较为完善, 但面临公司新的形势和未来发展的需求, 仍有一些问题值得研究。目前, 电网统计数据的研究大多集中在电网安全、可靠性、电能质量等方面, 很少有涉及针对电网统计数据质量评估的研究报道。其中, 文献[2, 3]提出了一种利用电压崩溃概率与风险值的乘积来衡量风险严重程度的方法;文献[4]将故障概率与气象的不确定性相结合, 以确定输电系统的可靠程度;文献[5, 6]首先将评语按优、良、中等标准进行划分并给定对应的数值区间, 若评估结果的量化值介于某评价等级的数值区间内, 则认为评估结果即为该等级。
以上文献在定性评价的过程中均存在不同程度的缺陷:文献[2-4]将评估结果精确化, 从而造成评估结果模糊性与随机性的丢失;文献[5, 6]采用传统的硬划分, 当评估结果介于两个评价等级的边界时, 表现出较强的主观随意性缺陷。为此, 本文提出了一种基于云模型的电网统计数据质量评估模型, 通过引进云模型对评语进行软划分, 借助逆向云发生器将评估结果转化为云模型, 并利用基于云模型的相似度算法计算评价综合云与各评价等级云之间的相似度, 借以确定统计数据所隶属的评价等级, 从而帮助用户及时了解统计数据的质量水平, 发现其中所存在的质量问题, 并指导用户采取相应措施进行修复。在此过程中, 摒弃了评语的硬划分, 弥补了传统方法的主观随意性缺陷, 实现了模糊性与随机性的联合, 最大程度上保证了评估结果的公平、公正、客观。
1 云理论
1.1 云的概念及其数字特征
云模型[7,8,9,10]是李德毅院士于1995年所提出的, 旨在实现定性概念与定量数值之间的不确定性转换模型。通过云模型, 可以将某一语言值映射到特定数值范围内, 在此过程中实现了随机性与模糊性的联合, 并深刻揭示了其内在联动关系。
假设U={x}是一个用定量数值所表示的论域, T是用语言所描述的U空间上的定性概念, 若对于U中的任意x都存在一个具有稳定倾向的随机数u (x) ∈[0, 1]代表x对定性概念T的隶属度, 即则x在论域U上的分布称为云, 而每一个 (x, u (x) ) 就称为一个云滴。换一句话来说, 云就是论域U到[0, 1]的映射。
云模型的数字特征用Ex、En和He三个数值来描述, 其中期望Ex代表论域U中最能够代表该定性概念的点;熵En体现了期望的不确定性, 它代表论域U中可被该概念所接受的数值范围, 体现了定性概念亦此亦彼性的程度;超熵He, 即熵的熵, 体现了熵的不确定性, He越大, 云的离散程度和厚度也就越大。
1.2 云发生器
云发生器分为正向云发生器和逆向云发生器两类, 分别如图1和图2所示。
(1) 所谓正向云发生器, 就是从云的数字特征值 (Ex, En, He) 出发, 产生若干个云滴 (x, u (x) ) 的模型。其算法可描述为:
输入:云的三个数字特征值 (Ex, En, He) 及需生成的云滴数N。
输出:N个云滴 (x, u (x) ) 。
(1) 以En为期望, He为标准差, 产生一个正态随机数En';
(2) 以Ex为期望, En'为标准差, 产生一个正态随机数x;
(3) 计算则 (x, u (x) ) 就是一个云滴;
(4) 重复 (1) - (3) , 直至产生N个云滴。
(2) 所谓逆向云发生器, 就是从若干个云滴出发, 获得云的三个数字特征值的模型。其算法可描述为:
输入:N个云滴x[N]={x1, x2, …, xN}。
输出:云的三个数字特征值 (Ex, En, He) 。
2 评估指标体系
2.1 评估指标体系的建立
对于统计数据的质量评估问题, 由于不同数据的质量评估需求互不相同, 因此选取的评估指标也不尽相同, 但通常来说都应该包括以下7个方面:
(1) 正确性:描述数据是否符合客观事实, 数据采集、传输、转储等过程中是否发生错误;
(2) 完整性:描述数据集中是否存在缺失记录;
(3) 唯一性:描述数据集中是否存在相似重复记录;
(4) 一致性:描述相同统计指标的数据的表达格式是否一致;
(5) 准确性:描述数据的精度是否符合要求;
(6) 有效性:描述数据的表达格式、数值大小是否有效;
(7) 时效性:描述历史数据于当前条件下是否仍然有效。
2.2 指标评估方法
2.2.1 正确性评估
正确性评估, 即异常点挖掘, 对于电力系统, 一方面, 由于电网统计数据具有纵向相似性, 即同一个统计指标相近时刻的数据一般不会有太大变化 (电网故障等特殊情况除外) , 而异常点的存在则会明显破坏这种特性;另一方面, 指标之间存在某种直接或间接的勾稽关系, 如线损率=线损电量/供电量。有鉴于此, 本文同时从一维和多维角度进行异常点挖掘, 并构造出如图3所示的异常点挖掘模型。
具体方法为:
1) 在一维统计指标异常点挖掘中, 将个案按从小到大顺序排列后, 若某个案与中位数的间距大于预定阈值, 则认为该个案为异常点。
2) 在多维统计指标异常点挖掘中:
(1) 利用指标之间直接、明确的等式关系, 如线损率=线损电量/供电量, 进行异常点挖掘, 若个案与经等式所求的值不一致, 则认为该个案为异常点;
(2) 进行回归分析, 建立统计指标之间的回归方程, 利用回归方程对统计指标数据进行预测, 并根据预测值与实际值的偏离度来定位异常点。
2.2.2 完整性评估
在实际生活中, 常常会出现由于信息遗漏、丢失或无法获取等原因而造成数据缺失。数据缺失不仅会造成有用信息的丢失、增加数据集的不稳定性, 甚至可能会影响决策分析结果。目前, 缺失数据的检测有多种方法, 如SPSS缺失值分析模块、Excel数值分析功能等, 均具有较高的准确性。
2.2.3 唯一性评估
由于电网统计数据均为数值类型且变化规律通常具有一定的周期性, 因此唯一性检测可从以下四个方面进行:
1) 数据集中是否存在相同的时间变量值;
2) 数据集中是否存在同名统计指标;
3) 不同行对应列的个案是否完全一致或相同个数是否超过预定阈值N1;
4) 不同列对应行的个案是否完全一致或相同个数是否超过预定阈值N2。
数据集一旦满足上述任一点, 则认为其有重复嫌疑。对于初步检测出的重复数据, 还需利用专业知识进行分析判断, 以确定其是否为“真重复”。例如, 数据集中存在两个同名统计指标:供电量, 根据上述原理进行检测分析后会初步判定其中一个为重复项, 但实际上两者可能代表不同的口径。
2.2.4 一致性评估
一致性评估描述的是同一个统计指标的数据的表达格式是否一致。由于电网统计数据均为数值类型, 故一致性分析可缩减为针对比率类数据, 如线损率 (包含小数、“%”和“/”3种有效格式) 。
2.2.5 准确性评估
准确性评估针对的是数值的精度问题, 评估时需预先设置一参考精度值, 然后检测个案的精度是否满足这一要求。利用visual C++, 不仅可以统计出所有不满足参考精度的个案, 同时还可对其进行相应的转换:若个案精度大于参考精度, 则需按“四舍五入”原则进行精度缩减;若个案精度小于参考精度, 则需在个案末尾添加若干个“0”, 以使个案符合要求。
2.2.6 有效性评估
有效性包括格式有效性和数值有效性两个方面。在进行格式有效性分析之前, 需预先确定统计数据所有的有效格式, 然后再将个案与有效格式逐一进行对比, 若个案的表达格式与某一有效格式相吻合, 则认为该个案格式有效, 否则认为该个案无法识别。数值有效性通常分析的是个案的大小是否介于某一值域范围内, 但对于整型数据而言, 如用户个数, 除此之外, 还必须满足整型要求。
2.2.7 时效性评估
所谓时效性, 是指由于时间的推移和行业日新月异的发展, 历史数据能否体现最新数据全部的本质特征, 并能对最新数据进行描述或替代, 而不被时间所淘汰。配对t检验是一种进行时效性评估的有效方法, 利用配对t检验可将历史数据与最新数据进行显著性分析, 借以判断两者之间是否存在显著性差别。由于同月份数据之间通常存在相同的变化规律, 因此只需将历史数据与最新的同月份数据进行显著性检验即可。
3 基于云模型的统计数据质量评估模型
3.1 确定评价等级云
假设将评语划分为p个等级, 则评价集可表示为:S={s1, s2, …, sp}。若评价等级sj的数值范围为 (Minj, Maxj) , 则对应的云模型可表示为Tj (Exj, Enj, Hej) , 其中:
其中, k为常数, 通常由区间值确定。区间值越大, Hej就越大, 对应评价等级的不确定性与随机性也越大。
3.2 确定评价综合云
利用逆向云发生器将各指标的评估结果转化为云模型, 设评估指标Ai对应的评价云为Ai (Exi, Eni, Hei) , 指标权值为wi, i=1, 2, …, 7。若由7个评价云所生成的评价综合云为A (Ex, En, He) , 则:
其中
3.3 相似度计算
在进行定性评价时, 传统方法是以评价综合云的期望值Ex为基准, 若Ex介于等级k的数值范围内, 则认为评估结果即隶属于等级k。该方法较为简易, 但当Ex介于两个等级的边界时, 表现出较强的主观随意性缺陷。故此处改用基于云模型的相似度算法, 通过计算若干个评价综合云的云滴对各评价等级的平均隶属度, 确定评价综合云与各等级云的相似度, 借以保证了评估结果的公正、客观。
基于云模型的相似度算法可描述为:
输入:评价综合云的数字特征值A (Ex, En, He) , 各评价等级云的数字特征值Tj (Exj, Enj, Hej) 及需生成的云滴数N。
输出:评价综合云与各评价等级云的相似度:ξj。
(1) 以En为期望, He为标准差产生一个正态随机数En';
(2) 以Ex为期望, En'为标准差产生一个正态随机数xi;
(3) 以Enj为期望, Hej为标准差产生一个正态随机数En'j;
(5) 重复步骤 (1) — (4) , 直至生成N个云滴;
(6) 计算相似度:
4 实例分析
本文选取国家电网公司2007年—2011年20个统计指标为研究对象, 这20个统计指标分别为:发电量、供电量、期末发电设备容量、本网最高发电负荷、线损电量、累计最大负荷利用小时数、设备平均利用小时数、全社会用电量、本网最高用电负荷、统一核算电厂上网电量、全社会用户用电装接容量、线损率、全社会用户个数、本网最大峰谷差、日最大峰谷差率、最大日用电量、平均用电负荷率、日均用电量、净用电量、售电量, 分别用D1, D2, …, D20表示。实例数据D如表1所示。
本文根据专家意见, 将评语划分为{好, 极好, 中, 极差, 差}, 共5个等级。以百分制为基准, 各评价等级对应的数值区间如表2所示。
根据3.1节, 得到如表3所示的各评价等级云的数字特征值 (这里经多次试验确定Hej=0.01) , 各评价等级的云图如图4所示。
假设评估指标Ai对应统计指标Dj的评估结果为Sij, 则Sij= (Dj中满足Ai的样本个数×100) / (Dj的样本总数) , 其中i= (1, 2, …, 7) , j= (1, 2, …, 20) 。根据2.2节进行评估后, 得到如表4所示的评估结果。
根据表4的评估结果, 利用逆向云发生器得到如表5所示的各评估指标的云模型数字特征值。
由于不同的评估指标在整个指标体系中的相对重要性互不相同, 对评估结果的决定程度也不一致, 因此有必要依据指标之间的相对重要程度确定各指标的权值。目前, 权值的确定方法有很多种, 如问卷统计法、专家法、层次分析法等。本文征求专家意见, 利用层次分析法所确定的指标权值为:正确性 (0.3773) , 完整性 (0.1735) , 唯一性 (0.1086) , 一致性 (0.0321) , 准确性 (0.0675) , 有效性 (0.1735) , 时效性 (0.0675) 。
由各评价云所生成的评价综合云:A (93.9203, 0.0147, 0.0082) , 对应的云图如图5所示。由图可知, 当评估分值取93.9203时, 隶属度为1, 表明:93.9203最能够代表实例数据的质量状况, 同时, 评价综合云的云滴大多介于93.84~94之间, 该范围正好隶属于评价等级:好。
经相似度算法所确定的评价综合云与各评价等级云的相似度:好 (0.8112) >极好 (2.9497e-005) >极差 (1.6619e-021) >中 (6.2153e-025) >差 (8.9968e-055) 。综上所述, 评价综合云与评价等级云 (好) 最为相似, 故实例数据的质量水平为等级:好。
5 结语
本文针对电网统计数据的质量问题, 提出了一种基于云模型的数据质量评估方法, 文章首先采用云模型将评语按好、极好、中、极差、差5个等级进行软划分, 并根据电网统计数据的基本特征, 从正确性、完整性、唯一性等7个方面进行质量评估, 在此基础上构造出一个评价综合云, 最后根据综合云来确定统计数据所隶属的评价等级。通过实例分析, 可以看出该方法具有良好的有效性与可行性, 同时能够较好地避免传统方法的主观随意性缺陷, 最大程度上保证了评估结果的公正和客观。但是, 由于本文所采取的部分评估指标并不具有较强的针对性, 故笔者认为今后的工作:如何从电网统计数据的基本特征出发, 进一步建立具有高针对性和高效性的评估指标体系, 借以实现评估结果的高可靠性。
参考文献
[1]胡倩.坚定不移推进“两个转变”加快建设“一强三优”现代公司[R].国家电网, 2010-02.
[2]周启航, 张东霞, 郭强, 等.电压崩溃的风险评估方法及应用[J].电网技术, 2011, 35 (4) :35-39.
[3]王磊, 赵书强, 张明文.考虑天气变化的输电系统可靠性评估[J].电网技术, 2011, 35 (7) :66-70.
[4]孟绍良, 吴军基, 王虎.电网脆弱性评价的灵敏度分析法[J].电力系统及其自动化学报, 2011, 23 (5) :89-93.
[5]王博, 游大海, 尹项根, 等.基于多因素分析的复杂电力系统安全风险评估体系[J].电网技术, 2011, 35 (1) :40-45.
[6]乔鹏程, 吴正国, 李辉.基于改进雷达图法的电能质量综合评估方法[J].电力自动化设备, 2011, 31 (6) :88-92.
[7]李贞双, 李争艳.基于云模型的量子免疫优化算法[J].计算机工程与应用, 2011, 47 (21) :123-125.
[8]徐德智, 李小慧.基于云模型的项目评分预测推荐算法[J].计算机工程, 2010, 36 (17) :48-50.
[9]陈昊, 李兵.云推理方法及其在预测中的应用[J].计算机科学, 2011, 38 (7) :209-224.
【用数理统计的原理评估试卷质量】推荐阅读:
初中词语数理统计的造句07-30
1-数理统计基础09-27
上海财经大学数理统计10-11
概率论与数理统计教材07-18
概率论与数理统计试题12-04
概率论与数理统计说课08-01
考研数学概率论与数理统计基础复习07-17
电大统计学原理二06-30
统计学原理课程作业08-17
统计学原理简答题复习11-16