统计学特性

2024-10-08

统计学特性(10篇)

1.统计学特性 篇一

飞机制造中新型质量控制模式-关键特性统计过程控制

分析了飞机制造中的.关键特性统计过程控制法,针对我国飞机制造中的主要难点提出了关键特性的新概念及其确定方法.这是飞机制造中的一个切实可行的方法,对提高我国飞机制造的生产率和质量具有重要的现实意义.

作 者:刘志存 范玉青 Liu Zhicun Fan Yuqing  作者单位:北京航空航天大学机械工程及自动化学院 刊 名:航空制造技术  ISTIC英文刊名:AERONAUTICAL MANUFACTURING TECHNOLOGY 年,卷(期): “”(11) 分类号:V2 关键词:飞机制造   关键特性   统计过程控制  

2.统计学特性 篇二

合成孔径聚焦(SAFT)超声成像是70年代发展起来的一种比较有潜力的成像方法,它通过将阵列小探头接收的声信号合成处理而得到与较大孔径等效的声学像。与传统的超声成像方法不同,SAFT成像可以通过低的工作频率和较小的换能器孔径以获得较好的分辨率[1,2]。

本文将介绍一个应用于无损检测的SAFT超声成像试验系统,这里设计一个包含多个缺陷的有机玻璃试块,对其进行2D-SAFT超声成像。结果显示,传统的SAFT超声成像效果较差。

通过对无损检测超声信号的统计特性进行分析得出:缺陷回波信号之间具有较好的相关性,而噪声信号之间相关性很低。基于这一特性,在传统的SAFT超声成像的基础上,根据回波信号的相关特性,对信号的合成过程进行非线性修正,得到一种基于信号相关性的非线性SAFT超声成像算法。

1时域SAFT算法基本原理

如图1所示:在进行2D-SAFT聚焦超声成像时,收发共置的超声探头在一条直线上做等间距(Δx)扫描,在每一点超声探头发射1个超声脉冲并接收物体内部各点的反射回波。图1中,把重建点Q的信号记为S(i,j),当探头位于第j个位置时接收到的声程为RiJ的回波信号记为S(2RiJ/c,J),则有SAFT的基本公式为[3,4]:

S(i,j)=12Ν+1J=j-Νj+ΝS(2RiJ/c,J)(1)

式(1)中C是超声波在物体中的传播速度;N是探头的个数。

2非线性SAFT算法

为了进一步提高成像系统的分辨率和信噪比,在时域SAFT基本原理的基础上设计了非线性SAFT算法。在介绍非线性SAFT算法前,先引入相关性的概念。

2.1 信号的相关性分析

在信号分析中,相关性是一个很重要的概念。所谓“相关”,是指变量之间的相互依赖关系。对于确定性信号来说,两变量之间可以用函数关系来描述,两者具有一一对应的数值关系。而两个随机变量之间就不具有这样的确定关系。在合成孔径聚焦超声成像中,研究任意两列信号之间的相关性是一件很有意义的事情。

X列信号S(i,x)和第Y列信号S(i,y)之间的相关性可以用它们之间的相关系数ρX,Y来描述[5,6,7]:

ρX,Y=cov[S(i,x),S(i,y)]D(S(i,x))D(S(i,y))(2)cov(S(i,x),S(i,y))=limΜ1Μi=1Μ[S(i,x)-S(i,x)¯]×[S(i,y)-S(i,y)¯](3)D(S(i,x))=limΜ1Μi=1Μ[S(i,x)-S(i,x)¯]2(4)D(S(i,y))=limΜ1Μi=1Μ[S(i,y)-S(i,y)¯]2(5)

其中,ρX,Y可以用来评定两列信号之间的相关程度,其变化范围是-1~+1。当ρX,Y=±1时,表示第x列和第y列信号完全(或逆)线性相关。ρX,Y位于-1~+1之间时,表示第x列和第y列信号有一定的相关性。

为了研究缺陷信号和噪声信号之间不同的相关特性,建立图2所示的采样模型,利用上述公式求其第1列到第11列信号对第6列信号的相关系数。模型A是在有机玻璃试块上等间距(2 mm)采样11个点,并在采样信号中加入随机噪声。模型B中,探头在第1到第11个位置接收深度为25 mm、直径为2.5 mm的横通孔的反射回波,且第6个探头位置在横通孔的正上方。

图3绘制了第1到第11列信号对第6列信号的相关系数。从图3中可以看出,噪声信号之间的相关性很差,而缺陷回波信号之间具有较好的相关性。

2.2 非线性SAFT超声成像算法

非线性SAFT超声成像算法是在进行幅值叠加前,对相邻几个位置探头接收的信号进行累乘预处理[8,9]。同时,基于噪声和缺陷回波信号的不同相关特性,在进行幅值叠加前,根据相邻位置探头接收信号相关系数的不同,对信号幅值进行非线性修正,得到基于相关性的非线性SAFT超声成像算法:

S(i,j)=J=-Ν+kmΝ-km{k=-nnψ(ρJ,J+km)S(2RiJc,J+km)}(6)

在式(6)中,m是累乘间隔;2n+1是累乘阶数。这里取m=n=1,表示把某一数据与其前一列的1个数据和后一列的1个数据相乘。ψ(ρJ,J+km)是与相关系数有关的函数,称之为非线性系数函数。对于非线性系数函数ψ(ρJ,J+km),要求当ρJ,J+km很大时对信号幅值进行增强;当ρJ,J+km很小时对信号幅值进行抑制。这里,取ψ(x)=exp(x)和ψ(x)=xexp(x)。

3试验

为了验证不同的成像算法对成像分辨率的影响,分别采用时域SAFT算法和基于不同的非线性系数函数的SAFT算法对有机玻璃试块成像。

3.1 探头和试验试块

试验中采用的探头直径为6 mm,中心频率为5 MHz。有机玻璃试块及尺寸如图4所示,在试块中加工有6个直径为2.5 mm的横通孔。

3.2 实验结果

对图4所示试块进行扫描成像,扫描间距为2 mm。

图5为延时叠加SAFT图像,可以看出,图5的分辨率是很差的。而图6,7,8分别为采用基于不同的非线性系数函数的非线性SAFT算法所成的像。图6的分辨率较图5有所提高,但是还不够理想。当改变非线性系数函数,使ψ(x)=exψ(x)=Xex,如图7,8所示,分辨率有很大提高。所有的横通孔都可以很清晰地分辨出来。

3.3 实验结果的数值比较

从前面的实验结果可以定性地得出以下结论:相比于延时叠加SAFT超声成像算法,非线性SAFT成像算法提高了超声成像的横向分辨率。为了定量地对成像结果的横向分辨率进行比较,取一个重建点的合成结果,对过重建点平行探头阵列的横向幅值衰减分布进行分析。如图9所示:由于数值的对称性,只给出半边的结果,图中,纵轴的定义为[10]:

Y=20lg|a/a0|(7)

式(7)中,a0为重建点的合成幅值。

分辨率应在半功率点,即a2/a02=1/2处,由式(7)可以求得:

Yh=-3.013dB

由线性插值的方法,按图9可以求得各种SAFT成像算法的横向分辨率。将由图9中(a),(b),(c),(d)求得的横向分辨率分别记为:Ra,Rb,Rc,Rd则有:

Ra=7.304 mm;Rb=4.184 mm;Rc=4.168 mm;Rd=4.108 mm

由上面的计算结果可以得出:相比于延时叠加SAFT超声成像方法,非线性SAFT成像方法显著地改善了成像结果的横向分辨率。同时,对基于不同的非线性系数函数的非线性SAFT成像算法,其分辨率也不一样。当非线性系数函数取ψ(x)=xex时,成像结果的横向分辨率最高。

4结语

试验结果显示,相比于延时叠加SAFT超声成像方法,基于信号相关性分析的非线性SAFT超声成像方法显著提高了成像分辨率和信噪比,获得了较好的声学像。同时,对于不同的非线性系数函数,其成像结果也不一样,当ψ(x)=xexp(x)时,成像效果最好。

参考文献

[1]John Waszak,Reinhold Ludwig.Three-Dimensional Ultra-sonic Imaging Employing a Time-domain Synthetic ApertureFocusing Technique[J].IEEE Transactions on Instrumenta-tion and Measurement,1990,39(2):441-444.

[2]Young-Fo Chang,Cheng-I Hsieh.Time of Flight DiffractionImaging for Double-Proble Technique[J].IEEE Tran-saction on Ultrasonics,Ferroelectrics,and Frequency Con-trol,2002,49(6):776-783.

[3]Heydar T Shandiz,Dr.Patrick Gaydecki.A New SAFTMethod in Ultrasonic Imaging at Very Low Frequency byUsing Pulse Echo Method,NDT.net.1999,4(11).

[4]Yoshihiko Ozaki.A New System for Real-time SyntheticAperture Ultrasonic Imaging[J].IEEE Transaction onUFFC,1988,35(6):828-838.

[5]沈民奋,孙丽莎.现代随机信号与系统分析[M].北京:科学出版社,1998.

[6]朱勇华,邰淑彩,孙韫玉.应用数理统计[M].武汉:武汉水利电力大学出版社,2000.

[7]李海青,黄志尧.特种检测技术及应用[M].杭州:浙江大学出版社,2000.

[8]Tao L,Ma X R,Guo Z X,et al.Phase Superposition Pro-cessing-A New Imaging Methed for NodestructiveTesting[J].Inverse Problems in Engineering Mechanics,Balkema,Rotterdam,1994.

[9]Tao L,Ma X R,Tian H,et al.Guo Phase Superposition Pro-cessing for Ultrasonic Imaging[J].Sound and Vibration,1996,193(5):105-102

3.统计学 篇三

[关键词] 科学决策 市场调查 假设检验

假设检验是一类重要的统计推断方法,它是利用样本统计量并按一种决策规则对零假设H0作出拒绝或接受的推断,决策规则运用了“小概率”原理。

一、理论基础

在次试验中,事件出现的频数与期望数有差异,卡尔·皮尔逊提出了这种差异程度的统计量

并证明了如下的定理。

定理当为总体的真实概率时,由上式定义的统计量的渐近分布是自由度为的-分布,即其密度函数为

在上面的定理中,我们假定是已知的,但是在实际问题中,通常依赖于个未知参数,而这个参数需要用样本估计,这时皮尔逊定理不再成立。不过,1929年费歇证明了在一定条件下,可以先用极大似然估计方法估计这个参数,然后再算出,这时统计量

当时还是渐近服从-分布,不过自由度为。

二、应用实例

石市万方商城准备在东开发区几个大中专学校内建连锁店,商城文化用品专柜销售经理安娣要为本专柜在各连锁店内的投资规模提供资料,供决策层参考。于是,对准备建连锁店的几个学校的学生进行了抽样调查,其中某大专学校每月生均消费(本文中专指学生用于购买文化用品的支出)的资料如下:

解:(1)统计假设:

(2)对水平,查自由度为的-分布得临界值,故拒绝域为[)

(3)计算统计量的观测值

(4)作判断:由于,故接受零假设,即此大专学校学生的每月人均消费(本文中专指学生用于购买文化用品的支出)X服从正态分布。据此推断结论,再综合其他因素,销售部经理、商场决策层等最后商讨在此校开连锁店事宜。

参考文献:

[1]魏宗舒等:概率论与数理统计教程[M].北京:高等教育出版社,2003年6月

[2]吴远芬:浅析抽样调查在应用中的局限性[J].商场现代化,2006年8月总第475期

4.统计学现状 篇四

在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。今天的统计学已展现出强有力的生命力。在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求。随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘。第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。由于社会实践广度和深度迅速发展,以及科学技术的高度发展,人们对客观世界的系统性及系统的复杂性认识也更加全面和深入。随着科学融合趋势的兴起,统计学的研究触角已经向新的领域延伸,新兴起了探索性数据的统计方法的研究。研究的领域向复杂客观现象扩展。21世纪统计学研究的重点将由确定性现象和随机现象转移到对复杂现象的研究。如模糊现象、突变现象及混沌现象等新的领域。可以这样说,复杂现象的研究给统计开辟了新的研究领域。

第二,定性与定量相结合的综合集成法将为统计分析方法的发展提供新的思想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对比,最后形成结论。它是研究复杂系统的有效手段,而且在问题的研究过程中处处渗透着统计思想,为统计分析方法的发展提供了新的思维方式。

第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。现代科学发展已经出现了整体化趋势,各门学科不断融合,已经形成一个相互联系的统一整体。由于事物之间具有的相互联系性,各学科之间研究方法的渗透和转移已成为现代科学发展的一大趋势。许多学科取得的新的进展为其他学科发展提供了全新的发展机遇。模糊论、突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和思想。将一些尖端科学成果引入统计学,使统计学与其交互发展将成为未来统计学发展的趋势。统计学也将会有一个令人振奋的前景。今天已经有一些先驱者开始将控制论、信息论、系统论以及图论、混沌理论、模糊理论等方法和理论引入统计学,这些新的理论和方法的渗透必将会给统计学的发展产生深远的影响。

5.统计学特性 篇五

关键词:集成电路,网络统计特性

网络统计是传统统计在新的信息传播媒体上的应用, 具体指为研究总体特征而利用计算机国际互联网络进行的统计数据资料收集、处理、展示、发布等活动的总称。网络统计的发展是计算机科学 (特别是其中的网络科学技术) 与统计活动相结合而产生的新的领域之一。本文以LCD控制器电路为例, 从电路设计角度建立了四个网络模型, 说明同一电路网络建模方法不同, 其统计特性参数不同, 但统计结果分析是一致的。

1 网络统计的特性

网络统计是在互联网络的基础之上发展起来的, 除具有互联网络的特点之外, 还具有其自身的特点, 具体体现在:

1.1 即时性

网络统计可以利用互联网络快速传递的特点, 进行即时的信息收集、信息反馈、信息分析和信息传播。

1.2 高效率性

网络统计可以利用特定的统计分析软件对收集而来的统计数据进行在线或离线的统计分析, 提高统计工作的效率。

1.3 互动性

网络统计可以通过在线调查的方式, 直接与被调查者沟通, 大大提高了获得统计数据的可能性和统计数据的正确性。

1.4 广泛性

互联网络可以说是触及了我们社会生活的方方面面, 我们可以利用互联网络对社会生活的各方面进行调查。互联网络连接着世界各地, 我们可以利用其在全球任何范围内进行调查。

1.5 低成本性

与传统调查法相比, 网上调查至少可以省去传统调查法中40%的费用。利用高效统计分析软件对统计数据进行分析, 也可节省人员费用的开支。从网络统计的几个主要特点不难看出网络统计发展的意义:根据市场的特点和互联网络发展的现状, 利用现有网上资源进行网络调研, 高效、迅捷地提供客观的统计信息, 促进经济的稳定、快速发展。

同样, 在集成电路网络统计中也存在着这些特性。

2 系统级网络模型及其统计特性分析

集成电路网络统计设计过程最主要的是逻辑设计和物理设计。逻辑设计指明电路中元器件类型及其连接, 从而得到一个实现一定系统功能的逻辑表示, 设计者通常用逻辑图、原理图、或文本等表示设计;物理设计要把每个元器件的电路表示转换成几何表示, 同时, 元器件间的连线也要被转换成几何连线图形, 通常用电路印制板图表示设计。本文以LCD控制器电路为实例, 建立LCD控制器系统级四个加权网络模型如图1。模型Ⅰ (系统级原理图模型) :以元器件 (电阻、电容、二极管、集成芯片等) 为节点, 电路原理图物理连线为边, 两个元器件间连线的次数记为边权, 如图1 (a) 所示。模型Ⅱ (系统级印制板图模型) :以元器件为节点, 若两个元器件同属于同一个网络标号, 则两个元器件间连接一条边, 两个元器件间实际电气连接的次数记为边权, 如图1 (b) 所示。模型Ⅱ网络密度和连边总数较大, 在很大程度上是因为网络中有三个较大完全联通子网, 分别为网络标号为GND的子网共79个节点;网络标号为Vcc的子网共42个节点, 网络标号为Vss的子网共9个节点, 为更加清晰反应网络中GND, Vcc和Vss子网对网络拓扑特性的影响, 引入虚拟网络节点, 即把网络标号GND, Vcc和Vss看成三个网络节点, 这时系统级原理图模型和系统级印制板图模型变化如图1。模型Ⅲ (带虚拟节点的系统级原理图模型) :以元器件和虚拟节点GND, Vcc, Vss为网络节点, 以电路原理图物理连线为边, 两个元器件间连线的次数记为边权, 如图1 (c) 所示。模型Ⅳ (带虚拟节点的系统级印制板图模型) :以元器件和虚拟节点GND, Vcc, Vss为网络节点, 若两个元器件同属于同一个网络标号 (网络标号GND, Vcc, Vss除外) , 则两个元器件间连接一条边;若元器件接地或者电源, 则元器件和虚拟节点GND, Vcc和Vss连接一条边, 连接次数记为边权, 如图1 (d) 所示。

3 系统模块化模型及其统计特性分析

3.1 系统模块化网络模型建立

人们在设计电路原理图时, 往往设计的电路非常复杂, 如果用一副代表整个系统功能的原理图来完成整个设计要求, 电路的可读性会很差, 为了解决这个难题, 人们往往按电路实现功能, 将原理图细化为若干功能模块, 从而化繁为简。为宏观把握电路结构, 我们以电路各个功能模块为节点, 各个模块间连接关系为边, 建立电路网络系统模块化模型, 这时模型Ⅰ~Ⅳ对应的网络模型, 变化如图2所示。图中边权表示不同模块内部之间连接次数总和。

3.2 系统模块化网络模型分析

系统模块化网络模型统计特性如表1所示。

系统模块化模型是电路系统模型的缩减, 虽统计参数与系统模型相差很大, 但是分析结果是一致的, 模块化模型Ⅱ网络密度、平均度和聚类系数较其他网络远远大得多, 且具有较小的平均路径长度。由于虚拟节点的引入, 印制板图网络连接边数明显减少, 而原理图网络表现出相反的特性。系统模块化模型和系统模型其统计特性又是相一致的。比如系统化模型Ⅳ, 其最大度79对应的节点为GND, 而在系统模块化模型Ⅳ中, 节点GND点权为79, 都说明LCD控制器电路中共79个节点接地线。

结束语

6.统计学总结 篇六

统计学是一门关于随机现象总体的数据资料进行收集、整理和分析的方法论科学。统计学的研究对象是对于客观存在的现象,只要能够按照特定性质加以归类,并能用总体性的数字来加以表现的现象

统计的基本方法:大量观察法、综合分析法、归纳推断法。

统计是一种具有特定目的、特定程序和一定组织形式的总体计数活动。

统计的涵义包括三个方面内容:1统计工作2统计资料3统计学

统计工作是对客观事物总体数量方面进行计量、核算和分析的活动及过程

统计资料是统计工作的成果,表现为对客观事物总体数量方面加以反映和说明的各种数据 统计学是对统计工作及其成果的理论概括和总结

统计的根本职能是①收集②整理③提供信息

统计信息具有数量性和总体性两个重要特征,统计方法和实验方法是科学研究的主要方法

统计方法有如下应用:①搜集数据,对所研究对象的总体事实做出数量上的叙述说明 ②对获得的总体事实进行时间、空间和属性等的比较③探索总体事实的内在数量规律性 统计任务的确定、统计设计、统计调查、统计整理、统计资料分析、统计资料提供与管理 统计常用的三种指标:1总量指标2平均指标3相对指标

统计指标进行对比分析方法包括1动态趋势分析法2因素影响分析法3相关分析法 统计数据分为①个体数据②总体数据统计调查有普查、重点调查、抽样调查等形式 计量尺度分为四种类型:1定类尺度2定序尺度3定距尺度4定比尺度

统计总体和总体单位①统计总体简称总体,是客观存在的、具有一个或若干个相同性质的许多个体所形成的整体②总体单位简称单位,是构成统计总体的每一个体(或个别事物)统计标志和统计指标①统计标志是说明总体单位所具有的属性或特征的名称②统计指标说明统计总体综合数量特征的名称。其都用数值来表现

品质标志是说明总体单位属性的名称,数量标志是说明总体单位特征的名称,统计指标按所反映总体的数量状况不同分为数量指标、质量指标

数量指标是说明所研究特征的规模、水平的绝对量指标,质量指标是反映所研究总体某一方面相对水平、工作质量的相对量和平均量指标,变量分为连续变量、离散变量。确定性变量、随机变量、定类变量、定序变量、定距变量、定比变量

连续变量的两个取值之间可作无限分割,可整数可小数点

离散变量两个取值之间不能做无限分割,为整数

搜集是统计工作的基础

统计调查的方式方式一般有抽样调查、普查、统计报表、重点调查、典型调查等 统计资料的三个基本性质:数量性、总体性、客观性

统计分组的类型一般有两种:品质分组、数量分组

品质分组是指按照事物的某种客观属性进行分组,或是对定类尺度和定序尺度的数据进行分组

数量分组是指按照事物的某一种数量特征来划分组间界限,或是对定距尺度和定比尺度的数据进行分组,组距=上限-下限

组中值=(下限+上限)/2

开口组,组中值的计算方法:

首组(数值最小的一组)组中值=本组上限-1/2邻组组距

末组(数值最大的一组)组中值=本组下限-1/2邻组组距

累计次数分布

在分组的基础上列出累计次数数值,为了统计分析之需要,有时要观察某一数值以上或某一数值以下的次数之和

数值由小向大的方向累计,称为“向上累积”

数值由大向小的方向累计,称为“向下累积”

分组变量的类型

数据是连续变量还是离散变量,来选择组限的标示方法

常见的分布曲线有三种类型:①钟型曲线②J型曲线③U型曲线

可把统计指标分为三类:绝对指标、相对指标、平均指标

绝对指标(总量指标)是反映社会、经济现象整体规模和水平的指标一般都以绝对数形式表示。绝对指标按时间特征分为时点指标、时期指标

时点指标反映现象某一时刻的状态

时期指标反映现象在某一段时期的某一范围内的变化总量

相对指标是说明一个数值与另一个数值之间相对比所形成的数量关系,其基本计算方法是两个绝对指标之比。计算相对指标的方法:结构相对指标、比较相对指标、强度相对指标、动态相对指标

极差也称全距,是数列中最大值与最小值之差。

相对指标:两个有联系的指标数值对比的结果。

① 结构相对指标=总体中某一部分指标数值

全部总体指标数值100%

② 比例相对指标=总体中某一部分指标数值

总体中令部分指标数值100%

③ 比较相对指标=某一总体指标数值

另一同类总体指标数值100%

④ 动态相对指标=报告期指标数值

基期指标数值100%

⑤ 强度相对指标=某一指标数值

另一有联系同时间指标数值100%

⑥ 计划完成相对指标=实际完成数

计划完成数100%

平均相对指标 种类反应时间不同分①静态平均指标②动态相对指标

按平均指标计算方法不同①数值平均数a算术平均数b调和平均数c几何平均数②位置平均数a众数是在一个数据集合中出现次数最多的数。

Mo=L+(△1/△1+△2)*d

L表示众数所在组(即次数最高的组)的下组限,△1表示众数组次数与上一组(变量值比众数组小的一组)次数之差,△2表示众数组次数与下一组(变量值比众数组大的一组)次数之差,△是希腊字母delta的大写,读作德尔塔,d表示众数组的组距

b中位数是已经过排列的数列中位置居中的数值。

Me= L+{(Σf/2-Sm-1)/fm}*d

Me表示中位数,Σf/2表示中位数所在的位置

Σ表示连加关系,Σ是希腊字母sigma的大写,读作西格玛。L表示中位数所在组的下组限

Sm-1表示中位数所在组以下(数据较小的)各组的累计次数 fm表示中位数所在组的次数

d表示中位数所在组的组距

算术平均数又称均值.是集中趋势最主要的测度值。算术平均数=总体标志总量总体单位总量

7.统计学论文 篇七

关键词:统计学; 证券投资; 风险预测

在现代科学技术发展的时代中,统计学的应用范围越来越广泛。在证券投资市场中,统计学也能够起到十分重要的作用。统计学是一门通用方法论的学科,是一种通过定量来认识问题的工具,其能够在证券投资市场上进行结构分析,开展有效投资组合的研究,实现价值预测,对证券发行与上市价格进行理论定价,分析证券期货的价格走势、进行风险测度等。由此可见,统计学已高度渗透到在证券投资的诸多细分领域中,并成为其中不可或缺的重要一环。

一、统计学在证券投资中应用的重要性

在现代化社会中证券市场是高度集中的信息化市场,能够将社会经济市场中的诸多信息都集中显示反映出来,其中包括经济信息、非经济信息、上市企业信息、证券市场自身信息等。从本质上来说,证券市场就是一个信息集中地,信息引导着社会资金分配至不同的实体部分,进而实现证券市场的资源配置功能[1].在近几年内,我国的证券市场得到了迅猛的发展,市价总值占据全国生产总值的比例越来越大,证券市场在市场经济中所起到的作用也越来越明显,某种程度上已经成为了国民经济发展动态的晴雨表。在金融市场纵深发展的背景下,数字化已经成为了传递信息、记录信息的重要载体,也是未来炙手可热的发展趋势,大量的数学与统计工具将会在证券分析中发挥着重大的作用[2].在证券投资活动中风险是相伴而生且广泛存在的。风险主要是指未来所存在的各种不确定性,但是对于统计学来说这种不确定性可以通过概率来进行表达。金融业的现代化发展使得统计与数理方法的应用更加普及。在1995年,美国斯坦福大学教授就通过实证研究,模糊评价等方式推算出菲律宾、韩国等地有可能出现金融危机,后来的事实证明这一推算是正确的。经济理论的统计学趋势也导致各项经济行为变得更加量化。统计学是一门通用方法论的学科,是一种通过定量来认识问题的`工具。在证券金融市场中,投资者在投资活动过程中进行资产优化配置的最终目标是实现既定风险下的收益最大化或既定收益下的风险最小化,而在这一过程中对风险进行预估是核心环节。马柯威茨组合理论总结了投资损失改了的分布以及可能收益与预估收益的偏离程度,结果得出投资者应该同时根据合适的比例来购买各种证券,而并非只购买某一种证券,只有进行分散化投资,才能够实现更加确定的收益。马柯威茨组合理论通过分析得出上述结论,不单单迎合了投资者的需要,同时还实践了统计学在证券投资中的应用。在近几十年中,伴随着量化的不断探索,统计学组合理论的运用方式愈加完善,已经成为了现代投资领域中的主流工具之一。

二、统计学在证券投资中的应用

证券投资活动是一项复杂性较强,风险性较高的金融活动,其不单单可以给投资者带来经济收益,同时还有可能对投资者带来经济损失。因此,投资者需要在对其所投资的证券收益进行预估之外,同时还要对证券投资的风格进行准确合理的估计,才能够在进行投资决策的过程中做到心中有数。

(一)统计学在流通市场中的应用

证券的流通市场就是将已经发行的股票进行转让,对流通市场进行统计能够对市场的运作情况进行更加熟悉、深入的了解[3].统计学在流通市场中对于经营,主要对股票市价总值、股票流通市值等进行统计[4].例如,股票市场总值统计即为根据某个时点上全部上市公司股票市值总和,其统计公式为:∑发行股本×收市价。而对于各类上市公司的总市值,其计算公式: (A股流通股+非流通股)× A股股价+ B股流通股本× B股价格×汇率。又例如,股票价格指数的统计。股票价格指数主要是综合反映股票价格变动的趋势与变动程度的指标,其主要用于分析股价对股票市场股价整体水平影响程度,对股价进行长期的预测。由于不同股票其价格指数不同,因此其价格变动的相对幅度以及对股市影响的程度也是不一致的。因此,在计算指数的过程中需要使用加权综合平均法来对股价指数进行计算。

(二)在研究证券指标中的应用

投资者在进行证券投资的行为中所进行的每一决策都是经过慎重考虑以及权衡利弊而做出的决定,其最终目的就是为了获得更大的经济效益。根据Markowitz投资组合理论,投资者进行收益与风险权衡的过程中以股票涨跌的期望收益作为决策参考,而方差值的大小则作为度量证券投资风险的重要指标之一。“均值---方差”模型的引入,使得传统的偏重于经验、定性等方式进行的金融研究借助统计思维,迈入数量化分析方向。此外,投资者基于更加透彻的了解股票实际收益与企业资产真实情况的目的下,还可以利用统计学对股票的近期实际收益、企业近期资产水平指标平均值进行研究。在证券投资分析过程中利用统计学概率的方法来进行分析是最为常见的。投资者在购入证券的过程中,一般情况下都是该投资者认为该证券将会在未来的某个时间段中上涨。然而证券投资过程会受到所中因素的影响,各种指标仅仅只是起到参考的作用,因此利用统计学的概率来进行判断,投资者就可以根据统计学计算的相关数据来看待各项指标,根据统计学中的概率只是来判断指标的准确性与可靠性,从而辅助证券投资决策。

(三)在风险与风险测度中的应用

1.单一证券投资风险测度

单一正确投资风险计算。如果投资者将期望的收益率作为依据来进行证券投资决策,则实际收益率之间存在的差异即为投资者所存在的投资风险。因此,期望收益率即为让可能存在的实际值与预测值之间的平均偏差获得最小的估计值。收益率越分散,其期望收益率的偏差也就愈加明显,投资者在进行证券投资的过程中所承担的风险也会相应的增加。因此,证券投资的风险可以使用未来可能收益与期望收益率之间的偏差程度来进行真实的展现。在统计学中,该偏离程度即为收益率的方差或标准差度量。其公式为:

2.组合证券投资风险测度

证券组合即为由一定数量的单一证券所构成的,单只证券对应一定的投资比例。利用统计学对组合证券投资风险进行测度的过程中可以将证券组合视为一支证券,所以测度证券组合的风险也可以通过方差来进行计量。现假设有证券A与证券B,投资者将一笔资金通过Xa的比例来投资证券A,以Xb的比例来投资证券B,并且Xa + Xb = 1,那么该投资者则购买了证券A与证券B之间的组合P.假如证券时间到期,证券A与证券B的收益率将分别为Ra与Rb,证券组合P的收益为r P = XaRa+ XbRb.其中,Ra与Rb为变量,因此组合P收益Rp同时也成为随机变量。因此,投资组合P的收益率即为:

根据上述证券组合收益与风险的统计学计算记录,可以将两个证券之间的组合任意拓展延伸到多个证券的情况。假设存在m证券,将其标记为A1,A2,. . . . Am.每一种类证券的收益率为r1,r2,. . .,rm.证券组合P =(x1,x2,. . . xm) ,表示将资金分别以权数x1,x2,. . . xm投资到证券A1,A2,. . . . Am中。如果设为允许卖空,则权数可以为负数,负权数则表示卖空证券所占据总投资资金的比例。总的来说,证券组合风险与各个证券之间的风险关系较为复杂,不单单与各个证券的风险、加权系数之间存在的密切关系,同时还与证券之间的相关性存在一定的联想。证券相关系数的数值与政府会直接影响着证券的风险。不同证券处于不同环境下其系数也不尽相同,对其进行组合亦会产生不同的风险结果。因此,在进行证券组合的过程中还需要对证券之间的相关系进行研究与计算。当证券组合中的证券数量超过两个的时候,就需要对证券两两之间的相关性进行深入探究。

三、结束语

8.统计学特性 篇八

风电场风速数据模拟生成技术是高风电渗透率电网进行生产模拟[1]、风险分析[2]与概率潮流计算[3]的基础。目前国内外对风速与风电功率数据生成方法进行了大量研究,大致可分为回归分析建模[4,5]与随机微分方程建模[6]方法。文献[7-9]还考虑了风电场间的互相关性。

对这些方法进行归纳后,可发现模拟风速时间序列应至少满足以下几个基本物理约束:(1)历史数据需求量小,根据风电场测风塔一年或更短时间数据即可生成所需风速时间序列;(2)模拟风速数据统计结果,应满足各风电场风速的季节性变化统计特征;(3)模拟风速应满足各风电场风速日变化特征(如中国北方陆地夜间风速平均值要明显高于昼间风速平均值);(4)模拟风速的时间序列,应符合各风电场历史风速数据的互相关性要求;(5)模拟风速的波动统计结果,应与历史风速波动统计结果基本一致。

上述约束(1)主要考虑了国内目前待投运风电场通常只有较短历史数据这一客观情况;约束(2)和(3)是为了保证生成数据的各项统计结果与历史统计结果尽量逼近;约束(4)和(5)是为了保证模拟生成的风速数据在时间轴上的波动情况与互相关性具有合理性。

上述5个约束是风电场风速模拟需要满足的基本约束因素,分别包含历史数据总量约束、统计特征约束和时间序列特性约束。从这些约束看,当前风速数据模拟生成方法,不同程度地存在以下一些问题:一是某些方法原始数据需求量过大[4],目前国内待投运的风电场通常仅有不长时间的历史数据,导致该方法实施受限;二是模拟风速的月统计结果应符合历史月风速的双峰或多峰混合威布尔分布[10];三是所生成的数据未能考虑多个风电场风速或风电功率的互相关性;四是某些方法虽然已考虑了互相关性,但主要针对一对风电场(目标风电场与参考风电场)[7,8],无法适应3个及以上风电场情况。

本文在相关研究基础上,提出了一种新的风速时间序列数据模拟生成方法。方法不仅对原始数据需求量小,而且生成的数据在满足多风电场间的互相关性和风速概率与风速波动统计特性方面,与历史统计结果匹配较好,是一种可行的风速数据模拟生成方法。

1 风速数据模拟生成中的关键问题

梳理前文5个约束可发现,为满足约束(2)和(3),可通过对历史各月昼间或夜间数据分别进行统计,并用某些特定的概率密度函数进行拟合。如此得到的概率密度函数,自然包含风速季节与昼夜变化信息。模拟风速只要也符合对应的风速概率密度函数即可。而历史1年风速数据总量,完全可以保证不同月份、昼夜区分的时窗内包含足够多的风速样本,可以满足约束(1)要求。将约束(1)至(4)归纳后,就成为统计学随机数生成问题:如何生成多组既满足各自统计特征,又具有特定互相关性的大样本随机数?再对约束(5)分析可知,风速波动统计结果,实际上就是时间序列的差分统计结果。根据Pearson相关系数的定义,对N组时间序列某一时间刻度对应的N个元素,与其他某个时间刻度对应的N个元素调换顺序,Pearson相关系数保持不变。这说明,若生成的多组随机数已经满足了约束(1)至(4),只要各组样本足够多,从中均匀随机提取某些时间刻度对应元素组成一个“小样本”时间序列,使得该序列不仅满足约束(1)至(4),其差分统计结果同时也满足约束(5),则风速数据模拟生成问题就可以得到很好解决。

生成多组满足各自单峰威布尔分布特征且具有互相关性的大样本随机数问题,已有较为成熟的理论方法[11,12]。然而,具体到风速数据模拟生成,还要进一步解决2个关键问题:一是各风电场不同月份昼间或夜间风速概率密度函数不是典型的单峰威布尔分布,如何进行简化处理?二是如何满足各风电场自身的风速波动特征,即“小样本”时间序列按何种方式生成?

下文将围绕关键问题展开分析,并形成符合要求的风速数据模拟生成方法。

2 风速时间序列生成方法

2.1 考虑季节与昼夜变化的风速统计特性

文献[10]以中国北方地区实际风电场风速数据为例按月统计,发现常符合双峰(特殊情况为三峰)型混合威布尔分布特征。按该文方法进行统计分析还发现:在统计月内,若再对昼间(05:00—17:00)和夜间(17:00—次日05:00)数据分别进行统计,得到各月昼间和夜间的风速分布仍基本满足双峰威布尔分布。北方某风电场2009年11月大风季夜间的风速统计直方图与混合威布尔分布逼近结果见附录A图A1。

双峰威布尔分布概率密度函数统计学描述为:

式中:fmix为混合威布尔概率密度函数;fw1和fw2分别为三参数单峰威布尔分布的概率密度函数;r为百分比参数[10]。

对双峰混合威布尔分布分析可见,若统计样本集合容量为Nmixwb,且统计结果符合双峰威布尔分布fmix,则该集合可以视为样本总数为rNmixwb、统计结果满足fw1,以及样本总数为(1-r)Nmixwb、统计结果满足fw2的2个样本子集的混合。

按照上述规律,第1节提出的第1个关键问题,即如何生成多组满足各自双峰威布尔分布与互相关性的随机数问题,就转换成如何生成多组满足各自单峰威布尔分布与互相关性的随机数问题。

2.2 满足互相关单峰威布尔分布的随机数生成方法

设需要模拟生成Nw组风速时间序列。

1)需要从生成Nw组独立复高斯随机变量开始。

第i组独立复高斯随机变量gind,(i)中元素为:

式中:xn(i)和yn(i)均为满足独立标准正态分布的随机数。

这样生成的各组复高斯随机变量集合gind,(i)彼此也互不相关。复高斯随机变量的一个重要特征是以gind,(i)各元素模值组成的集合rind,(i),符合互相独立的瑞利分布[11]:

瑞利分布均值为方差为(2-0.5π)ΩRi。rind,(i)实际上对应ΩRi为1的瑞利分布。

2)将Nw组gind,(i)转换为包含互相关性的复高斯随机变量gcor,(i)。

若Nw组gcor,(i)的相关系数对称矩阵Mg为:

式中:ρg(i,j)为gcor,(i)与gcor,(j)的Pearson互相关系数。

于是,Nw组互相关的复高斯随机变量gcor,(i)生成方法为:

式中:Mgchol为Mg的Cholesky分解的下三角阵。

在大样本情况下,按式(5)转换后得到的Nw组gcor,(i)可以很好地满足互相关系数要求,同时各组gcor,(i)中元素取模后,新得到的Nw组rcor,(i)仍满足ΩRi为1的瑞利分布,且已具有互相关性,其互相关系数ρr(i,j)与ρg(i,j)关系为[11]:

式中:En为第2型完全椭圆积分。

3)将各组rcor,(i),转化为互相关性不变、但符合特定ΩRi(ΩRi不为1)瑞利分布的rmcor,(i)。其元素为:

4)对rmcor,(i)每个元素进行如下变换[12]:

则wcor,(i)中元素统计结果满足三参数威布尔分布:

式中:;ki≥0为形状参数;ci>0为尺度参数;ui≥0为位置参数。

各wcor,(i)的互相关系数ρw(i,j)与ρr(i,j)关系为:

式中:H为高斯超几何函数。

式(4)—式(9)建立了互相关高斯随机变量与互相关威布尔分布随机变量的关系。式(6)和式(10)可通过先计算多组数值,再通过线性插值建立ρw(i,j)和ρr(i,j)与ρg(i,j)的映射关系。这样就可以首先生成满足特定互相关矩阵Mg的多组复高斯随机变量,然后通过式(5)—式(8)得到满足互相关矩阵Mwreq(元素为ρw(i,j))与各自威布尔分布的随机数。

以上就是生成多组满足互相关性,且统计特征符合各自单峰三参数威布尔分布随机数的方法。在整个过程中,建立多组满足互相关瑞利分布的随机数起着承上启下的作用。

2.3 暂不考虑波动特征的大样本风速数据生成方法

设某地区当前有Nw个待投运风电场,由历史数据可得到各风电场风速时间序列的互相关系数ρw(i,j)、各风电场风速波动统计直方图及风速概率分布。以下暂以常见的双峰情况对风速时间序列生成方法进行阐述,并以生成第F月(设该月共含D日)所有夜间风速样本为例进行说明,其他月份及昼间情况可以此类推。

设Tscale为计算平均风速时间刻度。根据历史风速数据,第i个风电场在第F月各日夜间的风速样本总数Nm为720D/Tscale(若Tscale为10min,则一日昼间或夜间各有72个样本)。且第i个风电场风速统计结果所符合的双峰威布尔概率密度函数为:

式中:fw1(i)和fw2(i)为式(9)形式的三参数单峰威布尔概率密度函数。

若保证最终考虑波动特征后的风速时间序列有Nm个样本,则令当前各风电场生成的随机风速样本总数为KNm个(K为较大整数,以保证KNm相对Nm为较大的样本集合)。Nw个不考虑自身波动特征的风速大样本序列生成步骤如下。

步骤1:计算各风电场互相关矩阵Mwreq,它以ρw(i,j)为第i行第j列元素。

步骤2:对各风电场风速概率密度函数fmix(i)的r(i)排序,设排序结果从小到大为{r1,r2,…,rNw}。

步骤3:将数据生成过程分为Nw+1小步,每一小步中均生成Nw个风速时间序列,且互相关矩阵为Mw(Mw初值取Mwreq)。各风速时间序列生成的样本数在同一步骤中相同,但不同步骤中存在区别。对第1小步,每个时间序列样本生成个数为KNmr1,各序列样本统计结果分别满足各自的三参数单峰威布尔概率密度函数fw1(i);对第n小步(1<n≤Nw),每个时间序列样本数为(rn-rn-1)KNm。其中,r1至rn-1所对应的风速时间序列样本满足各自fw2(i),rn至所对应的时间序列风速样本仍满足各自fw1(i)。直到第Nw+1小步,每个时间序列样本数为各序列样本统计结果满足各自fw2(i)。

以上每个步骤,均按第2.2节方法,生成特定样本数且互相关的Nw个风速序列。之后对第i个风电场,将Nw+1小步生成的风速序列顺序拼接在一起,则该风速时间序列的风速样本共有KNm个,其中有r(i)KNm个样本满足fw1(i),且有(1-r(i))KNm个样本满足fw2(i)。根据前文分析,其总样本概率分布必然满足fmix(i)。但以上过程中,虽然每一步均保证各时间序列的互相关性满足Mwreq,但对同一个风电场,各步骤中生成的风速样本拼接在一起后,总样本的均值和方差与单步相比却存在变化。由于Pearson相关系数是针对样本总体的概念,对拼接后各风电场总的时间序列再计算互相关矩阵Mw′后,Mw′与Mwreq相比很可能存在稍许偏差。为此,应根据Mw′结果对每步中的Mw进行一定修正,以使得再次按Mw计算后得到的Mw′与Mwreq基本一致。Mw矩阵中各元素mi,j可按下式修正:

式中:ρw(i,j)为Mwreq中元素;ρw(i,j)′为Mw′中元素。

一般经过一次修正后,按新的Mw重复前文风速大样本生成方法,所得到新的Mw′将与Mwreq基本一致。由于Pearson互相关系数并不是一个精确、严格地形容相关性的指标,在大格局保持一致的前提下,Mw′与Mwreq中某些元素存在少许偏差是可以接受的。至此得到了Nw组具有互相关性,且样本统计结果满足自身双峰威布尔统计特征的大样本随机数序列。只不过这些随机数序列从时间轴角度看,波动变化比较杂乱,与历史风速波动变化相差较大,需要在此基础上进行进一步处理。

2.4 计入波动特征的风速时间序列生成方法

各风电场具有自身的波动特性,可以通过其风速波动统计特征进行描述。记相邻时刻风速波动值为ξ=vt+1-vt,统计各风电场不同ξ值出现频率,就可以得到风速波动历史经验概率分布。

对10min或15 min级平均风速模拟来说,相邻2个时段风速波动的绝对值范围一般在0~3m/s之间。为便于统计,可将|ξ|分为4个区间:|ξ|∈(0,0.5]为区间1,对第i个风电场,其频率为σ1(i);(0.5,1.5]为区间2,其频率为σ2(i);(1.5,2.5]为区间3,其频率为σ3(i);(2.5,|ξ|max]为区间4,其频率为σ4(i)。|ξ|max为风速波动历史统计最大值,为简化分析,|ξ|max一般可取为3 m/s。对第i个风电场,有

各风电场最终模拟生成风速的波动特征(即差分结果),既要具有一定随机性,同时也要与历史波动统计结果保持一致。按2.3节得到各风电场大样本风速数据后,从中合理抽取,使得抽取后的小样本风速时间序列的波动特征与历史统计结果匹配,具体方法如下。

步骤1:定义Nw个时间轴,每个时间轴各含Nm(各风速序列待生成风速样本个数)个时间刻度。这些时间刻度具有不同属性,共分4类。对第i个时间轴的第n类时间刻度,其属性为:该时间刻度内风速与前一时刻风速差分结果|ξ|必须在区间n内。第i个时间轴第n类时间刻度总数为σn(i)Nm,4类时间刻度在时间窗口中按比例随机生成。

步骤2:将步骤1中的Nw个时间轴,视为Nw行、Nm列的特殊约束矩阵Mf,Mf矩阵各元素待填充,每个填充后风速应满足该元素的区间约束,且Mf填充后的各行就是所求最终风速时间序列。将2.3节生成的Nw组大样本风速时间序列,也视为一个Nw行、KNm列的矩阵Mc。对Mf中的每一列,从Mc矩阵中均匀随机抽取一列风速填入,若不满足Mf区间约束,则再重复此过程,直到Mf各列元素符合区间约束为止。

填充后的Mf,实际上是Mc的“小样本”集合。步骤1保证了Mf所有元素填充完毕后,其每一行元素(即每个风电场已生成风速时间序列)的风速波动统计结果与该风电场历史结果一致。而步骤2从Mc矩阵中抽取某一列过程为“均匀随机”抽取,这保证了抽取后的小样本Mf,其各行的风速样本统计结果仍符合对应风电场的双峰威布尔分布。由于Mf中每列元素均对应Mc中某一列元素,按Pearson互相关系数定义,这就保证了Mf各行的互相关系数与Mc各行的互相关系数基本一致。整个填充过程示意见附录A图A2。填充后的Mf,其每一行元素就是各风电场所求的最终时间序列。这些时间序列符合对风速随机数模拟生成的5个基本约束要求。

以上各时间序列均有720D/Tscale个点。将各风速时间序列切割成D份,则每个风电场每天夜间有720/Tscale个点。重复与夜间风速时间序列相同的生成方法,分别生成其他月份昼夜风速数据,再将它们按时间前后拼接,就可以生成全年风速数据。

多数情况下拼接后昼夜交接相邻风速的波动值在正常范围内,但也会有较为极端的波动情况(|ξ|>5m/s)出现。对10min级平均风速模拟来说,此波动情况概率小于0.7%(某日拼接后的144个点中只有2个点间可能存在极端波动)。一旦极端波动出现,若夜间末时刻模拟风速为vnight,end,昼间首时刻模拟风速为vday,start,延伸考虑两者各自相邻的vnight,end-1与vday,start+1两点后,vnight,end与vday,start可修改为:

式中:vnight,end′和vday,start′分别为修改后的昼夜交接相邻风速。

得到最终模拟风速时间序列后,参照地理位置相邻且装机容量相近风电场的测风塔风速—风电场总功率曲线,即可得到风电功率时间序列。

3 算法说明

本文多处用到随机数生成或抽取方法,包括以下几种。

1)复高斯随机变量实虚部生成方法,需用到满足标准正态分布且独立的大样本随机数生成方法。

2)从Mc中均匀随机提取某一列填充Mf时,需用到满足平均分布的随机数生成方法。

3)2.4节中定义4类时间刻度,需用到满足比例平均分布的随机数生成方法。

以上几种随机数生成方法中,1)和2)中方法均为常用随机数生成方法,大样本随机数较容易得到;3)中随机数生成方法稍显特殊,可采用如下方法处理。对第i个时间窗口的第t个时间刻度,生成[0,1]间满足均匀分布的随机数p。若p∈[0,σ1(i)],则将该时间刻度定义为第1类时间刻度;若,则将该时间刻度定义为第k类时间刻度。对2.4节中每个时间轴进行Nm次随机数生成,就得到了各时间轴所需的数量满足比例要求,且具有随机性的4种不同属性时间刻度。

在从Mc随机抽取某一列填补Mf过程中,虽然Mc列数为Mf列数的K倍,但有时容易出现Mf一些列的区间要求已满足,但从Mc中无论随机抽取列多少次,Mf后续列的区间要求仍无法得到满足的情况,整个填充过程被“卡死”。为得到最终结果,可设定若从Mc随机抽取Nloop次后,仍无法得到满足Mf要求的列,则重新开始从Mc随机抽取某一列填补Mf的过程。由于再次从Mc抽取的列号仍是随机的,新填充的Mf列也将发生变化,该过程重复数次后,即可保证Mf的所有Nm列均填充完毕。

受随机性影响,某些情况下已填充完毕的Mf,其各行风速样本统计结果可能与各自混合威布尔分布的概率密度函数存在一定偏移。为此,还应在Mf填充完毕后,检验Mf各行元素统计直方图与其混合威布尔分布概率密度函数的拟合情况。可设Mf第i行元素拟合程度检验指标为:

式中:zn(i)为第i行风速统计直方图中,第n个风速区间的频率;fmix(i)(n)为第n个风速区间对应的混合威布尔分布概率密度函数值。

一般而言,将风速统计直方图分为30个区间(1m/s为1个区间)时,ETi控制在小于0.04就可以获得良好的逼近效果。

在得到Mf后检查各行ETi指标时,若某行元素ETi指标不合格,则应重新执行2.4节步骤2中过程,直到Mf各行ETi指标合格为止。

整个风速数据生成过程涉及嵌套循环,但每个循环过程的计算均为对大样本随机数的逻辑判断,计算机处理速度快,对Tscale为10min及更长时间级而言,算法不存在计算负担。

最后将本文算法流程归纳到图1中。

4 算例分析

设待生成风电场WF1至WF3在11月各日夜间风速时间序列。已知各风电场前1年风速历史数据。Tscale=10min,每个风电场待生成风速数据个数Nm为2160;取K=50,Nloop取为10 KNm。各风电场历史11月夜间风速互相关系数ρw(1,2)为0.91、ρw(1,3)为0.80、ρw(2,3)为0.72。按3个风电场互相关系数历史结果,形成互相关矩阵Mwreq及对应Mg见附录A。各风电场的混合威布尔分布参数值见附录A表A1,历史风速波动统计结果见附录A表A2左列。

按2.3节将风速时间序列生成分为4小步,各小步3个风电场生成风速序列互相关性均满足Mw(Mw初值取Mwreq各元素值)。每步各风电场风速序列生成样本数、样本所满足分布见附录A表A3。

将每个风电场各步生成的风速顺序拼接。拼接后的各风速时间序列均有108 000个样本,所生成样本统计结果与其双峰威布尔分布拟合程度见附录A图A3左列。可见,各风电场生成的风速样本统计结果与历史统计结果拟合效果很好。但检验互相关系数后发现,3个风电场风速序列互相关系数ρw(1,2)为0.93、ρw(1,3)为0.85、ρw(2,3)为0.81,与Mwreq相比存在一定偏差。按式(12)对Mw进行修正后,再进行一次大样本风速生成过程,得到新的互相关系数分别对应为0.92,0.79和0.69,修正后的互相关系数与历史结果基本一致。

以各风电场已生成的大样本风速序列为基础,按2.4节方法对各风电场的风速时间序列波动统计特征进行匹配。匹配后,各风电场风速时间序列互相关系数分别对应为0.91,0.82和0.68。最终生成风速时间序列样本统计结果(共2 160个样本)见附录A图A3右列,生成风速的波动统计结果见附录A表A2右列,某日夜间各风电场生成风速时间序列见附录A图A4。算例结果可见,生成风速具有合理的随机性与互相关性。各风电场生成风速的统计结果符合各自混合威布尔分布特征。而各风电场所生成风速的波动特性与其历史统计结果也基本一致,所生成风速较好地满足了历史风速统计特性。这说明按本文方法所生成风速,从统计结果到具体时间序列,均较好地体现了风速变化特性。

5 结语

本文方法模拟生成的风速数据,不仅满足风电场间的互相关性,而且满足风速统计特性,具有应用价值。此外,本文方法具有一定的通用性,如果获知风电功率各月统计分布、波动特性与互相关特性,按该方法同样可进行风电功率的模拟生成。

本文方法可用来顺利生成10 min及更长时间级的平均风速数据,这对许多问题的研究已经足够。但若要求模拟生成更短时间级(如分钟级或秒级)风速数据时,此方法在处理大样本随机数生成及各风电场风速波动统计特性匹配时将存在一定困难。此外,本文在昼夜区分上采用了等间距时长,实际上非等间距分段可能会获得更为合理的昼夜分布方式,但非等间距分段涉及季节、地域等变化,分析相对复杂,需要更进一步的研究。

参考文献

[1]邹斌,李冬.基于有效容量分布的含风电场电力系统随机生产模拟[J].中国电机工程学报,2012,32(7):23-31.ZOU Bin,LI Dong.Power system probabilistic production simulation with wind generation based on available capacitydistribution[J].Proceedings of the CSEE,2012,32(7):23-31.

[2]BILLINTON R,BAI G.Generating capacity adequacy associated with wind energy[J].IEEE Trans on Energy Convertion,2004,19(3):641-646.

[3]范荣奇,陈金富,段献忠,等.风速相关性对概率潮流计算的影响分析[J].电力系统自动化,2011,35(4):18-22.FAN Rongqi,CHEN Jinfu,DUAN Xianzhong,et al.Impact of wind speed correlation on probabilistic load flow[J].Automation of Electric Power Systems,2011,35(4):18-22.

[4]LOJOWSKA A,KUROWICKA D,PAPAEFTHYMON G,et al.Advantages of ARMA-GARCH wind speed time series modeling[C]//Proceedings of IEEE11th International Conference on Probabilistic Methods Applied to Power Systems,June14-17,2010,Singapore:83-88.

[5]PHILIPPOPOULOS K,DELIGIORGI D.Statistical simulation of wind speed in Athens,Greece based on Weibull and ARMA models[J].International Journal of Energy and Environment,2009,3(4):151-158.

[6]DOQUET M.Use of a stochastic process to sample wind power curves in planning studies[C]//Proceedings of IEEE Power Tech,July1-5,2007,Lausanne,Switzerland:663-670.

[7]WANGDEE W,BILLINTON R.Considering load-carrying capability and wind speed correlation of WECS in generation adequacy assessment[J].IEEE Trans on Energy Convertion,2006,21(3):734-741.

[8]XIE Kaigui,BILLINTON R.Considering wind speed correlation of WECS in reliability evaluation using the time-shifting technique[J].Electric Power Systems Research,2009,79(4):687-693.

[9]BECHRAKIS D A,SPARIS P D.Correlation of wind speed between neighboring measuring stations[J].IEEE Trans on Energy Conversion,2004,19(2):400-406.

[10]王松岩,于继来.短时风速概率分布的混合威布尔逼近方法[J].电力系统自动化,2010,34(6):89-93.WANG Songyan,YU Jilai.Approximation of two-peak wind speed probability density function with mixed Weibull distribution[J].Automation of Electric Power Systems,2010,34(6):89-93.

[11]NATARAJAN B,NASSAR C,CHANDRASEKHAR V.Generation of correlated Rayleigh fading envelopes for spread spectrum applications[J].IEEE Communications Letters,2000,4(1):9-11.

9.统计学论文 篇九

一、传统考试模式的弊端

1.考试模式过于格式化、理论化、单一化和结果化,无法客观、全面和科学地评价教学效果。这种模式将导致学生普遍形成“平时玩、考前看、考后丢”的规律。因此,传统的考试模式将滋长投机心理和浮躁学风,不利于形成良好的学习习惯,不利于实践能力和创新能力的提高。

2.考试内容片面化,难以真实地反映教学质量和学生的学习情况。传统考试基本是考核学生“划范围、圈重点”的识记力,考试成绩有很大的机会性与偶然性。这种考试既不能全面了解学生知识的运用能力与创新思维能力,也不能科学评价教师的教学水平和教学质量。易于导致学生高分低能,不利于学生知识运用能力和整体素质的提高。

3.考试不具备公正性与科学性,难以实现考教分离。传统考试模式从出题、监考、阅卷、统计到登录成绩,均由任课教师完成,教师工作量大,效率低,试题选择的随意性大,仅凭教师的主观意愿来评价试卷的难易程度。阅卷时也难以避免人情分现象。

4.考试后信息反馈能力较弱。考试后对考试成绩的分析也将花费教师大量的时间和精力,但其分析结果主要是最高分、最低分、平均分、及格率、优秀率等表面层次上,难以从分析结果中了解学习情况及对知识点的掌握程度,不利于教学质量的提高。

因此,传统考试模式已不能适应网络教育环境下医学统计学教学需求及精品课程建设的要求。

二、基于ASP技术“三级三分”制式考试模式的设计

1.考试内容的构成。试题库由三部分构成,包括基本知识(elementary knowledge,E分,60%)、拓展知识(prolongation knowledge,P分,20%)和创新知识(innovation knowledge,I分,20%)。其中E分(均为客观题)和P分(均为主观题)为开放式题库,分别考核学生掌握的基本知识和运用知识的能力。基本知识考试必须达到合格,在计算机考试中完成。由ASP自动识别系统预约考生后从题库自动提取10个选择题/章,每一题答题时间为20秒钟,正确率必须达到80%以上,其相应章节或系统即可记合格(60分)。拓展知识考试按实际记分,由ASP系统从题库自动提取2个主观题/大类(或系统),每题按10分计算,每一题答题时间为3分钟,并由计算机识别考生后自动提供一张带二维码的拓展知识考试的答题纸,学生答题后通过扫描直接存入系统提供给老师阅卷,只按百分比评分(不得超过95%),计算机可根据其计算出实际得分计入总分。创新知识考试按实际记分,由计算机识别考生后,自行提供带有二维码创新知识分答题纸,学生根据自己所学知识,解答题目或发表观点,答题后放进扫描系统,每个项目按10分计算,只按百分比评分(不得超过95%),计算机可根据其计算出实际得分计入总分。为充分调动学生创新的积极性,对于申请获得相关拓展项目、创新项目或者获奖者,可按相应比例计入创新知识分。

2.考试难易程度的设置。将医学统计学考试难度划分为三个级别,即I级(低难度)、II级(中等难度)、III级(高难度),根据不同专业、不同学科方向、不同学习层次设置考试级别。学生可在规定考试级别上,根据自己的学习状况选择高于规定级别的考试,但不能选择低于规定级别的考试。I级题库为100%低难度题目构成;II级题库为30%低难度题目和70%中等难度题目构成;III级题库为10%低难度题目、20%中等难度题目和70%高难度题目构成。例如,临床、中药学和中医学本科必选III级,中药学、护理学、影像学、检验学本科必选II级,其他专科选I级。不同专业考试级别设置如下表。

3.考试类型的选择。考试类型包括章考、类考和会考三种类型。章考指分章节考试,由任课教师授完相应章节后,24小时内授权准考章节或由计算机按课程表自动在正常授课时间后,24小时内自动完成考试授权。若有调课、停课等课程变动情况,由教师按调课申请重新设置考试时间。类考是根据知识结构,将多个同类章节分成几大类进行考试。如:绪论、统计描述、统计推断等。会考是整个课程结束后的综合考试。学习结束后,学生可按自己的学习情况选择考试类型,并通过ASP考试预约系统预约考试时间。

4.考试题型的设置。基础知识考试内容的题型为10个选择题,包括8个单选,2个多选,正确6个单选和1个多选,即可合格。拓展考试内容的题型为简答题(4个)和计算分析题(2个)。

5.考试成绩的评阅。客观题由计算机自动阅卷。主观题由任课教师在登录界面登录后,确认信息无误后开始阅卷。考试流程图如下。

10.统计学原理 总结 篇十

所谓推断,就是以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计

统计研究的基本方法有哪些

1.大量观察法2.统计分组法3.综合分析法4.统计模型法5.归纳推断法

如何理解统计总体的基本特征

同质性,大量性,差异性

试述统计总体和总体单位的关系 凡是客观存在,并与某一项同性质基础结合起来的由许多事物组成的整体,称为总体;构成总体的每个独立的个别事物称为总给单位;随着研究和目的和任务的变动,总体和总体单位可以变换。

标志与指标有何区别何联系

主要区别:1 标志是说明总体单位特征的,指标是说明总体特征的; 2 标志有不能用数值表示的品质标志和能用数值表示的数量特征,指标都是用数值表示。主要联系:1 有些统计指标的数值是从总体单位的数量标志值汇总得到的 2 在一定研究范围内指标和数量标志之间存在着变换关

统计工作的任务1.对国民经济和社会发展情况进行统计调查和统计分析

2.提供统计资料和统计咨询意见

3.实行统计监督

统计调查的种类 1.按调查范围分 全面调查、非全面调查

2.按调查的时间是否连续 分经常性调查(连续)、一次性调查(定期)3.按调查组织方式分

统计报表调查、专门调查

统计调查方式

普查 抽样调查.统计报表.重点调查.典型调查

统计调查方法

直接观察法、报告法、采访法、问卷法、网上调查法、邮寄调查法、电话调查法等。

调查方案设计 1.确定调查目的 2.确定调查对象和调查单位(注意:调查对象、调查单位、填报单位三者是不同的概念)

3.确定项目和拟定调查表(注意四个问题)

4.确定调查时间和调查期限(注意:调查时间、调查期限、调查登记时间三者的不同)

5.制订调查工作的组织实施计划

统计调查误差的种类

(一)统计误差从其产生的原因来看,可以分为两类:登记性误差和代表性误差两类

(二)统计误差根据是否带有倾向性,又可分为系统性误差(系统性登记误差、系统性代表误差)和非系统性误差(非系统性登记误差、非系统性代表误差)

什么是平均指标 是同类社会经济现象总体内各单位某一数量标志在一定时间,地点和条件下数量差异抽象化的代表性水平指标,其数值表现为平均数。

平均指标可以分为哪些种类 算术平均数 几何平均数 调和平均数 众数 中位数 为什么说平均数反映了总体分布的集中趋势

就社会经济现象变量数列的分配情况看,通常是接近平均数的标志值居多,而远离平均数的标志值少;与平均数离差愈小的数值的次数愈多,而离差愈大的标志值次数愈大,形成正离差与负离差大体相等,整个变量数列以平均数为中心而波动的状况。所以平均数反映了总体分布的集中趋势

为什么说简单算术平均数是加权算术平均数的特例 f1=f2=fn 相等 众数和中位数分别有哪些特点?

众数1.数量不唯一性

2.位置平均数,其数值不受极值的影响

3.其计算的假定前提是:数据分布具有明显的集中趋势,即假定众数所在组与相邻两组的频数之差反映了数据分布陡峭上升而缓慢下降这一特征;且众数组的频数在该组内是均匀分布的。中位数 ① 数量唯一性;

② 位置平均数,其数值不受极值的影响;

③ 其计算的假定前提是:数据分布具有明显的

集中趋势,且中位数组的频数在该组内是均匀分

布的;

④各变量值与中位数的离差绝对值之和最小。即:

∑│Xi-Me│=min 动态数列概念及意义

概念 动态数列又称时间数列、时间序列,它是将某一统计指标在不同时间上的数值,按时间先后顺序加以排列所形成的一种统计数列,即将某一个指标在不同时间上的数值,按其时间的先后顺序排列起来,就形成一个动态数列

意义

时间数列分析可以描绘社会经济现象变化的过程;说明社会经济现象发展的速度和趋势;可以探索社会经济现象发展变化的规律性;还可以对社会经济现象的发展进行预测。长期趋势的测定方法

(一)时距扩大法:只能对数列修匀,不能预测。

(二)序时平均法

(三)移动平均法:可以对数列修匀或预测,但有时滞效应。

(四)数学模型法

1.直线模型法:重点介绍最小平方法配合直线模型。** 2.曲线模型

时间数列构成要素

一是时间要素

二是反映现象在不同时间上数量表现的统计数据

时间数列的种类 一般将时间数列按其指标表现形式的不同分为总量指标时间数列、相对指标时间数列和平均指标时间数列三种

动态数列的编制原则

1.时期长短应相等 2.总体范围应统一 3.计算方法要统一 4.经济内容应相同

如何选择平均发展速度的计算方法?

水平法:侧重考察末期水平,。累计法:累计法侧重考察整个计算机的总和水品

简述测定季节指数的原始资料平均法的基本原理和步骤。

其计算的一般步骤是:

1、计算数年内同月(或季)平均数;

2、计算总的月(或季)平均数;

3、计算各月(或季)的季节指数:

4、预测,根据季节指数预测未来某年各月或各季的数值。

季节指数=同月(年)平均数/总平均水平

移动平均法能不能剔除季节变动?为什么?

原始资料平均法简便、易懂,但它没有考虑长期的影响。所以,计算出的季节指数不够精确,尤其是在原始数列中存在长期趋势且波动较大时,就对前后期的平均数产生很大的影响,从而使季节指数的精确性大打折扣

统计指数的作用

1综合反映不能直接相加或对比的复杂现象总体的变动方向和程度。

2用指标体系分析受多因素影响的现象总体变动中各个因素变动的影响方向和程度。

3通过编制指数数列,反映现象变化的长期趋势。

综合指数的编制步骤

1确定指数化因素:要研究其数量变化的因素。例如,产量综合指数中,产量为指数化因素。2确定同度量因素:将不能直接相加的因素转化为可以相加的因素(同度量作用和权数作用)。例如,产量综合指数中,价格为同度量因素。3确定同度量因素的时期

原则如下:

编制质量指标指数时,以报告期的数量指标为同度量因素。

编制数量指标指数时,以基期的质量指标为同度量因素。

指数体系的作用

1.利用指数体系,可以分析各个因素对于现象总体变动的作用方向和影响程度。

2.利用指数体系还可以进行指数之间的相互推算

指数体系的因素分析

(一)概念 利用指数体系对现象的综合变动从绝对数和相对数两方面分析其受各因素影响的方向和程度的一种方法。

(二)要点和步骤** 1.构建指数体系,将总指数分解为因素指数的连乘积

2.假定其他因素不变,测定某一因素的影响方向和程度。

3.相对数分析:现象总变动指数等于因素指数的连乘积。

4.绝对数分析:现象总变动额等于各因素影响额之和

综合评价指数的构建步骤

1.建立综合评价指标体系 2.确定各项指标的评价标准 3.确定各项评价指标的权重

4.选择评价指标的合成方法。常用加权平均或几何平均法

在实践中,比较成熟、可行的方法主要有两种:标准比值法和功效系数法 本章小结

一、统计指数的概念和种类

二、综合指数的编制原则和步骤**

1.数量指标指数:以基期质量指标为同度量因素。

2.质量指标指数:以报告期数量指标为同度量因素。

三、平均数指数是综合指数的变形,在掌握非全面资料时有独特的优点,具体编制有两种情况:

1.加权算术平均数指数:用以编制数量指标指数,以基期价值额为权数算术平均。

2.加权调和平均数指数:用以编制质量指标指数,以报告期价值额为权数调和平均。

四、指数体系与因素分析

(一)指数体系的作用与建立

(二)指数体系的因素分析法:从相对数和绝对数两方面进行分析。

1.总量指标的两因素分析法

2.总量指标的三因素分析法

五、统计指数在我国的应用(了解)如工业生产指数、消费价格指数、股票价格指数等。

抽样估计的特征

1.抽样估计是由部分推断总体的一种认识方法。2.抽样估计建立在随机取样的基础上。

3.抽样估计运用的是不确定的概率估计方法。4.抽样估计的误差可以事先计算并加以控制。

总体方差的确定

1.用抽样方差资料代替。已经证明,样本方差相当接近总体方差。这是实际工作中最常用的一种方法。

2.用过去调查所得的资料,既可以是抽样资料,也可以是全面资料。如果有几个不同的总体方差资料,则应选用最大值。

3.对成数的方差,可以选用最大值0.5*0.5=0.25 点估计法的评价

1.计算简便直观,一般不考虑抽样误差和可靠程度。

2.适用于对估计准确与可靠程度要求不高的情况。

确定样本容量的必要性

在其他条件不变时,抽样误差的大小与抽取的样本单位数紧密联系。但是如果抽样单位数过多,不仅会影响统计资料时效性,还可能受人员、经费等物质条件的制约;而抽样单位数过少,又可能达不到预期效果。从某种意义上讲,确定样本容量是抽样调查之前所关心的中心问题。

影响样本容量的因素有:

1.总体被研究标志的变异程度。在其他条件不变的情况下,标志的变动程度越大,确定的样本单位数就多。

2.允许的误差范围。在其他条件不变的情况下,允许的误差范围越小,相应地必须抽取的样本单位数就多。

3.抽样推断的置信度。在其他条件不变的情况下,要求的可靠程度越高,所必须样本容量越大。

4.抽样方法和抽样组织形式。由于在同样条件下,不同的抽样方法和组织形式有不同的抽样误差,所以在误差保证相同时,它所必须抽样单位民必然不。

简单随机抽样特点:1)每个单位被抽中的机会均等;2)简便易行;3)适用于:总体单位的标志变异程度不大(均匀分布)时,否则不宜。

机械抽样

1.概念

又称等距抽样或系统抽样。是先将总体各单位按某一标志排列,然后依固定顺序和间隔来抽选样本单位的组织方法。

2.特点

1)是不重复抽样;

2)可保证被抽选的单位在总体中均匀分布,提高样本的代表性。

整群抽样

1.概念:又称集团抽样,是先将总体各单位划分成若干群,再以群为单位从中随机地抽取若干群,对被抽中的群的所有单位进行全面调查的一种抽样组织形式。2.抽样方法

第一步:先将所要研究的总体根据需要划分出若干群; 第二步:把各群按时间或空间顺序编号;

第三步:按简单随机抽样或机械抽样的方法抽取样本群。

显然,整群抽样是不重复抽样,其实质上是以群代替 单位标志值之后的简单随机抽样,并对选中群进行全面 调查,所以只存在群间抽样误差,而不存在群内抽样误 差,这一点和类型抽样只存在组内抽样误差,不存在抽 样误差恰好相反。

抽样估计的置信度与精确度

1.置信度:表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体参数真实值的可能性大小,一般以1-

表示。其中

表示显著性水平,即某一小概率事件发生的临界水平。

置信度通常采用三个标准:

(1)显著性水平=0.05,即1-

=0.95

(2)显著性水平=0.01,即1-

=0.99

(3)显著性水平=0.001,即1-

=0.999 2.抽样估计的精确度:用置信区间的大小即抽样极限/允许误差来表示。

3.抽样估计的置信度与精确度的矛盾关系。

在样本容量和其他条件一定的情况下,若希望抽样估计有较高的可靠度,则必须扩大置信区间,即必须降低估计的精确度;

若希望抽样估计有较高的精确度,即置信区间范围缩小,则必须降低估计的把握度。

即:抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低;反之则相反。

整群抽样与类型抽样的区别

类型抽样划分的组称为“类”,作用是缩小总体,使总体的变异减少,而抽取的基本单位仍是总体单位;

整群抽样划分的组称为“群”,作用是扩大单位,抽取的基本单位不是总体单位而是群,从而简化抽样工作程序。

多阶段抽样

优点;1.便于组织抽样。2.可以获得各阶段单元的调查资料。3.方式灵活 4.抽样单位的分布较广,降低抽样误差。

适用情况

当总体单位很多且分布广泛,几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。

统计指数分类:

按反映现象的范围不同:个体指数,总指数

按指数性质不同:数量指标指数,质量指标指数

上一篇:校本研修个人成长计划下一篇:原来幸福那么简单600字作文