相关与回归分析方法

2024-08-26

相关与回归分析方法(精选8篇)

1.相关与回归分析方法 篇一

1.作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关或回归分析。如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的r、b是显著的,也是没有意义的。 2.对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。来源:

3.相关与回归的区别和联系:相关表示两变量间的相互关系,是双方向的。而回归则表示y随x而变化,这种关系是单方向的。医学资料中的有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。另有些资料用相关和回归都适宜,此时须视研究需要而定。就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。

回归系数与相关系数的正负号都有两变量离均差积之和的符号业决定,所以同一资料的b与其r的符号相同。回归系数有单位,形式为(应变量单位/自变量单位)相关系数没有单位。相关系数的范围在-1~+1之间,而回归系数没有这种限制。来源:

4.适合作相关和回归分析的资料通常有两种资料:(1)一个变量x是选定的,另一个变y是从正态分布的总体中随机抽取的,宜作回归分析。(2)两变量x、y(或x1、x2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接受正态分布后再做相关与回归分析;或者采用秩相关法。

5.在回归分析中,由x推算y与由y推算x的回归方程是不同的,不可混淆。

但我们必须正确选定自变量与应变量,一般说,事物的原因作自变量x,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量x,以推算应变量y。来源:

6.回归方程的适用范围有其限度,一般仅适用于自变量x的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。

2.相关与回归分析方法 篇二

统计分析无论是分析数据的过程还是分析数据的结果都离不开数据, 统计分析常常从了解数据的基本特征开始。统计分析方法有:综合指标法, 时间序列法, 统计指标法等。主要介绍相关分析和回归分析方法。

(1) 相关性分析。事物之间存在相互联系, 相互制约关系。客观事物之间的关系用合适的统计指标表示出来, 称作相关分析。相关分析目的就是通过具体的数量表述, 来研究现象之间的相关方向程度。这种相关方向和密切程度主要是靠相关系数来反映。相关系数不能反映客观现象之间具体的数量关系, 也不能从一个变量变推测另一个变量的变化情况, 这样就需要回归分析方法。

(2) 回归分析。回归分析是一种统计学分析数据的方法, 主要是探讨数据之间是否有一种特定关系。回归分析是建立因变量Y与自变量X之间关系的模型。回归分析目的是要找出两个或者多个变量之间是否存在相关, 以及相关方向及强度, 用数学模型对所要研究的变量进行预测。

2 一元回归和多元回归应用

2.1 一元线性回归

在回归分析中, 只有一个因变量和一个自变量的线性回归模型就是一元线性回归模型。即: a0和ai是未知参数, 又叫回归系数yj和xj分别是y和x第j次观测值。uj是随机误差项, 表示是除了方程式中以外其它各种因素对y影响。一元回归模型应用:

对于这样一组数据:自变量 (x) 因变量 (y)

结果:y=44.5246+0.2947x1注:R2=0.9002, 相关性较高, p=0.0000, 因为p<0.05回归模型成立。

2.2 多元线性回归模型应用

(1) 多元回归模型是研究因变量对两个或两个以上解释变量的

统计依赖关系。即: ;;ao和ai (i=1, 2, 3, 。。。k) 未知参数, 叫回归系数。uj为剩余残差, yj是xjk的线性函数, 是参数ao和ao (i=1, 2, 3, 。。。k) 线性函数。

(2) 建立基本的回归模型。设x1, x2, x3, x4, x5为自变量, y为因变量。Matlab命令窗口输入程序如下:

结果:y=4.7116-4.7181x1+0.1537x2+4.2460x3, R2是0.9639, F是136.1278, 表明线性相关较强, p<0.0629, S2是0.0024, 模型整体看起来可用。

图1是本例时序残差图, 可清楚看到大部误差条都通过零线, 说明它们不是异常值, 不过第6和7个样本点的误差条偏离零线较远, 说明为奇异点, 剔除第6和第7点, F统计量增大, 可决系数从0.9639增大到0.9976, 回归模型为:y=5.5365-2.3153x1+0.3941x2+0.7241x3。

3 总结与展望

分析相关分析和回归分析关系。说明它们之间联系的紧密性。回归分析包括线性回归和非线性回归。通常非线性回归需要转换线性进行处理。线性回归分为一元线性回归和多元线性回归。通常多元线性的优化用逐步回归比较好。为实际生活当中的预测提供了前提和基础。回归分析是一种分析数据的方法, 被广泛应用于各个学科。很好应用将对生活中的实际预测[4]准确度提供很好的帮助。

参考文献

[1]周荣辅, 刘新建, 于俊.统计分析原理[M].北京:北京工业大学出版社, 2004:84-85.

[2]叶峰.运用matlab软件进行回归分析建模[J].成都航空职业技术学报, 2007, 23 (2) :44-47.

3.相关与回归分析方法 篇三

摘 要:为了分析优秀女子举重运动员抓举技术运动学参数与成绩的相关性,发现与抓举成绩显著相关的运动学指标,并建立与抓举成绩的多元线性回归方程。采用德国Simi Motion 9.01三维录像解析系统,对2013年全国举重锦标赛15名我国优秀女子举重运动员(48~58 kg)成功的抓举动作进行三维分析。结果显示:1)提铃伸膝阶段髋变化幅度(r =0.438)和提铃伸膝阶段杠铃上升高度百分比(r =0.436)与抓举成绩呈低度显著正相关;提铃伸膝阶段杠铃上升高度(r =0.627)、发力阶段躯干变化幅度(r =0.597)和杠铃垂直速度最大值(r =0.571)与抓举成绩呈中度显著正相关;提铃引膝阶段杠铃前后摆动距离(r =-0.626)、杠铃最高点杠铃与肩关节水平距离(r =-0.644)、下蹲支撑阶段时间(r =-0.500)和发力阶段时间(r =-0.627)与抓举呈中度显著负相关;2)抓举回归方程Y =104.550-80.741χ1+291.721χ2-2.350χ3-0.359χ4 +24.832χ5(χ1:铃最高瞬间杠铃与肩关节水平距离,χ2:伸膝提铃杠铃上升高度,χ3:伸膝提铃杠铃前后摆动距离,χ4:伸膝提铃躯干变化,χ5:惯性上升杠铃上升高度)。

关键词:抓举;女子;运动学分析;相关性;回归

中图分类号:G884 文献标识码:A 文章编号:1006-2076(2015)03-0078-05

Abstract:In order to analyze the correlation between snatch performance and kinematics parameters, find out the kinematics indicators influencing snatch performance, and establish a multiple linear regression equation for snatch performance, we adopted the German three dimensional video analysis system Simi Motions 9.01 to analyze the snatch movements of 15 women weightlifters (48-58 kg) who participated in the National Championship 2013. Results: 1) At the phase of lifting barbell and stretching knees, the rangeability of the hip and the percentage of the height of barbell lift had minuent significantly positive correlation with snatch performance; the height of barbell lift at the phase of lifting barbell and stretching knees, the swing distance of the barbell at the phase of preparation, the rangeability of the trunk at the phase of exerting force, and the maximum vertical speed had moderate significant positive correlation with snatch performance; the parallel distance between barbell and shoulder joint, the time of the crouch supporting phase, and the time of force-exerting phase had

举重是中国奥运会优势项目,尤其是女子小级别。抓举在举重比赛中首先进行,其成败至关重要。相比挺举,抓举是考验运动员技术的环节[1]。目前关于女子抓举动作的运动学研究,只是探讨了优秀运动抓举特点[2],或比较了优秀运动员与一般运动员的差异[3],或成功与失败动作的对比[4]。未研究我国优秀女子举重运动员成功抓举技术运动学指标与成绩的相关性。鉴于此,本研究现场三维拍摄了2013年全国举重锦标赛上(48 kg、53 kg、58 kg和63 kg)优秀女子举重运动员成功的抓举动作,分析影响运动员抓举成绩的运动学参数并建立多元线性回归方程,将有助于教练员和运动员提高和完善抓举技术,丰富我国女举技术理论。

1 对象和方法

1.1 对象

选取2013年全国举重锦标赛上15名小级别,优秀女子举重运动员为研究对象,运动等级均为健将。受试者的平均年龄为2167±195岁,体重5476±572 kg,本次研究受试者抓举平均成绩为10120±738 kg。其中48 kg级4人、53 kg级4人、58 kg级3人、63 kg级4人。[FL)]

3 讨论

3.1 运动学参数与抓举成绩相关性

前人的研究证实了抓举各个阶段运动学参数的规律及特征,本研究从运动学参数与抓举成绩的相关性角度进行分析,着重分析与成绩呈显著相关的运动学参数,而与成绩不呈显著相关的参数不在此次讨论范围内。

从运动生物力学角度分析,抓举的提铃伸膝阶段运动员需把杠铃提升至膝部,杠铃重心尽量贴近人体重心,进而减少提铃时刻重力矩,为后面的提铃引膝做准备。该阶段人体利用伸膝、伸髋的力量使杠铃获得一定的初速度和适宜的高度,是后续发力的必要条件,同时要求运动员躯干与地面的相对角度不变,目的是为后续阶段力量传导提供基础。本研究发现,该阶段髋关节变化幅度与成绩呈低度显著正相关(r=0.438),而躯干、膝关节变化幅度未发现类似的结论,说明了提铃伸膝阶段髋关节伸展幅度的重要性。另外,提铃伸膝阶段杠铃上升高度百分比和杠铃上升高度均与成绩呈显著相关。抓举要求杠铃上升有一定的高度,以往的研究强调在发力和惯性上升阶段杠铃上升的高度,有利于下蹲支撑的完成[5],但未分析过在提铃阶段是否同样重要。本研究发现提铃伸膝阶段杠铃上升合适高度同样影响抓举成绩。

[JP2]提铃引膝阶段运动员需伸髋、展体和屈膝来完成,由于引膝和送髋使杠铃重心和人体重心接近,继而减小了重力矩。该阶段人体膝关节的前引和回屈使大腿前群肌重新拉长,为膝关节伸肌群发力创造有利的条件。另外,人体躯干、髋关节通过快速前屈后伸增加杠铃的上升动力。本研究结果显示,提铃引膝阶段杠铃前后摆动距离与成绩显中度显著负相关。抓举强调“近”,如杠铃重心前后摆动距离小,说明整个提铃过程(杠铃)阻力臂小,15名受试者距离平均值仅为0.02 m。[JP]

发力阶段要求运动员在伸髋、伸膝肌群被拉长后,迅速缩短。该阶段时间要短,目的是充分发挥出肌肉的爆发力。同时,需要运动员积极蹬腿,充分伸髋、伸躯干,耸肩、提肘和提踵,进而延长人体对杠铃的做功距离,增加动能,使杠铃获得较大的向上运动速度,获得适合的高度,为下蹲支撑阶段提供有力条件。本研究结果显示,发力阶段受试者躯干变化幅度(r=0.597)和杠铃垂直速度最大值(r=0.571)与抓举成绩呈中度显著正相关。相关性结果认为该阶段躯干变化幅度相比髋、膝关节角度变化更能影响抓举成绩。而杠铃垂直最大速度越大说明动能越大,人体作用在杠铃上有效功越多。

惯性上升阶段运动员身体已开始屈曲向下,此阶段,需要双手对杠铃施加向上提拉的作用力,根据牛顿第二定律,此时杠铃也对人体提供一个大小相同的向下的方作用力,有利用与人体快速下降到杠铃之下,为下蹲支撑提供基础。本研究认为,杠铃最高点杠铃与肩关节水平距离(r =-0.644)和发力阶段时间(r =-0.627),与抓举呈中度显著负相关。说明,相比其他运动学参数,发力时间短、最高点杠铃贴近人体将是影响成绩的关键指标。

下蹲支撑阶段是运动员通过杠铃惯性上升的过程,使人体迅速下降以便缩短杠铃上举的距离,同时双臂需迅速支撑杠铃。在保证人体支撑的稳定前提下,需充分屈膝,缩短杠铃的行程。本研究显示,下蹲支撑阶段时间(r =-0.500),与抓举呈中度显著负相关。这吻合了下等要“快”的要求。

3.2 多元线性回归方程

通过建立抓举成绩与运动学参数的多元线性回归方程,了解影响我国优秀女子举重运动员抓举(比赛)成绩的运动学参数,对科研工作者研究及教练员针对性训练有一定指导意义。

本研究建立的抓举成绩回归方程为Y=104550-80741χ1+291721χ2-2350χ3-0359χ4+24832χ5(Y: 抓举成绩,104550:常量,χ1:铃最高瞬间杠铃与肩关节水平距离(m),χ2:伸膝提铃杠铃上升高度(m),χ3:伸膝提铃杠铃前后摆动距离(m),χ4:伸膝提铃躯干变化(°),χ5:惯性上升杠铃上升高度(m)。决定系数R=0980,p=0023<005,说明回归方程拟合度好,方差分析P<0001,回归方程具有显著意义。[JP]

对回归方程回代分析(表13)显示,15名受试者预测成绩为9957±711kg,回归模型预测成绩与实际抓举成绩值方差分析,结果表明无显著差异(P=0762),进一步说明建立的抓举成绩与运动学参数回归方程有效。但本研究针对的是女子小级别优秀运动员,此方程可能不适合大级别或非优秀运动员。另外,鉴于样本量限制和体重对成绩的影响,本研究未能建立不同级别回归方程,未来需进一步的论证。

4 结论[HTSS]

4.1 提铃伸膝阶段的髋关节变化幅度大、杠铃上升高度百分比高,提铃伸膝阶段的杠铃上升高度高、杠铃前后摆动距离小,发力阶段的躯干变化幅度大、杠铃垂直速度最大速度大、杠铃最高点杠铃与肩关节水平距离短、下蹲支撑阶段时间和发力阶段时间短是影响我国优秀女子举重运动员抓举成绩重要的运动学参数。

4.2 建立的抓举回归方程为:Y =104550-80741χ1+291721χ2-2350χ3-0359χ4 +24832χ5(χ1: 铃最高瞬间杠铃与肩关节水平距离,χ2 : 伸膝提铃杠铃上升高度,χ3 : 伸膝提铃杠铃前后摆动距离,χ4 : 伸膝提铃躯干变化,χ5 :惯性上升杠铃上升高度)。

参考文献:

[1] 董晋我国优秀女子举重运动员抓举技术的运动学评价和诊断体系的研究与建立[D].太原:山西大学,2010.

[2] 李建英,季跃龙.第11届全运会女子举重冠军抓举技术的运动学参数特征研究[J].成都体育学院学报,2010,36(7):60-62.

[3] 王向东,任景萍,徐文泉.不同水平女子举重运动员抓举技术参数的对比[J].首都体育学院学报,2013,25(6):573-576.

[4] 何茂贵.山东省优秀女子举重运动员的抓举技术特征分析[D].济南:山东师范大学,2011.

[5] 王举涛.中国优秀男子举重运动员核心竞技能力评价与诊断体系的研究[D].太原:山西大学, 2012.

4.相关与回归分析方法 篇四

(一)熟悉纳税评估案源的内容

接到纳税评估案源后,纳税评估人员首先应当熟悉纳税评估案源的内容,分析是多项指标形成的案源,还是单项指标形成的案源,形成案源的指标是税负率、预警指标、还是其他纳税异常的指标。初步判断形成纳税异常的时间区间。

(二)根据纳税异常的时间区间调取和归集纳税评估对象的相关资料

包括:“一户式”存储的纳税人各类纳税信息资料,主要包括:纳税人税务登记的基本情况,各项核定、认定、减免缓抵退税审批事项的结果,纳税人申报纳税资料,财务会计报表以及税务机关要求纳税人提供的其他相关资料,增值税交叉稽核系统各类票证比对结果等;

税收管理员通过日常管理所掌握的纳税人生产经营实际情况,主要包括:生产经营规模、产销量、工艺流程、成本、费用、能耗、物耗情况等各类与税收相关的数据信息。

(三)对纳税评估对象的相关资料进行初步的案头分析

在对纳税评估对象一定时间区间的相关资料调取和归集后,要结合纳税评估案源的内容进行初步的案头分析,判断除案源信息外是否有新的纳税疑点、税务机关已经拥有的资料能否满足评估分析的需要。确定需要获取的第三方信息的内容与方式和专题事项调查的内容与方式。

在整个纳税评估的过程中,分析——判断——获取的第三方信息——进行专题事项调查,再分析——再判断——进一步获取的第三方信息——进一步进行专题事项调查是一个交叉往复的过程,初步的案头分析阶段,分析的越详尽,估计的越充分,计划的越周密,会在一定程度上减少交叉往复的过程。

1、对税务登记情况的分析

通过税务登记表和税收管理员日常采集的信息主要了解,企业的注册资本及注册资本的构成、企业的组织结构,总、分支机构情况、关联企业的情况,主营的项目、生产经营的范围、主要产品的生产工艺流程,银行基本帐户和从业人员情况。

通过税务登记表和税收管理员日常采集的信息,不能满足需求的,确定下一步进行数据采集、专题事项调查和通过第三方获取信息的内容和方式,如通过企业提供的文件资料和现场查看,可以采集和了解生产的主要产品、主要的生产设备、主要产品的生产工艺流程、设备的生产能力;企业生产的组织体系和架构,企业的总、分支机构情况、关联企业情况;通过互联网等媒介可以进一步了解企业的关联企业情况及相互间的关联关系。

2、对资格认定情况、文书审批情况的分析

通过对资格认定情况、文书审批情况的分析,可以了解企业拥有的各种可以享受税收优惠的资格,如出口退税、高新技术、资源综合利用、福利企业优惠等资格;可以了解企业享受税收优惠的历史情况和现状。

3、对发票领购情况的分析

通过对发票领购情况的分析可以了解企业使用发票的种类、数量和结构,可以辅助判断企业生产经营的变化情况,可以从发票领购的数量和结构判断是否存在异常。

4、对纳税申报清册的分析和各税纳税申报表及附报资料的对比分析。

通过对纳税申报清册的分析主要了解评估期内各税纳税申报、税款缴纳的基本状况、变化情况,分析有无异常变化。通过对各税纳税申报表中的相关数据的对比分析了解纳税申报相关联的各项指标数据是否异常,如增值税计税收入是否与所得税申报的主营业务收入是否一致,增值税进项税额的转出是否相关财产损失、出口退税的相关数据一致等,并据以确定进行数据采集和专题调查的项目和内容。

5、对开出的各类发票的的分析

通过对企业开出的各类发票的分析,可以了解企业产品或商品销售的方向、结构等信息,经过分类筛选和分析,可以发现企业对不同销售对象在价格方面的差异,企业销售单的路径是否符合常规,是否有在关联企业之间通过转让定价套取税收优惠,逃避纳税义务的嫌疑。要达到分析的目的就应当对发票特别是增值税专用发票中的销售对象名称、产品或商品名称、计量单位、数量、单价的采集和补录;可以通过由企业提供合同、文件了解企业销售产品的作价原则、方法和实际作价情况;可以通过登录互联网了解期货市场及其他市场的供求信息和价格信息。

对销售收入、开票量异常增长的纳税人,一般要分析其是否有虚开发票的嫌疑。这就要求要对生产经营场所、生产能力、仓储能力进行专题事项的调查,在不能排除疑点的情况下,要对企业的银行结算帐户进行调查,了解掌握企业是否有符合常规的购销结算。

6、对取得的各类抵扣凭证的对比分析

通过对企业取得的各类发票的分析,可以了解企业采购项目的渠道、结构等信息,经过分类筛选和分析,可以发现企业不同供应对象在价格方面的差异,企业采购货物的路径、用途是否符合常规,是否有在关联企业之间通过转让定价套取税收优惠,逃避纳税义务的嫌疑。要达到分析的目的就应当对进货发票特别是增值税专用发票中的销售对象名称、产品或商品名称、计量单位、数量、单价的采集和补录。也可以通过企业提供相关文件、合同和登陆互联网采集信息。

对销售收入、开票量异常增长或进货异常增长的纳税人,一般要分析其进货是否真实。进货是否企业与生产经营的产品、生产经营场所、生产能力、仓储能力相匹配,取得的进货发票与货物的运输、货款的结算是否相匹配。要达到满足分析评估的目的,就应当对有疑点的重点事项进行专题的抽样调查。

7、对资产负债表的分析

资产负债表是对纳税人生产经营活动反应较为完整的报告资料,资产负债表分析的方法比较多,主要有一般包括趋势分析法、比率分析法和结构分析法等。趋势分析法是利用会计报表提供的数据资料,将各期实际指标与历史指标进行定基对比和环比对比,揭示企业财务状况和经营成果变化趋势的一种分析方法。通过对资产负债表的分析,可以了解纳税人的资产组成结构,各项资产的搭配或配比是否符合常规,有无重大疑点;可以确定对资产或负债需要进行数据采集的明细项目,如存货、应付账款、银行借款等的明细项目。

8、对现金流量表的分析

通过对现金流量表的分析,可以了解纳税人整个经营过程中各种形式的现金流入和流出企业的情况,结合与资产负债表等财务报表和相关的纳税申报表的对比分析,确定是否有不符合企业经营和申报纳税常规的情况,并确定进行信息采集的项目和内容。

9、其他由纳税人向税务机关申报或报送有关资料,如关联企业、关联交易报告报表等。

获取纳税评估对象相关第三方信息的方法

需要获取的税评估对象的第三方信息一般是指纳税人的纳税申报资料没有包括的,通过税收管理员的日常巡查巡管和数据采集无法实现的信息,如:原料或产品的期货市场行情和价格信息,企业的外部形象信息、外部审计、评估信息,企业的行业或行政主管部门的监管和惩戒信息,企业的债权债务或其他经济纠纷的仲裁审判信息。纳税评估对象的第三方信息的获取一般可以通过互联网查询、部门信息交换、部门配合或纳税评估对象提供等方式来实现。其中,对银行结算信息的查询,应当使用专用文书,并经县以上国税局局长批准。

纳税评估对象专题事项的调查了解方法

税收管理员在日常巡查巡管中未能采集到的的信息,纳税评估分析需要的其他专题事项或信息,如,主要产品的生产工艺流程、主要的生产设备、设备的生产能力,纳税人银行结算信息,关联企业的信息、与纳税评估事项相关的供、销合同信息,对纳税评估对象的举证资料进行调查核实。

纳税评估对象专题事项的调查一般以纳税人提供文件资料和现场查看相结合方式进行,具体应视调查的事项和内容确定。其中,对银行结算信息的查询,应当使用专用文书,并经县以上国税局局长批准。

对纳税评估对象的举证资料进行调查核实的,一般应当详尽具体,应该达到能够确认疑点或排除疑点目的。

纳税评估的分析方法

(一)财务报表分析方法

财务报表分析方法:一般包括趋势分析、比率分析、结构分析三种。

1、趋势分析:趋势分析法是利用会计报表提供的数据资料,将各期实际指标与历史指标进行定基对比和环比对比,揭示企业财务状况和经营成果变化趋势的一种分析方法。

趋势分析的具体做法

(1)绝对数比较,即将一般会计报表的“金额栏”划分成若干期的金额,以便进行比较分析。

(2)相对数比较,即将会计报表上的某一关键项目的金额当作100%,再计算出其他项目关键项目的百分比,以显示各项目的相对地位,然后把连续若干期按相对数编制的会计报表合并为一张会计报表,以反映各项目结构上的变化。

趋势分析不仅要对资产负债表进行分析,还要对利润表进行分析。

2、比率分析:是利用会计报表及有关财会资料中两项相关数值的比率,揭示企业财务状况和经营成果的一种分析方法。

3、结构分析:以某一个项目为分母,其他各个项目为分子,得出一比率,然后再对相同项目的比率进行趋势比较。结构分析应该与趋势分析相结合运用更合理。

4、关联分析法:

通过对财务报表各项指标关联关系的分析,确定指标间的配比是否适当,是否有奇高奇低违反经营常规的情况。

(二)纳税申报资料的分析方法

纳税评估可根据所辖税源和纳税人的不同情况采取灵活多样的评估分析方法

将纳税人申报数据与财务会计报表数据进行比较、与同行业相关数据或类似行业同期相关数据进行横向比较;将纳税人申报数据与历史同期相关数据进行纵向比较,结合经济形式和企业发生的重大事项,分析数据的变化轨迹是否合理;根据不同税种之间的关联性和钩稽关系,参照相关预警值进行税种之间的关联性分析,分析纳税人各税种之间的关联数据的符合程度,分析纳税人应纳相关税种的异常变化;应用税收管理员日常管理中所掌握的情况和积累的经验,将纳税人申报情况与其生产经营实际情况相对照,分析其合理性,以确定纳税人申报纳税中存在的问题及其原因;

(三)采购情况分析

通过纳税人采购情况按货物结构、按供货对象进行分类,分析采购是否异常:是否有非本企业经营所需的采购疑点;是否有取得虚开发票、假票的疑点;是否有从直接关联关系或间接关联关系采购,作价不合理的疑点。(对各类采购发票进行归集分类)

(四)相关经济指标分析

通过对纳税人生产经营结构,主要产品能耗、物耗等生产经营要素的当期数据、历史平均数据、同行业平均数据以及其他相关经济指标进行比较,推测各类指标的合理程度及纳税人实际纳税能力。

(五)货物支出结构分析

通过结合纳税人的重大事项和媒体信息对货物支出结构进行分析,确定纳税人是否有视同销售的内容未计税、多计成本的情况,确定纳税人是否有向关联关系的不合理作价转移收入的情况。

5.相关与回归分析方法 篇五

【摘 要】本文旨在结合音乐的自然属性与社会属性,探寻在中小学音乐课堂中如何运用自然的教学方法,使得音乐知识易于学生接受,对回归自然的音乐教学方法进行了探讨和分析。

【关键词】中小学音乐;音乐与自然;教学方法

一、音乐教学回归自然的缘由

(1)音乐的自然属性。音乐是艺术的一种,它通过有组织的乐音形成一定的艺术形象来表达人们的思想感情,反映现实的生活。音乐是时间的艺术,它必须通过演唱或者演奏才能为人们所感受和产生一定的效果。然而音乐作为人类活动的一个部分,其必然也是效法大自然的规律。音乐中有很多的素材都来源于生活某些方面的模仿,如:教堂钟声、鸟叫声、奔腾的河流等。另外音乐的自然属性还体现在审美主体对音乐的欣赏上。欣赏被分为自律欣赏和他律欣赏两个层次,自律欣赏它是纯感觉的、纯情感的,仅仅是感受音乐的形式之美,它不与生活内容发生任何联系,主体并不思考、联想与回味,属于生理性的物质性的。表层欣赏主要用于娱乐休闲和身心的放松。表层欣赏与我们品尝美味佳肴与身体按摩是属于同一个层面的,在这个层面上我们仅以获得生理快感为主要目的。

(2)音乐的社会属性。音乐作品与其产生的时代、地域、民族及作曲家的个性等有着紧密的联系。如浪漫主义时期的音乐作品是当时人们挣脱宗教的束缚的情感体现,印象派音乐受象征主义诗歌与印象派绘画的影响等。另外音乐社会属性还体现在主体欣赏音乐的氛围、心态、审美理解能力等等。黑格尔在他的美学中热烈赞赏一位普通劳动者的吉他弹奏,说比演奏家的表演更使他心醉神迷,这显然是听者受现实生活场景的影响,融进了生活的内容所致。同样一位作曲家的音乐既可以从政治意识形态的角度予以解释,也可以从社会性别的角度予以解释,因为音乐不具有象造型或语言艺术那样的意义和参照。它的再现比任何其他人类交流媒介都更加直接、更加细致。

二、音乐教学回归自然的教学方法运用

(1)音乐教学体验先于认知。尽管知识和技能是支撑音乐这门学科的基础,但是我们在进行音乐教学时,不能讲知识和技能的学习放在首位。音乐是听觉的艺术,鉴于音乐学科的特殊性,对音乐的教学要先体验后认知。比如:教师在进行附点节奏教学时,教师可以让学生聆听马奔跑的声音,然后让学生进行模仿,最后再进行附点节奏的教授,这样更加有益于学生对附点节奏的认识与理解。实践证明:首先让学生聆听,再进行模仿和体验,最后结合乐理知识进行教授,不仅让学生对音乐知识有了感性认识,而且也更加有益于学生对音乐知识的接受。

(2)音乐教学设计生活化。音乐源于生活又高于生活,音乐与日常生活联系有着千丝万缕的紧密联系,在音乐课程实施中,我们不能也不可能脱离生活实践基础上进行音乐相关知识和技能的传授和学习,因此,作为音乐教师应以多元的视角来审视教学,在具体的教学设计中从学生的生活体验入手,从学生的自身经验出发,主动探索音乐与人生的关系。教师可引导学生多留意生活中感受到的音乐,培养他们聆听音乐的习惯。比如:引用“微博”作导入音乐教学来激发学生对音乐学习兴趣,不仅能够吸引学生的注意力,而且能够推进音乐教学的有效进行。

三、音乐教学回归自然的意义

(1)全面提高学生素质的摇篮。自然的音乐教学方法体现了以人为本的教育理念它坚定不移地把自己的目标投向对“人”的塑造方面,“育人”而不是单纯“育才”是其最为显著的特征。有效性教学方法它建立在充分理解人和尊重人的基础上,理解学生各个阶段的身心特点,最大限度地为他们提供自主发展的时间和空间。因此,教育工作者在日常的音乐教育工作中要合理的结合生活进行教学设计,不要一味的灌输音乐基础知识,重要的应该是在让学生在获得音乐知识和精神愉悦的同时具备必要的音乐素养,从而提高他们的综合素质。

(2)培养创造力的工具。著名音乐教育家柯达伊认为:“创造能力实际是人与生具有的潜能,只要有合适的环境和方法,就能开掘这种能力”,每个人都能够随意地哼唱一句音乐,其实这种随意地哼唱就是人类创作的本能。自然的音乐教学可以促进学生挖掘和发现生活中的音乐,培养他们对音乐的兴趣,增加他们对音乐的探索。在教学中教师可以用即兴编创音乐和节奏来帮助学生形成创造性思维模式。而在教师对教学环境的创设及正确地评价方式都对激发学生创造力的培养提供有利的前提条件。

(3)推进音乐教学目标的完成。学校音乐课程实施的最终目标为了培养和提升学生的审美能力和审美情趣,为丰富学生的情感体验、美化生活以及今后发展所需奠定基础。音乐教学的课内外结合,让音乐回归生活、回归自然是一种创新的实践。这种教学方法不仅有利于学生的审美能力的培养,发展学生的创造性思维,形成良好的人文素养,为学生终身喜爱音乐、学习音乐、享受音乐奠定良好的基础,而且适应了当下新课标力求体现深化教育改革,全面推进素质教育的基本精神。因此,贴近生活的自然教学方法能够让学生带着浓郁的兴趣走进音乐课堂,让学生保持一种对音乐学习的积极态度,将音乐变成他们生活中不可缺失的一部分。

音乐是时间的、表现的艺术,在众多艺术门类中,它的创造自由度是最高的。这就决定了音乐教学过程并不是封闭的,孤立的。它是学生对音乐的认识与对音乐的实践辨证、统一的活动的过程,是教师主导作用的发挥、学生主体能力的生成和发展的过程,是动态、变化、发展的过程,是极具开放性的。如何使教学过程开放,为学生拓展更广阔的音乐学习空间呢?在学习了陶行知的生活教育理论后,我得到了许多的提示。

“在生活里找教育,为生活而教育”的观念相当明确,教育内容必须尽可能地注入生活的新鲜血液、新鲜内涵。“只有让学生主动发展,人才会有多样性,如果都是机械被动地发展,那将来都是一个模子。”在具体教学中,“要解放孩子的头脑、双手、脚、空间、时间,使他们充分得到自由的生活,从自由的生活中得到真正的教育。”素质教育讲的也是个性、创造,一切陈腐的、机械的、损害学生身心健康的教育活动是错误的、有害的,必须坚决抵制。对于理论的学习怎样在音乐教学中进行实践呢?

我觉得让音乐与生活沟通起来,营造广阔的音乐教学空间,对于培养有个性的学生、激发学生的学习音乐的兴趣以及提高音乐技能和培养音乐特长都起到了十分重要的作用。而课外音乐活动就是音乐与生活相连接的桥梁。课外音乐活动的开展可带来众多的好处。

突出“趣味性”,激发音乐兴趣。兴趣是最好的老师。课外音乐活动打破课堂的局限,正式企求以丰富多彩、活泼趣味的内容和形式来激发学生的兴趣,丰富学生的生活。而突出“趣味性”,可以张中从三个方面入手:精心选择富有童趣的音乐作品。精心设计富有游艺性的活动形式,适当的组织音乐竞赛活动。

突出“开放性”,拓展音乐领域。课外音乐活动特具“开放性”,部首时间、空间和教材的限制,能让学生走出鲁迅先生所说的“高墙上四角的天空”,充分解放学生的身心,使学生在广阔的音乐领域中自由而又愉快地感受、欣赏和表现音乐,发展音乐才能。突出“开放性”,可葱花三个方面入手:走出课堂。把学生带到清澈的小溪旁、幽静的柳树下、美丽的花坛边,让学生在丁冬的流水声、沙沙的树叶声和花香鸟语中去听音乐、学音乐。充实内容。可以从古今中外的富有童趣或典雅古朴的音乐作品中选择适合儿童的歌曲、乐曲作为课外音乐活动的内容。拓展时间领域。可以利用课余时间播放音乐作品、组织课外活动,甚至推?]学生在午间、夜晚收看音乐节目。突出“自主性”,培养音乐特长。课外音乐活动在学生爱好和需要的选择上也较个性化、自主化,对于培养学生的个性具有重要意义。因此在组织课外音乐活动要充分尊重学生的兴趣、爱好和需要,为学生的个性发展创造条件。

6.近场头相关传输函数的测量与分析 篇六

设计了测量距离可调整的`头相关传输函数的实验测量方法,并采用人工头进行近场头相关传输函数的测量,建立了高空间分辨率的近场头相关传输函数数据库,为进一步开展双耳听觉的研究和虚拟听觉的应用提供了数据基础.根据实验数据,初步分析了远、近场情况下,距离、仰角、方位角等参量对头相关传输函数的影响规律.

作 者:龚玫 肖峥 曲天书 吴玺宏 李晓东 GONG Mei XIAO Zheng QU Tian-Shu WU Xi-Hong LI Xiao-Dong 作者单位:龚玫,李晓东,GONG Mei,LI Xiao-Dong(中国科学院声学研究所,北京,100080)

肖峥,曲天书,吴玺宏,XIAO Zheng,QU Tian-Shu,WU Xi-Hong(北京大学视觉与听觉信息处理国家重点实验室,北京,100871)

7.相关与回归分析方法 篇七

关键词:人工智能,支撑向量机,相关向量机,稀疏性,稳健性,奇异值

0 引言

给定训练数据集,回归分析的任务是利用它来推断输入和输出之间的一个函数关系y=y(x,w),这里w是需要估计的参数。训练得到的回归函数的性能用它的预测能力的好坏来衡量。

然而在现实中,观测数据经常受到奇异值的干扰。对奇异值可作如下直观的定义:它是一种与其它观测有较大偏离的观测,以致于使人怀疑它是由别的机制产生的[1]。奇异值的产生有各种原因,例如:错误的观测、测量仪器的损坏、异常的噪声、人为的因素等。当观测中包含有奇异值,学习机器如果依旧企图去拟合这些不希望得到的数据,结果就有可能导致回归函数严重变形,极大地降低了回归模型的推广能力[2]。因此,在机器学习领域,人们普遍期待学习方法抗噪声或奇异值的干扰能力强。

另一方面,为了便于对回归模型的解释和加快预测速度,在机器学习与数据挖掘领域,人们还希望学习所得模型是稀疏的[3,4]。相关向量机(RVM)是一种贝叶斯核学习方法[5]。与支撑向量机(SVM)[6,7]相比,相关向量机所得回归模型极其稀疏,即仅有一小部分权系数的值非零。

然而,因为采用了高斯噪声模型,RVM受到奇异值的困扰。为了解决这个问题,FAUL和TIPPING提出了变分稳健相关向量机(VRRVM)[8],通过引入了混合噪声分布来解释奇异观测值现象,并且应用变分估计推断策略来实现其模型。虽然VRRVM极大地提高了相关向量机的稳健性,但它需要更多的训练时间。同时,它失去了标准RVM的稀疏性,也就是说,它的回归函数需要更多的相关向量来表示。后来,TIPPING和LAWRENCE将VRRVM的方法推广到Student-t噪声分布的情形,获得了与VRRVM类似的结果[9]。

为了在保持RVM稀疏性的同时,增强其稳健性,本文提出了一种新的方法。首先,在原始数据上训练RVM。利用预测值和目标值的偏差,将训练样本中具有较大偏差的样本的目标值用其预测值代替,随后在新训练数据集上重新训练RVM。这个过程可迭代数次。试验表明,新算法比RVM和VRRVM更稳健。在解的稀疏性方面,新算法略逊色于标准RVM,但优于VRRVM。新算法训练速度虽然比标准RVM慢,但却比VRRVM快。本文的其余部分组织如下:下一节提出了一种新的RVM稳健化方法。第2节在人工数据集和基准数据集上检验算法的性能。最后一节是本文的结论和有待进一步开展的工作。

1 新算法

1.1 RVM与VRRVM的缺点

RVM的主要缺点是其对奇异值的敏感性。从图1中很容易发现:仅仅一个奇异值就会导致RVM的回归函数有较大的变化。

为了提高RVM的稳健性,FAUL和TIPPING提出了VRRVM[8]。VRRVM采用了一种混合的噪音模型:

其中为正常高斯噪声分布,其均值为零,方差为为正常样本的比率,1-θ为奇异值样本的比率;为奇异值噪声分布,其分布形式可为:(1)高斯分布:均值为零,方差为,即奇异值采取方差很大的高斯分布;(2)均匀分布:p1(t)~U(t,T),其中

VRRVM能够有效地提高RVM的抗奇异值干扰能力。VRRVM的主要缺点是丧失了RVM稀疏性。后来,LAURENCE和TIPPING在RVM中采用Student-t分布噪音模型[9],取得的结果与VRRVM类似。

1.2 一种新的稳健相关向量回归方法

为了在保持RVM稀疏性的前提下,增强它的稳健性,我们提出了一种新的相关向量回归稳健化方法。算法1给出了这种稳健化方法。在算法1中,第一步,我们首先在原始训练集D上训练相关向量机;第二步,计算训练样本的输出与其相关向量机的预测值之间的绝对偏差di;第三步,算法对绝对偏差di进行从小到大排序;第四步,在训练集中选出大约ρ×l个绝对偏差较大的样本,其输出值ti用当前RVM的预测值代替。这样训练集D中就有大约ρ×l个样本的输出发生了改变;第五步,转步骤1,在改变后的训练集上重新训练相关向量机,直到指定的循环次数S。

算法1中,函数floor(x)定义为小于或等于x的最大整数。正常值比率θ通常可取为0.98,0.95,0.90等。最大迭代次数S可在中任取一值。

算法1:新算法

Repeat

Step 1在数据集上训练RVM;

计算输出与其估计之间的绝对离差:

记i的索引标号为indexi,即;

新算法假定RVM在大部分奇异值上的绝对误差要比在正常值上的绝对误差来得大。即使在一些奇异值上的误差比正常值的小,也可以通过消除其它奇异值的影响而逐步减小正常值上的误差,而使得在这些奇异值上的误差凸显出来。如果一个算法在大部分奇异值上的误差比大部分正常值上的误差还要小,那么再要消除这些奇异值的影响是困难的。在下一节数值实验的图2(b)中,如果RVM的回归曲线是一条平行于横轴的并且非常靠近奇异值的直线,也就是说,RVM的结果非常差,那么在其基础上再要消除奇异值的影响将是非常困难的。这种极端的情况通常是不会发生的。除非奇异值的比率超过了整个训练样本的50%并且象图2那样的奇异值一样分布有规律。这时仅从数据来判断哪些样本是奇异值,哪些样本是正常值,将是不可想象的。在这种情况下,可能要考虑数据的物理意义等因素。

硬剔除和软剔除是两种常用的处理奇异值的方法[2]。软剔除通过逐步对样本进行加权来消除奇异值的干扰[2]。如何对RVM进行软剔除是我们现在正在研究的问题。硬剔除则将具有大误差的样本完全从训练集中删除。实现硬剔除的一个困难在于剔除比率的确定。比率过小,则剔除未能消除一部分奇异值的影响,比率过大,则会将一些正常值从样本中删除。基于误差大小的硬剔除还存在另外一个问题,即它不能消除混杂在正常值中的奇异值的影响。例如在下节的图2(b)中,中部的几个奇异值的误差比正常值的误差还小。而新算法通过逐步迭代,是可以处理这种情况的。并且新算法没有将误差大的样本从训练集中删除,而是较为谨慎的把它的输出变量值用预测值代替,从而使得新算法对奇异值比率的估计1-θ不敏感。如果模型恰好在正常值上的误差较大,删除它就会损失信息,因此用预测值代替是一种更加慎重的策略。因而新算法既非软剔除也非硬剔除,而是一种介于两者之间的一种处理奇异值的策略。

RVM的时间复杂度和空间复杂度分别为O(ι3)、O(ι2)。新算法空间复杂度同RVM,时间复杂度为O(Sι3),其中S为新算法调用RVM的次数。

2 数值试验

本节在一个人工数据集和一个基准数据集上检验新算法的性能,并与RVM和VRRVM比较。人工数据集通过在加上各种噪音或奇异值来获得。基准数据集为automobile MPG[11]。所有的算法都通过Matlab 7.1编程实现。计算机内存1G,CPU 3.0GMHz。新算法引进的超参数的取值为:ρ=0.98,S=10。

2.1 人工数据集

2.1.1 奇异值源自方差很大的高斯分布或奇异值值固定

本例中噪声模型为(1)式。藉此,我们做了两个实验将新算法与RVM和VRRVM比较。两个实验皆假定输入变量x服从区间[-3,3]上的均匀分布,然后利用sinc(x)加上噪音或奇异值生成100个训练数据。检验集包含1000个数据,不包含噪声或奇异值。

在第一个实验中,式(1)中的p0(x)项是一个均值为0,方差为0.01的高斯分布。在这100个训练数据中,20个被随机地选择为奇异值。它们的目标函数值被固定为t=0.8。在第二个实验中,噪音分布p0(t)和奇异值分布p1(t)服从均值为0,方差分别为0.05和0.2的高斯分布。利用一系列有效数据百分比θ,产生奇异值比率不同的数据集。

对所有算法,高斯核k(x,y)=exp(-‖x-y 2/h2)被用作基函数,其中的尺度参数h2取为1(这个取值是在无奇异值数据上交叉检验训练RVM的最好取值)。试验一的结果显示在图2中。试验二的结果反映在表1中,其中RMSE表示平均根方检验误差,#RV表示平均相关向量的个数。

图2(a)显示的是当100个训练样本中未有奇异值的情况下,RVM的回归曲线。图2(b)中表示的是随机的从图2(a)中的100个训练样本中选择20个,将其目标函数值固定为0.8,而其余训练样本不变,用这样改变后的样本训练RVM得到的回归曲线。比较图2(a)和图2(b),可以看出RVM的回归曲线被奇异值严重扭曲。应用与图2(b)同样的训练样本,图2(c)显示VRRVM的训练结果。相比图2(b),奇异值的影响小了许多。图2(d)显示的是新算法在同样奇异值的情况下的回归曲线。可以看出,回归函数几乎未受奇异值的影响。应用`干净'的训练集数据,RVM的检验误差为0.04。在受奇异值污染的训练集数据,RVM,VRRVM和新算法的检验误差分别为0.1742,0.0823和0.0633。

Outlier ratio:奇异值占整个样本的比率(1-θ);RMSE:平均检验误差;#RV:平均相关向量个数。

从表1中,可以发现随着奇异值比率(1-θ)从10%增加到50%,RVM的检验误差从0.0266提高到0.0544,VRRVM的检验误差从0.0246提高到0.0432。新算法抗奇异值干扰的能力更强,它的检验误差从0.0197仅提高到0.0393。对每一行三种方法的检验误差进行比较发现,新算法的检验误差总是最小的。在模型的稀疏化方面,RVM和新提算法用到的相关向量大约为5个,而VRRVM大约要用到50多个相关向量,几乎是RVM和新算法的10倍。

2.1.2 奇异值源自Student-t分布

除过奇异值服从自由度为4的Student-t分布,噪声分布p1(t)的标准差为0.1外,本部分的实验过程同2.1.1小节。实验结果列在表2中。

随着奇异值比率的增加,三种算法的检验误差RMSE都相应地增加了。但是相比其它两种算法,新算法的增长速度要慢得多。当奇异值比率为50%时,新算法的检验误差为0.1007,它甚至比奇异值比率为10%时RVM的检验误差0.1301和奇异值比率为20%时VRRVM的检验误差0.1051小。比较本部分和上一部分的实验可以发现,虽然VRRVM提高了RVM的稳健性,但是它的回归函数应用的相关向量却增加了许多(幅度大约为10~20倍)。然而,新算法所使用的相关向量与RVM相当。所以新算法在保持RVM极端稀疏性的优良性质的前提下,极大地提高了其稳健性。

图中*:训练样本;-:真实函数;--:回归函数。

Outlier ratio:奇异值占整个样本的比率(1-θ);RMSE:平均检验误差;#RV:平均相关向量个数。

2.2 Automobile MPG数据集

这个数据集研究城市机动车辆燃油量(单位:加仑/英里MPG)与各种观测到的输入潜在的因果联系[11]。原始数据包含398个样本,其中有392个样本是完全的,无缺失数据。输入变量为6个:汽车制造商、气缸的个数、排水量、马力、重量、加速度和汽车生产年份。以前的研究表明[11],在MPG的建模中,只有三个输入变量(马力,重量和汽车生产年份)对MPG的影响是显著的。因此本实验仅用到这三个输入变量。

图3绘出了MPG与输入变量的散点图。三个输入变量(马力,重量和生产年份)的标准差分别为38.39,848.40和3.68。为了使每个输入变量的尺度平衡,三种算法皆使用广义的高斯核函数[10]:

392个完整数据被随机地分割为包含300个点的训练样本集和包含92个点的测试样本集100次。为了得到4个不同程度的受污染训练样本集,训练样本中每个点被选中的概率分别为10%,16.7%,33.35%和50%。选中的样本的目标函数值被加上均值为0,标准差为15的高斯噪声。但是对测试样本,没有噪声被人为的加上。对不同的噪声水平和算法的组合,重复实验100次。所得结果是这100次实验的平均。详细的结果列在表3中。

Outlier ratio:奇异值占整个样本的比率(=1-θ);RMSE:检验误差;#RV:相关向量个数。

表3显示,当奇异值比率从0%增加到50%,RVM的检验误差从2.83增加到3.55,VRRVM的检验误差从2.86增加到3.25,新算法的检验误差从2.81到3.12,新算法误差的增长速度是最慢的。同时比较每行中三种算法的检验误差,新算法总是最小的。在模型的稀疏性方面,VRRVM需要140个相关向量,是RVM需要的相关向量(6个)的23倍,是新算法需要相关向量(14个)的10倍。以上结果意味着,对受奇异值污染的数据,新算法在模型的稀疏性和推广能力之间取得一个较好的折中。RVM最稀疏,但其检验误差却最大。VRRVM检验误差较小,但却最稠密。新算法较稀疏,检验误差最小,推广能力最强。

在训练速度方面,当奇异值比率为50%时,RVM、新算法和VRRVM在100个训练集的训练时间总和分别为120.30,1235.90和2937.10 CPU秒。虽然新算法调用标准RVM算法10次,其速度还是比VRRVM快。

3 结论以及待开展的工作

传统的高斯噪声模型的一个缺点是它的非稳健性。当观测中包含有奇异值时,其回归函数会发生显著的变化。因为使用了这样一个噪音模型,RVM抗奇异值干扰的能力较差。为了解决此问题,有研究者引入了大方差高斯分布或均匀分布(VRRVM)来解释奇异值现象;还有研究者引入了Student-t噪声模型。这两种模型都需要引入变分方法对其参数进行估计。因为变分方法比RVM使用的type-II极大似然方法[5,12],在计算上的代价更大,因此这两种模型的稳健性虽有不同程度的提高,但却需要更长的训练时间。另外与标准RVM相比,VRRVM需要更多的相关向量。

8.相关与回归分析方法 篇八

关键词:界面反演,剩余重力异常,回归分析

1.引言

密度分界面与区域构造、储油构造、含煤盆地有密切的关系,因此计算密度分界面的起伏和深度的变化在区域构造研究、石油勘探、煤田勘探中具有重要的意义[1][2][3]。

通過分析前人对沉积盆地重震联合反演的研究成果,以及笔者对南华北地区区域地震剖面及构造格架剖面的拟合反演结果,我们发现通常情况下,主要沉积层界面深度与对应的剩余重力异常之间存在一种负相关的关系,即目的层深度越浅,对应异常越大,深度越深,对应异常越小。因此,我们期望运用已有的深度异常信息建立目的层密度界面深度与剩余重力异常之间的回归方程,通过该方程推算出未知区域的深度信息。

2方法原理

2.1线性回归分析

在密度界面起伏平缓的情况下,可以认为重力异常与界面的起伏呈近似线性关系,即

(2-1)

式中: 界面深度, 为界面起伏引起的重力异常; 、 为两个常数,他们与异常起算点处的界面深度和界面上下物质层的密度差有关。

为应用(2-1)式求取深度,至少要知道界面上两个点的深度,以确定 、 两个系数值。若存在n个已知点,它们的深度 ,则根据最小二乘原理,为确定系数 、 ,应使各点的深度 和由(2-1)试计算出的深度 的偏差平方和为最小,即

(2-2)

令 , 分别等于零,可得:

(2-3)

(2-4)

以上两式联立,解之得:

(2-5)

(2-6)

式中 为 的省略形式。

系数 确定后,就可以由(2-1)式计算出测点下方各界面的深度[1][4]。

2.2抛物线回归分析

与线性回归相比,抛物线回归分析只是给线性回归方程增加了一个二次项,如下式:

(2-7)

应用(2-7)式求取深度,至少要知道界面上三个点的深度,以确定 、 、 三个系数值。对存在n个已知点的情况,同样可以根据最小二乘原理,使各点的深度 和由(2-7)试计算出的深度 的偏差平方和为最小,以确定 、 、 三个系数值[70]。即:

(2-8)

(2-9)

(2-10)

联立以上三式,解之得:

(2-11)

系数 确定后,就可以由(2-7)式计算出测点下方各界面的深度。

2.3算法流程

回归分析的算法流程如图所示,每一个计算环节简单介绍如下:

图2.1 回归分析算法流程图

(1)数据读取

包括剩余重力异常网格数据和已知控制点信息的读取。

(2)搜索控制点

搜索与当前测点距离在指定范围内的已知点,若已知点过少,如对于抛物线回归分析已知点少于4个,则放弃计算该点,若已知点过多,则按距离测点距离远近对已知点排序,取距离最近的指定数目的已知点。

(3)建立回归方程

运用控制半径范围内已知点的深度和异常信息根据前两节所述原理建立界面深度关于剩余异常的回归方程,计算出回归系数。

(4)测点计算

将当前测点的剩余重力异常值代入回归方程,求取其深度值,并对数值的合理性做出判断。

(5)数据输出

若当前深度值求取合理,则输出对应测点的坐标、深度、异常以及相应的回归系数等信息,并进入下一测点的计算,重复1、2、3、4步骤,否则不输出当前测点信息,直接进入下一点的计算。

整个计算流程不是很复杂,在VC6.0中编程实现。计算时需要注意一些细节。首先,对于搜索半径及其范围内制点数目的选取要合适;其次,研究区目的层的深度是有一定范围的,回归分析计算出的深度若超出这个范围应该剔除,而深度范围的确定需要参考地质、钻孔及剖面反演资料。

3约束条件

这里的约束条件包括方法本身的应用条件和对控制点要求。

回归分析的应用前提是密度界面的起伏变化在一定范围内是平缓的,变化越平缓则计算的精度越高。例如当界面起伏最大倾角小于三度,起伏幅度不超过界面最大深度1/10时,由(2-1)式所得的结果的最大相对误差不超过7%;即使界面最大倾角到11度,起伏幅度达到界面最大深度的1/5,带来的最大误差也小于8%[2],而采用(2-7)式时会更突出一些局部细节,相对来说,误差还会减小。

4剖面回归分析验证

为了验证回归分析的有效性,同时比较线性回归分析和抛物线回归分析的反演效果,以研究区三叠系地层为例,我们把部分地震剖面和区域格架剖面的反演拟合得到的三叠系底界面深度值与对应点剩余重力异常值作为已知控制点,把剖面切割规则剩余重力异常网格得到的异常值作为待求测点,运用两种回归分析方法分别进行了反演计算,部分剖面结果如图4-1所示。图中蓝色十字叉点表示已知控制点,绿色线为线性回归分析反演结果,红色线为抛物线回归分析反演结果。

太康线

EW03线

图4.1 部分剖面深度异常回归分析效果对比图(三叠系底界面)

总体来说,两种回归分析方法求得的深度值都大体反映了剖面下方三叠系底界面深度的变化趋势,因而都具有可行性。在深度变化比较平缓的区域,它们求得的深度值基本没有差异,在深度变化较大的区域,二次回归分析的结果与控制点深度更为接近,更能反映一些深度变化的细节。因此,对于平面的深度回归分析反演,我们优先选取二次回归分析方法。

5区域密度界面反演分析实例

以南华北地区盆地为例。南华北地区(又称华北盆地南部)地处中原和两淮地区,包括河南省和安徽省的大部分以及江苏省的西北部、山东省的西南部。区内诸多盆地是不同构造阶段,多种构造动力体系联合与复合作用的最终產物。对研究区主要密度界面,下古生界底界、上古生界底界深度异常二次回归分析结果如图5.1~5.2所示。

结合研究区区域地层特征分析,反演结果反映了各界面的基本分布格局,即在三门峡—舞钢—信阳—舒城一线以北区域各地层界面起伏变化,该线以北则进入北秦岭逆冲推覆构造带,区内主要分布太古代、元古代区域变质岩及不同时期的侵入岩体,因而主要沉积层深度为零。因此,也从地质角度证明了运用回归分析求取主要目的层残存分布的合理性。

进一步分析结果可以看出,各沉积层底界面深度分布是与区域构造“南北分带、东西分块”的特征是相一致的。在南北方向上,由北侧的济源凹陷、开封坳陷到太康隆起,再到中部的周口坳陷往南经长山隆起进入信阳合肥盆地,各目的层底界面的深度经历了深、浅、较深、浅、深的交替变化,而在东西方向上因为与主要构造单元分布平行,深度变化比较平缓。

图5.1 南华北地区下古生界底界面深度图(单位:m)

图5.2 南华北地区上古生界底界面图(单位:m)

6结论

本文运用基于回归分析的反演模式,建立了盆地、坳陷区剩余重力异常与主要目的层深度之间的回归方程,由此推算未知区域的目的层深度分布情况,并引入实例,计算区域密度界面的分布情况,通过已有地质、地球物理特征认识验证了计算结果的合理性。我们认为这种方法是可行的。

参考文献:

[1]曾华霖,重力场与重力勘探[M]. 地质出版社,2005.6

[2]肖鹏飞,陈生昌,孟令顺. 高精度重力资料的密度界面反演[J]. 物探与化探,2007b,31(1),29-33

[3]韩道范等.利用重力异常反演多层密度分界面的理论和方法[J]. 地球物理学报,1994,37(1),272-281

上一篇:民主生活会自我剖析材下一篇:人教版初三上册第10课《孤独之旅》语文教案