课程设计报告
( 2007 -- 2008 年度第 1学期)
名 称: 题 目: 院 系: 班 级: 学 号: 学生姓名: 指导教师: 设计周数:
成 绩:
日期: 年 月 日
中年男性血红蛋白参考值与中国地理因素分析
摘要 目的 为制定中国中年男性血红蛋白正常值的统一标准提供科学依据。方法 收集了中国33个主要城市中年男性血红蛋白正常参考值;在运用偏相关分析和主成分回归分析方法,研究了其与地理因素的关系。 结果 通过偏相关分析发现海拔高度是影响中年男性血红蛋白正常参考值的最主要的因素,随着海拔高度的逐渐增加中年男性血红蛋正常参考值也相应逐渐增加,偏相关系数Ry,2345=0.64586,相关性很显著。用主成分分析的方法推导出了一个回归方程。结论 实证分析说明,若知道一个区域的海拔高度、年日照时数、年平均相对湿度、年平均气温、年降水量等,用偏相关分析和主成分回归分析的方法可以估算一个区域的中年男性血红蛋白正常参考值。
[1][6][7]
关键词: 血红蛋白正常参考值 地理要素 偏相关系数 主成分分析 回归分析
一、课程设计的目的与要求
统计分析软件课程设计是专业必修的实践教学课程。通过课程设计使学生系统地了解SAS软件的基本统计分析功能和操作编程方法,掌握描述统计、假设检验、回归分析和方差分析等统计方法,并将此方法运用于社会经济问题的管理、决策及因素分析中。使学生了解当前统计方法应用的前沿和热点问题。
二、设计正文 1 引言
血红蛋白是血液一般检查的一个重要指标。为制定中国中年男性血红蛋白正常值的统一标准提供科学依据。 收集了中国各地用氰化高铁血红蛋白法测定的中年男性血红蛋白正常值,并对其用偏相关分析和主成分回归的方法研究与地理因素的关系进行了研究,发现有一定的规律。
1.1血红蛋白正常参考值
[2]
收集了中国33个城市中年男性血红蛋白正常值;年龄范围是26~45岁之间的中年男性
[4][3][5]
东部平原的资料多于西部高原地区的资料。地理资料取材于有关地理著作和辞典,选取的地理因素是海拔高度(x1),年日照时数(x2),年平均相对湿度(x3),年平均气温(x4),年降水量(x5)等5项指标。 1.2数据
海拔高日照时年平均相 年平均气温年降水血红蛋白城市 度(m) 数(h) 对湿度(%) (℃) 量(mm) (g/L) 日喀则 3847.3 3245 35 6.3 365 166.0136 香格里拉 3280 2953 32 23 426.4 148.3743 西宁 2261.2 2375 61 5.1 380 165.0993 昆明 1891.4 2295 56 15 1011.3 152.9172 银川 1111.5 2900 51 10.5 644.6 147.4024 贵阳 1063 1600 52 6.2 534.6 164.955 太原 777.9 2808 57 6.8 456 150.0591 成都 505.9 1324 79 16.6 1000 151.5527 西安 396.9 1657 66 13.7 553.3 151.773
重庆 259.1 1245.6 长春 236.8 2500 哈尔滨 171.7 2089 郑州 110.4 1934 大连 92.8 2371 福州 74 1790 石家庄 80.5 1724 青岛 76 1925 南宁 72.2 1833 济南 51.6 2017 南昌 46.7 2197 长沙 44.9 1470 沈阳 41.6 1996 杭州 41.7 1726 北京 31.2 2260 合肥 29.8 2100 武汉 23.3 1926 南京 8.9 1719 广州 6.6 1945.3 上海 4.5 1714 宁波 3.3 1994 包头 325 2100 宝鸡 64 2305 开封 2000 3145 2偏相关分析和主成分回归分析
2.1偏相关分析
82 68 66 67 65 76 58 70 76 55 79 78 67 82 59 75 76 73 75 70 65 78 71 52 17.8 5.1 4.4 14.2 10.5 19.3 13.3 12.4 21.7 14.6 17.8 17.2 7.8 15.8 11.8 15.7 16.5 15.6 21.8 18.4 12.2 15.8 14.3 6.4 1104.5 570.4 524.3 632.4 601.9 1500 525.5 652.6 1309.7 6727 1624.4 1546.4 690.3 1454.6 571.9 1000 1269 1062.4 1736.1 1042.6 590 755 670 312 149.3212 150.9414 155.6504 146.5302 145.929 140.9108 150.0681 148.0848 138.2147 137.9069 137.8067 146.0154 152.0313 144.7162 145.7197 141.8809 142.4007 145.7924 136.0834 143.1108 147.5032 143.7044 142.0764 154.8762 偏相关分析用以计算描述在其他变量控制下,两变量之间的线性关系的偏相关系数,即各个地理因素对中年男性血红蛋白正常参考值的直接影响程度,也就是说在除去其他因素的影响后,每个地理因素对中国中年男性血红蛋白正常值的净影响。运用sas统计软件分别计算出偏相关系数。
中年男性血红蛋白正常参考值与海拔高度(x1),年日照时数(x2)年平均相对湿度(x3),年平均气温(x4),年降水量(x5)分别是:
Ry,2345=0.64586, P<0.0001,
可见控制地理因素x2、x3、x4、x5时,中年男性血红蛋白正常参考值(y)与海拔高度(x1)的偏相关系数很显著。
Ry,1345=0.31914, P=030702>0.01,
可见控制地理因素x1、x3、x4、x5时,中年男性血红蛋白正常参考值(y)与海拔高度(x1)的偏相关系数不显著。
Ry,1245=-0.53064, P=0.0015<0.01,
可见控制地理因素x1、x2、x4、x5时,中年男性血红蛋白正常参考值(y)与海拔高度(x1)的偏相关系数很显著。
Ry, 1235=-0.67581, P<0.0001,
可见控制地理因素x1、x2、x3、x5时,中年男性血红蛋白正常参考值(y)与海拔高度(x1)的偏相关系数很显著。
Ry,2345=-0.39905, P=0.0214>0.01,
可见控制地理因素x2、x3、x4、x5时,中年男性血红蛋白正常参考值(y)与海拔高度(x1)的偏相关系数不显著。 2.2主成分回归分析
主成分回归分析是将原来的多个变量综合成彼此互补相关的综合指标(即主成分)的一种统计方法,可以达到数据化简,揭示变量不仅保留了原始数据的绝大部分信息,而且彼此之间不相关,对综合变量进行分析,可以抓住主要的因素,剔除一些重叠的信息使问题得到最佳综合简化。
利用sas 软件计算出5各变量之间的相关系矩阵,发现变量之间的相关性比较明显,为此对5各变量的原始标准化数据进行主成分分析。有输出的结果可知,相关矩阵的前3个特征根分别为1=2.7731,2=1.0190,3=0.7163。前三个主成分的累计贡献率高达90.17%,所以选取三个主成分来代替原来的5个变量,这三个主成分可以解释原来的90.17%的信息。主成分个数的确定,根据累计方差贡献率大于或等于85%的原则选取。用Z1,Z2,Z3表示这三个主成分,则:
Z1=-0.517841x1*-0.522493x2*+0.531193x3*+0.350127x4*+0.232564x5* Z2=0.222284x1*+0.130132x2*-0.30378x3*+0.45614x4*+0.795654x5* Z3=0.345256x1*-0.031513x2*+0.0249x3*+0.77571x4*-0.526745x5*
2其中Xi(i=1,2,3,4,5)是Xi的标准化指标. 即(XiX)/Si,其中X是Xi的均值,Si是
*
Xi的标准差。 2.3回归分析
用上述三个主成分作为回归自变量,和中年男性血红蛋白正常参考值进行多元线性回归分析。得到的回归方程如下:
Y=-0.40118Z1-0.27392Z2-0.15960Z3
F=11.39 ,P<0.0001说明此回归方程是高度显著的。最后转化为y 与原始变量的多元回归式:
∧
Y=184.9+0.00605x1-0.01024 x2-0.05579x3+1.03517x4-0.001259x5
在以上的回归方程中y是中年男性血红蛋白正常参考值(g/L),x1海拔高度(m),x2年日照时数(h),x3年平均相对湿度(%), x4年平均气温(℃),x5年降水量(mm)。
三、分析结论及相关建议
从偏相关系数可以看出,随着海拔高度(x1)的逐渐增加,中年男性血红蛋白正常参考值在逐渐的增大,相关性很显著,相关系数最大;随着年平均气温(x4)的增大中年男性血红蛋白正常参考值也有增大的趋势,相关性也显著,随着年年日照时数(x2)和年平均相对湿度(x3)的增大,中年男性血红蛋白正常参考值有减小的趋势,相关性不显著;随着年平均相对湿度(x3)的增大,中年男性血红蛋白正常参考值有减小的趋势,但是相关性显著;因此,海拔高度是影响中年男性血红蛋白正常参考值最主要的因素,随着海拔高度的逐渐增大,空气逐渐稀薄,氧含量逐渐减小,机体为了适应缺氧的环境,血液中的红细胞数代偿性的逐渐增加,导致中年男性血红蛋白正常参考值的逐渐增大。如果知道了中国某地的海拔高度(x1),年日照时数(x2),年平均相对湿度(x3),年平均气温(x4),年降水量(x5)等地理因素指标,就可以用回归方程来估算这一地区的中年男性血红蛋白正常参考值。
例如,荆州地区的海拔高度(x1)是25m,年日照时数(x2)是2900h, 年平均相对湿
度(x3)是67%,年平均气温(x4)是19.3℃,年降水量(x5)是3500mm用回归方程计算得:
∧
y=184.9+0.00605*25-0.01024*2900-0.05579*67+1.03517*19.3-0.001259*3500
=167.1896
因此,用回归方程估算的荆州中年男性血红蛋白正常参考值为:167.1896g/L。
四、参考文献
[1] 姚磊,刘军,徐桂荣等.医学实用手册[M]. 1版.北京中广播电视出版社,1993. [2] 孙端阳,王婷.上海市成人血红蛋白正常值的探讨[M].上海医学院学报,1993. [3] 王占刚,张旭,崔之中[M].旅居海拔5000米高原人红细胞影响的动态观察[M],2004. [4] 叶莺,王美,孔炫涛等.全国临床检验操作规程[M].2版,南京:东南大学出版社,2004:. [5] 张超,杨炳庚.计量地理学基础[M].2版.北京:中国高等教育出版社,1991. [6] 樊欣,邵谦谦.SAS8.0经济统计[M].北京:北京希望电子出版社,2003. [7] 何晓群,刘文卿.应用回归分析[M].北京:中国人名大学出版社。2001.
五、英文题目、摘要、关键词
Analusis beween reference value of middleaged man’s hemoglobin
and geographical factors in china
Abstract:Aim In order to supply a basis for uniting the reference value standard of Chinese
midleaged man men’s hemoglobin. Methods A research is made about relationship between the reference value of 33 examples of mian cities of Chinese healthy middleaged man men’s hemoglobin and five geographical factors in china,the normal reference value is determined by the hemoglobincyanide method.Results It is found that altitude is mian factor affecting the normal reference value of Chinese healthy middleaged man men’s hemoglobin by making using of partial component analusis.As the altitude increases gradually ,the normal reference value of Chinese healthy middleaged man men’s hemoglobin also increases
gradually,and the partial correlation Ry,2345=0.64586 is quite significant . Appling the method of partial component analysis .one regression equation is given out.Conclusion If geofraphical values are obtianed in a area,the normal reference value of Chinese healthy middleaged man men’s hemoglobin of this area can be reckoned using partial correlation analysis and pricipal component regerssion analysis.
Keywords: hemoglobin; referencevalue; geographical elements; regression analysis
partial correlation coefficients; pricipal component analysis
六、编写程序及相应的主要输出结果: %建立数据集
data sasuser.shuju; input y x1-x5; cards;
3847.3 3245 35 6.3 365 164.3564 ... ; run;
%变量之间的相关系数
proc corr data=sasuser.shuju output=w; var y x1-x5; run;
%标注化数据
proc standard data=sasuser.shuju m=0 std=1 out=stshuju; run;
proc print data=stshuju; run;
%方差扩大因子和条件数
proc reg data=shuju;
model y=x1-x5/vif collinoint; run;
%主成分回归
Proc princomp data=stshuju out=c prefix=z; Var x1-x5; run;
Proc reg data=c; model y=z1-z3; Run;
变量之间的相关系数:
The SAS System
18:48 Sunday, December 11, 2008 1
The CORR Procedure
6 Variables: y x1 x2 x3 x4 x5
Simple Statistics
Variable N Mean Std Dev Sum Minimum Maximum Label y 33 146.20405 5.70713 4825 136.25470 164.35640 y x1 33 576.71818 983.89603 19032 3.30000 3847 x2 33 2096 492.29075 69183 1246 3245 x3 33 65.81818 12.35783 2172 32.00000 82.00000 x4 33 13.44242 5.17911 443.60000 4.40000 23.00000 x5 33 1026 1100 33844 312.00000 6727
Pearson Correlation Coefficients, N = 33
Prob > |r| under H0: Rho=0
y x1 x2 x3 x4 x5
y 1.00000 0.64586 0.31914 -0.53064 -0.67581 -0.39905 y <.0001 0.0702 0.0015 <.0001 0.0214 x1 0.64586 1.00000 0.67378 -0.78605 -0.25096 -0.26110 x1 <.0001 <.0001 <.0001 0.1589 0.1422 x2 0.31914 0.67378 1.00000 -0.71662 -0.41544 -0.22102 x2 0.0702 <.0001 <.0001 0.0162 0.2164 x3 -0.53064 -0.78605 -0.71662 1.00000 0.38566 0.10900 x3 0.0015 <.0001 <.0001 0.0267 0.5460
特征根和累计贡献率:
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative 1 2.77309879 1.75407698 0.5546 0.5546
2 1.01902181 0.30271846 0.2038 0.7584 3 0.71630336 0.39803342 0.1433 0.9017 4 0.31826994 0.14496384 0.0637 0.9653 5 0.17330610 0.0347 1.0000
主成分回归及其检验;
The PRINCOMP Procedure
x1 x2 x3 x4 x5
Eigenvectors
z1 z2 z3 z4 z5
x1 -.517841 0.222839 0.345256 -.396696 0.636878
x2 -.522493 0.130132 -.031513 0.839197 0.069432 x3 0.531193 -.303769 0.024901 0.318920 0.723345 x4 0.350127 0.456144 0.775710 0.190989 -.176470 x5 0.232564 0.795654 -.526745 -.013885 0.187605
Source DF Squares Square F Value Pr > F
Model 3 Error 29 Corrected Total 32 Variable Label Intercept Intercept z1 z2 z3 1 -0.15960 0.14865 -1.07 0.2918
The REG Procedure Model: MODEL1 Dependent Variable: y y Analysis of Variance
Sum of Mean
17.31234 5.77078 11.39 <.0001 14.68766 0.50647 32.00000
Root MSE 0.71167 R-Square 0.5410 Dependent Mean 1.70571E-15 Adj R-Sq 0.4935 Coeff Var 4.172277E16
Parameter Estimates Parameter Standard
DF Estimate Error t Value Pr > |t| 1 1.741E-15 0.12389 0.00 1.0000 1 -0.40118 0.07555 -5.31 <.0001 1 -0.27392 0.12463 -2.20 0.0361
姓 名 课程名称 论文题目 班 级 学 号 评阅教师: 成 绩
因篇幅问题不能全部显示,请点此查看更多更全内容