《主成分分析.ppt》由会员分享,可在线阅读,更多相关《主成分分析.ppt(18页珍藏版)》请在优知文库上搜索。
1、主主 成成 分分 分分 析析Principal Component Analysis 问题的提出问题的提出 医学科学研究涉及的变量医学科学研究涉及的变量,互互相之间可能会有一定联系相之间可能会有一定联系(多重共多重共线性线性);已有变量的少数几种线性组已有变量的少数几种线性组合合(主成分主成分),已经能够很好的反映原已经能够很好的反映原始数据蕴涵的信息。始数据蕴涵的信息。主成分分析主成分分析就是主成分的提取就是主成分的提取过程。过程。基本原理基本原理4321CCCCC4321XXXXXAXC 基本原理(续基本原理(续1)设设R为为X1X4的相关系数矩阵,则有:的相关系数矩阵,则有:其中,其中,
2、A是所谓组合系数矩阵(负荷矩阵)。是所谓组合系数矩阵(负荷矩阵)。AAR基本原理(续基本原理(续2)则有:则有:设设R的特征向量矩阵为:的特征向量矩阵为:设设R的特征值为:的特征值为:令令4321,eeeeV 4321,4321,diagL LVA 基本原理(特征根)基本原理(特征根)对于矩阵对于矩阵RPP,则由下列行列式确定的则由下列行列式确定的P阶方程之根,阶方程之根,称为称为R的特征根。的特征根。0 IR 基本原理(特征向量)基本原理(特征向量)对于矩阵对于矩阵RPP,已知其特征根为已知其特征根为i,则,则满足下式的向量为该特征根对应的特满足下式的向量为该特征根对应的特征向量:征向量:X
3、RX 主成分的性质主成分的性质 1.主成分间互不相关主成分间互不相关 2.组合系数构成的向量为单位向量组合系数构成的向量为单位向量 3.各主成分的方差是递减的各主成分的方差是递减的 4.总方差和原始变量的方差相同总方差和原始变量的方差相同 (各主成分独立地反映某一方面的信息)(各主成分独立地反映某一方面的信息)(最重要的主成分解释最多的变异)(最重要的主成分解释最多的变异)(主成分分析并未改变原始数据的总的信息量)(主成分分析并未改变原始数据的总的信息量)122221ipiiaaa实例分析实例分析1(方方435_25_1)1985年中国年中国28省市汉族城市男生省市汉族城市男生1922岁组若干
4、形态指标的平均值。岁组若干形态指标的平均值。数据集中,数据集中,28行表示行表示28个省份,个省份,6列表列表示示6项指标。项指标。试提取全部的主成分。试提取全部的主成分。实现步骤实现步骤1.创建数据集或打开现成的数据集。创建数据集或打开现成的数据集。2.Analyze Data reduction Factor.具体操作步骤具体操作步骤 Analyze Data Reduction Factor 所所有变量选入有变量选入“Variables”Descriptive 中选中选 KMO and Bartletts test of Sphericity;Correlation Matrix 中选中
5、选 Coefficients Extraction Extract,选中选中 Number of factors 3 Rotation Display 中选中选 loading plots Scores 中选中选 save as variables和和 Display factor score;其余其余均按默认值均按默认值 ok计算实现与结果讨论(计算实现与结果讨论(1)相关系数阵相关系数阵Correlation Matrix1.000.956.852.414.181.100.9561.000.810.406.246.235.852.8101.000.583.240.118.414.406.5
6、831.000-.054.330.181.246.240-.0541.000.436.100.235.118.330.4361.000X1X2X3X4X5X6CorrelationX1X2X3X4X5X6计算实现与结果讨论(计算实现与结果讨论(2)KMO检验与球形检验检验与球形检验用于检验变量间的偏相关用于检验变量间的偏相关性,越接近性,越接近1,表示偏相,表示偏相关越小。关越小。用于检验变量间的独立用于检验变量间的独立性,性,P0.05时,提示各时,提示各变量间不独立。变量间不独立。KMO and Bartletts Test.587123.26915.000Kaiser-Meyer-Olk
7、in Measure of SamplingAdequacy.Approx.Chi-SquaredfSig.Bartletts Test ofSphericityKMO的计算:的计算:jiijjiijjiijarrKMO222计算实现与结果讨论(计算实现与结果讨论(3)特征根特征根,贡献率贡献率,累积贡献率累积贡献率Total Variance Explained3.20353.38453.3843.20353.38453.3841.30521.74375.1271.30521.74375.127.92615.43690.564.92615.43690.564.4146.90597.469.4
8、146.90597.469.1202.00599.474.1202.00599.474.032.526100.000.032.526100.000Component123456Total%of VarianceCumulative%Total%of VarianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.计算实现与结果讨论(计算实现与结果讨论(4)因子图(主成分与各变量的关系)因子图(主成分与各变量的关系)Com
9、ponent Plotx4x3x1x2Component 2x61.01.0-.50.0.5.5.51.0 x5Component 3Component 10.00.0-.5-.5计算实现与结果讨论(计算实现与结果讨论(5)特征向量矩阵特征向量矩阵Component Score Coefficient Matrix.288-.177-.241-.368.5864.142.291-.079-.213-.583.914-3.724.288-.139-.061.501-2.216-.600.198-.067.760.6761.096-.020.104.590-.461.793.670.084.110.598.427-.775-.757.515X1X2X3X4X5X6123456ComponentExtraction Method:Principal Component Analysis.Component Scores.计算实现与结果讨论(计算实现与结果讨论(6)第一主成分的表达式(第一主成分的表达式(p.439,表表25.4)其中,其中,xi为标准化的数值。为标准化的数值。62162111964.05200.05156.0 110.0291.0288.0203.3xxxxxxC