《SPSS统计分析及统计图表的绘制指导书.docx》由会员分享,可在线阅读,更多相关《SPSS统计分析及统计图表的绘制指导书.docx(10页珍藏版)》请在优知文库上搜索。
1、(1) Statistics选项:AgglomerationSChedUle:凝合状态表。显示聚类过程的每步合并的类或样品、被合并的类或样品之间的距离以与样品或加入到一类的类水平。Proximitymatrix:相变量似矩阵。给出各类之间的距离或相像测度值。ClusterMembership:类成员。显示每个样品被安排到的类或显示若干步凝合过程。详细内容有三个选项:None:不显示类成员表,是默认值:Singlesolution:要求列出聚为肯定类数的各样品所属的类:RangeofSOlUtiOnS:要求列出某个范围中每步各样品所属的类。(2) Plol选项Dendrogram:树形图。Ici
2、cle:冰柱图。(3) Method选项Cluster:聚类方法选择。Measure;对距离和相像系数的不同测量方法。TransformValues:转换数值的方法,标准化方法。TransformMeaSUreS:测度的转换方法。4)实例演示一维集群分析(按年龄集群)促销市场的选择各省份依据产业结构、水平分类(5)聚类要留意的问题聚类结果主要受所选择的变量影响假如去掉些变量,或者增加一些变量,结果会很不同。相比之卜.,聚类方法的选择则不那么重要了。因此,聚类之前肯定要目标明确。另外就分成多少类来说,也要有道理。只要你兴奋,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各
3、类距离尽可能的远,而类中点的距离尽可能的近,而旦分类结果还要有令人信服的说明。这一点就不是数学可以解决的广。判别分析(AnaIyZe/Classify/DiSCriIiinate)1 .基木概念判别分析探讨方法是依据已知对象的某些观测指标和所屈类别来推断未知对象所属类别的一种统计学方法。与聚类分析有所不同的是:判别分析法首先须要对所探讨对象进行分类,进步选择若干对观测对象能够较全面地描述的变量,建立判别函数。对一个未确定类别的样本只要将其代入判别函数就可以推断它属于哪类总体”2 .判别分析实例数据team.SaV为李宁杯拉拉队竞赛评审裁判为15个参赛学校依据组织、气氛、领导三要素,将IeaIn
4、分为高、中、低效能。其中评价的指标为组织、凝合力和领导三个变量:我们希望依据这些team的上述变量的打分和它们已知的组别(三个组别:1一代表高效能,2代表中效能,3一代表低效能)找出个分类标准,以对折15个team以外的Ieam进行分类。该数据有15个Ieam(15个观测值),其中4个属于高效能,6个属于中效能,5个屈于低效能,这个数据就是个“训练样本”。(1)依据距离的判别(不用投影)数据有3个用来建立判别标准(或判别函数)的(预料)变量,另个是组别。因此每一个team的打分在这3个变量所构成的3维空间中是个点。这个数据有15个点,由于已经知道全部点的类别了,所以可以求得每个类型的中心。这样
5、只要定义/如何计算距离,就可以得到任何给定的点(team)到这三个中心的三个距离。明显,最简洁的方法就是离哪个中心距离最近,就属于哪一类。通常运用的距离是所谓的MahalanObiS距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction),这种依据远近判别的方法,原理简洁,直观易懂。(2)FiSher判别法(先进行投影)所谓FiSher判别法,就是一种先投影的方法。考虑只有两个(侦料)变量的判别分析问题.假定这里只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另类有44个点(用表示)。依据
6、原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就找寻个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清晰。可以看出,假如向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是FiSher判别法。(3)逐步判别法(仅仅是在前面的方法中加入变量选择的功能)有时,些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以运用逐步判别。也就是,一边判别,一边引进判别实力最强的变量,这个过程可以有进有出。个变量的判别实力的推断方法有许多种,主要利用各种检验,例如WiIks1.
7、ambdaXRaoSV、TheSquaredMahalanobisDistance,SmallestFratio或TheSumofUnexplainedYarialiOnS等检验。其细微环节这里就不赘述f:这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。(4)实例操作IndePentents:选择自变量和运用自变量的方法对于选定的自变量可以全部应用到判别函数中去,这是系统默认的运用全部自变量法wEnterindependenttogetherw假如要对变量进行筛选检验,将运用选项逐步进入法“Usestepwisemethod,o运用该方法后,按钮“Methord”将被
8、激活,在窗口中可以进一步定义运用哪一种逐步进入法:“Wilkslamda”法为系统默认的方法;“Unexplainedvariance不说明方差法;ttMahalamobisdistance马哈拉莫比斯距离法:aSmallestFratio0最小F比率法;RaosY”劳氏增值法。SlaliSIiacs:统计量、矩阵和函数系数的计算wDescriptivesw中的选项有三个:“Means”为计算各个自变量的平均值和标准差以与各个类别中的平均值和标准差:“UnivariateANOVAm计算各类中同一个自变殳的一元方差分析:BoxsM计算各类的协方差矩阵,并进行协方差分析。“Matrices”计算
9、相关矩阵或协方差矩阵:mWUhin-groupsCorreIation”计算组内相关矩阵;“Within-groupsCOVarianCe”计算组内协方差矩阵:Separale-groupscovariance”计算分组协方差矩阵;“Totalcovariance计算总体协方差矩阵。FunctionCoefficients计算判别函数的系数:”FiShers”计算可以用于对新样本进行判别并分类的费氏系数;UnStandardiZed”计算非标准化判别系数,可用于计算判别分类。Classify:分类方式和判别结果设置分类所依据的判别先验概率和协方差矩阵,以与输出图形和显示结果。“PriorPro
10、babilities”先验概率的设置指定,有两种方式:44Allgroupsequal”各个类取相等的先验概率;“Computefromgroupsize依据各个类的样本个数确定先验概率。“Display”输出分析结果:“Casewiseresults”输出各个样本的分类结果,其中有:判别分、指定类和判别类和后验概率等:“Summarylable”输出分类摘要表,表中将标明:与原指定类相同的判别类,该判别类是依据判别函数得到的,即正确类。同时还标明与原指定类不同的判别类以与相应的概率;1.eave-one-outclassification是种交互检验。USeCovarianceMatrix选
11、择运用协方差矩阵:Wilhin-groups”选择分析运用的组内协力差矩阵进行判别分析;“Separate-groups”选择分析运用的分组协方差矩阵进行判别分析。Plots:统计图形的输出“Combined-groups”将各个类的图形都存放在同一张图中。“Separate-groups”分类显示各个类的图形。Territorialmapw分界图,将坐标平面划分为不同的区域,每个区域将代表个类,落在该区域中的样本观测点就属于该区域所代表的类。RePlaCemissingvalueswithmean:将缺失值用样本平均值代替。结果分析CanonicalDiscriminantlunctionC
12、oefficient:典则判别函数。将未归类的样本的变量值代入两个典则判别函数,算出两个数。把这两个数目当成该样本的坐标,这样数据中的每个样本就是二维平面上的点。ClassificationFunctionCoefficients:分类函数系数及。把每个观测点带入每类对应的函数,就可以得到分别代表各类的值,哪个值最大,该点就属于相应的那类。(5)判别分析的留意事项训练样本中必需有全部要判别的类型,分类必需清晰,不能有混杂。要选择好可能用于判别的假料变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。要留意数据是否有不寻常的点或者模式存在。还要看预料变量中是否有些不相宜的:这可以用单
13、变量方差分析(ANOVA)和相关分析来验证。判别分析是为r正确地分类,但同时也要留意运用完可能少的假料变量来达到这个目的,运用较少的变量意味着节约资源和易于对结果进行说明。因子分析(Analyze/DataReductionZFactor)1 .基木概念假定你是个公司的财务经理,驾驭了公司的全部数据,这包括众多的变量,如:固定资产、流淌资金、借贷的数额和期限、各种税贽、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教化程度等等。假如让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?在如此多的变量之中,有许多是相关的。人们希望能够找出它们的少数“代表”来对它们
14、进行描述。须要把这种有许多变量的数据进行高度概括。因子分析只是一种中间手段,其背景是探讨中常常会遇到多指标的问题,这些指标间往往存在肯定的相关,干脆纳入分析不仅困难,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。因子分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析。2 .因子分析模型Xi=ailfl+ai2f2+aimfm+ui其中,fl,f2f11r公因子(Commonfactors);ui特别因子(Uniquefactor):aim因我(Factorloading)03 .有关概念(I)因子负荷:即表达式中各因子的系数值
15、,用于反映因子和各个变量间的亲密程度,其实质是两者间的相关系数(2)公因子方差比(Communalities):指的是提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的方差中由公因子确定的比例。(3)特征根(Eigenvalue):可以被看成是主成分影响力度的指标,代表引入该因子/主成分后可以说明平均多少原始变量的信息。-1.SPSS操作(1) Extraction:因子提取方法Principalcomponents:主成分分析法(因子不用旋转):Unweightedleastsquares:未加权最小平方法;Generalizedleastsquares:综合最小平方法:Maximumlikelihood:极大似然估计法;Principalaxisfactoring:主轴因子法:Alphafactoring:Q因子法;Imagefactoring:多元回来法。(2) Rotation:因子旋转方法None:不作因子旋转:Varimax:正交旋转;Equamax:全体旋转,对变型和因子均作旋转:Quartimax:四分旋转,对变量作旋转:DirectOblimin:斜交旋转。旋转的目的是为了获得简洁结构,以帮助我们说明因子。5 .结果分析6