《模式识别与人工智能.pptx》由会员分享,可在线阅读,更多相关《模式识别与人工智能.pptx(60页珍藏版)》请在优知文库上搜索。
1、Pattern Recognition & artificial IntelligenceLecture 2: 特征特征选择与选择与提取(提取(一一)1.1.引言引言2 2 类别可分离性判据类别可分离性判据3 3 特征选择特征选择4.4.特征提取特征提取1.1.引言引言 对特征空间的改造、优化、主要的目的是降维,即把维数对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间。高的特征空间改成维数低的特征空间。 降维主要有两种途径。一种是删选掉一些次要的特征,问降维主要有两种途径。一种是删选掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选。另一种方题在于如
2、何确定特征的重要性,以及如何删选。另一种方法是使用变换的手段,在这里主要限定在线性变换的方法法是使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维,这两种方法的区分要弄清楚。上,通过变换来实现降维,这两种方法的区分要弄清楚。【问题的提出】1什么叫特征空间?如果我们用颜色、尺寸、重量来衡什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果的构造的特特空间是几维空间?量水果的构造的特特空间是几维空间? 2如果用颜色、尺寸与重量组成的特征空间来区分苹果与如果用颜色、尺寸与重量组成的特征空间来区分苹果与梨,这三种度量中的哪种最有效?梨,这三种度量中的哪种最有效? 为什么?为什么? 能
3、否想像这两种水果在这个三维空间的分布?如果用能否想像这两种水果在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?类水果在特征空间如何分布? 能否对这两种情况设计更经济有效的特征空间?能否对这两种情况设计更经济有效的特征空间?【问题的提出】3如果两类物体在一个二如果两类物体在一个二维特征空间如图分布维特征空间如图分布,能能否用删除其中任一维来否用删除其中任一维来优化特征空间?有没有优化特征空间?有没有什么方法能得到一个对什么方法能得到一个对分类很有利的一维特征分类很有利的一维特征空间?空间?【问题的提
4、出】4上题的答案可用右图上题的答案可用右图Y1与与Y2组成的空间表示。你组成的空间表示。你认为哪个分量可以删掉?认为哪个分量可以删掉? 5将原在将原在X1、X2空间表示的数改成用空间表示的数改成用Y1、Y2空间表示?空间表示? 【问题的提出】1描述事物方法的选择与设计描述事物方法的选择与设计 方案方案1.1.从框架的左边框到数字之间的距离从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以变化反映了不同数字的不同形状,这可以用来作为数字分类的依据。用来作为数字分类的依据。 方案方案2.2.强调分析不同截面的信号,如强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截在框架的
5、若干部位沿不同方向截取截面分析从背景到字,以及从字到背景面分析从背景到字,以及从字到背景转换的情况转换的情况, ,如如ABAB截面切割字符三次,截面切割字符三次,CDCD截面切割字符一次等。截面切割字符一次等。 【问题的提出】2特征空间的优化特征空间的优化 这个层次的工作发生在已有了特征的描述方法之后,也就是已这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,如何对它进行改造与优化的问题。一有了一个初始的特征空间,如何对它进行改造与优化的问题。一般说来要对初始的特征空间进行优化是为了降维。即初始的特征般说来要对初始的特征空间进行优化是为了降维。即初始的特征空间维数较
6、高。能否改成一个维数较低的空间,称为优化,优化空间维数较高。能否改成一个维数较低的空间,称为优化,优化后的特征空间应该更有利于后续的分类计算后的特征空间应该更有利于后续的分类计算 例例 用用RGBRGB颜色空间和颜色空间和HSIHSI颜色空间颜色空间【问题的提出】【问题的提出】【问题的提出】【概念】【概念】【概念】2 2 类别可分离性判据类别可分离性判据【概念】特征选择与提取的任务是找出一组对分类最有效的特征,特征选择与提取的任务是找出一组对分类最有效的特征,因此需一准则。因此需一准则。概念:数学上定义的用以衡量特征对分类的效果的准概念:数学上定义的用以衡量特征对分类的效果的准则实际问题中需根
7、据实际情况人为确定。则实际问题中需根据实际情况人为确定。误识率判据:误识率判据:理论上的目标,实际采用困难(密度未理论上的目标,实际采用困难(密度未知,形式复杂,样本不充分,知,形式复杂,样本不充分,)可分性判据:实用的可计算的判据可分性判据:实用的可计算的判据【概念】(1) (1) 与误判概率与误判概率( (或误分概率的上界、下界或误分概率的上界、下界) )有单调关系。有单调关系。 (2) (2) 当特征相互独立时,判据有可加性,即当特征相互独立时,判据有可加性,即 : Jx xxJxi jdi jkdk(,)()121式中,式中,x xxd12,是对不同种类特征的测量值,是对不同种类特征的
8、测量值,Ji j( ) 表示使用括号中特征时第表示使用括号中特征时第i 类与第类与第j类可分性判据函数。类可分性判据函数。 类可分别判断函数类可分别判断函数 ( )ijJx【概念】(3) (3) 判据具有判据具有“距离距离”的某些特性,即的某些特性,即 :Ji j 0,当,当ij时;时;Ji j 0,当,当ij时;时;JJi jji(4) (4) 对特征数目是单调不减,即加入新的特征后,判对特征数目是单调不减,即加入新的特征后,判 据值不减。据值不减。 Jx xxJx xxxi jdi jdd(,)(,)12121 类可分别判断函数类可分别判断函数 ( )ijJx【概念】19值得注意的是值得注
9、意的是:上述的构造可分性判据的要求,即:上述的构造可分性判据的要求,即“单调性单调性”、“叠加性叠加性”、“距离性距离性”、“单调不单调不减性减性”。在实际应用并不一定能同时具备,但并不。在实际应用并不一定能同时具备,但并不影响它在实际使用中的价值。影响它在实际使用中的价值。 类可分别判断函数类可分别判断函数 ( )ijJx类可分别判断依据的常用方法:类可分别判断依据的常用方法: 基于几何距离的可分性判据基于几何距离的可分性判据 基于概率密度的可分性判据基于概率密度的可分性判据 基于熵的类可分性判据基于熵的类可分性判据基于几何距离的类可分离判据基于几何距离的类可分离判据一般来讲,不同类的模式可
10、以被区分是由于它们所属类一般来讲,不同类的模式可以被区分是由于它们所属类别在特征空间中的类域是不同的区域。别在特征空间中的类域是不同的区域。显然,区域重叠的部分越小或完全没有重叠,类别的可显然,区域重叠的部分越小或完全没有重叠,类别的可分性就越好。分性就越好。因此可以用因此可以用距离距离或或离差测度(散度)离差测度(散度)来构造类别的可分来构造类别的可分性判据。性判据。 基于几何距离的类可分离判据基于几何距离的类可分离判据( (一一) ) 点与点的距离点与点的距离 d a babababkkkn( , )() ()()/T1 2211 2( (二二) ) 点到点集的距离点到点集的距离),(1)
11、 ,()(12)(2ikNkiikaxdNaxdi用用均方欧氏距离均方欧氏距离表示表示基于几何距离的类可分离判据基于几何距离的类可分离判据( (三三) ) 类内及总体的均值矢量类内及总体的均值矢量 ciiimPm1)(各类模式的总体均值矢量各类模式的总体均值矢量 iNkikiixNm1)()(1类的均值矢量:类的均值矢量: ci, 2 , 1 Pi为相应类的先验概率,为相应类的先验概率,当用统计量代替先验概当用统计量代替先验概率时,总体均值矢量可表示为:率时,总体均值矢量可表示为:NllciNkikiciiiciixNxNmNNmPmi111)()(1)(111基于几何距离的类可分离判据基于几
12、何距离的类可分离判据( (四四) ) 类内距离类内距离 )()(1)()()(T)()(12iikiikNkiimxmxNdi类内均方欧氏距离类内均方欧氏距离 类内均方距离也可定义为:类内均方距离也可定义为: iiNkNlilikiiicxxdNNd11)()(22),() 1(1)(基于几何距离的类可分离判据基于几何距离的类可分离判据( (五五) ) 类类内离差矩阵内离差矩阵 T)()()()(1)(1iikiikNkimxmxNSii2()iidTr S显然显然( (六六) ) 两两类之间的距离类之间的距离 ),(1),()(11)(22jlNkNlikjijixxdNNdij)()(1)
13、,()()(T)(11)(2jlikjlNkNlikjijixxxxNNdij基于几何距离的类可分离判据基于几何距离的类可分离判据( (七七) )各类模式之间的总的均方距各类模式之间的总的均方距离离 ijNkNljlikjicjjciixxdNNPPxd11)()(2112),(121)(当取欧氏距离时,总的均方距离为当取欧氏距离时,总的均方距离为)()(121)()()(11T)()(112jlikNkNljlikjicjjciixxxxNNPPxdij基于几何距离的类可分离判据基于几何距离的类可分离判据( (八八) ) 多类情况下总的类内、类间及总体离差矩阵多类情况下总的类内、类间及总体离
14、差矩阵 iiNkiikiikiciiciiWmxmxNPSPS1T)()()()(11)(1类内离差类内离差ciiiiBmmmmPS1T)()()(类间离差类间离差总体离差总体离差 BWNlllTSSmxmxNS1T)(1易导出易导出2( )WBTdxTr SSTr S各模式之间总的均方距离各模式之间总的均方距离基于几何距离的类可分离判据基于几何距离的类可分离判据JTr SSWB11JSSBW2lnJTr STr SBW3JSSSSSWBWTW4基于几何距离的类可分离判据基于几何距离的类可分离判据在特征空间中,当类内模式较密聚,而不同类的在特征空间中,当类内模式较密聚,而不同类的模式相距较远时
15、,从直觉上我们知道分类就较容模式相距较远时,从直觉上我们知道分类就较容易,由各判据的构造可知,这种情况下所算得的易,由各判据的构造可知,这种情况下所算得的判据值也较大。由判据的构造我们还可以初步了判据值也较大。由判据的构造我们还可以初步了解运用这类判据的原则和方法。解运用这类判据的原则和方法。选择原则:选择原则:ii. ii. 计算简单,易于实现。计算简单,易于实现。iii. iii. 数学上容易处理。数学上容易处理。准则函数的递推计算问题准则函数的递推计算问题: :每增每增/ /减一个特征,只影响向量减一个特征,只影响向量中的一个元素,矩阵的一行和一列。中的一个元素,矩阵的一行和一列。i.
16、i. 实际分类问题需要,找与分类性能关系密切者。实际分类问题需要,找与分类性能关系密切者。基于几何距离的类可分离判据基于几何距离的类可分离判据基于基于概率分布的可分性概率分布的可分性判据判据考查两类分布密度之间的交叠程度考查两类分布密度之间的交叠程度基于基于概率分布的可分性概率分布的可分性判据判据32可用两类可用两类概密函数的重叠程度概密函数的重叠程度来度量可分性,来度量可分性,构造基于类概密的可分性判据。此处的所谓重叠构造基于类概密的可分性判据。此处的所谓重叠程度是指两个概密函数相似的程度。程度是指两个概密函数相似的程度。基于基于概率分布的可分性概率分布的可分性判据判据( (一一) ) BhattacharyyaBhattacharyya 判据判据( (J JB B) )受相关概念与应用的启发,我们可以构造受相关概念与应用的启发,我们可以构造B- -判判据,它的计算式为据,它的计算式为 W W xdxpxpJB 2121)()(ln 式中式中W W表示特征空间。表示特征空间。在最小误判概率准则下,误判在最小误判概率准则下,误判概率有概率有 BJPPeP exp)()()(21210