《2023人工智能机器算法概率模型学习.docx》由会员分享,可在线阅读,更多相关《2023人工智能机器算法概率模型学习.docx(40页珍藏版)》请在优知文库上搜索。
1、人工智能机器算法概率模型学习目录1.1 统计学习31.2 完全数据学习8121最大似然参数学习:离散模型81.2.2 朴素贝叶斯模型111.2.3 生成模型和判别模型131.2.4 最大似然参数学习:连续模型131.2.5 贝叶斯参数学习151.2.6 贝叶斯线性回归19127贝叶斯网络结构学习221.2.8非参数模型密度估计24L3隐变量学习:EM算法271.3.1 无监督聚类:学习混合高斯281.3.2 学习带隐变量的贝叶斯网络参数值31133学习隐马尔可夫模型351.3.4 EM算法的一般形式361.3.5 学习带隐变量的贝叶斯网络结构37小结39在本文中,我们将学习视为一种从观测中进行
2、不确定的推理的形式,并设计模型来表示不确定的世界。我们在第12章中指出,现实环境中的不确定性是普遍存在的。智能体可以利用概率论和决策论的方法来处理不确定性,但它们首先必须从经验中学习到关于世界的概率理论。本文将通过学习任务表述为概率推断过程(20.1节)的方式解释它们如何做到这一点。我们将看到贝叶斯观点下的学习是非常强大的,它为噪声、过拟合和最优预测问题提供了通用的解决方案。本文还考虑这样一个事实:一个非全知全能的智能体永远不可能确定哪种描述世界的理论是正确的,但它仍然需要选择一种理论来进行决策。1.1统计学习本文的核心概念与第19章的一样,是数据和假设。在这里,数据可以看作证据描述相关领域的
3、一部分随机变量或所有随机变量的实例;假设是关于相关领域如何运作的一些概率理论,逻辑理论是其中的一个特例。考虑一个简单的例子。我们喜欢的某款惊喜糖果有两种口味:樱桃味(好吃)和酸橙味(难吃)。糖果的制造商有一种特殊的幽默感-它对两种口味的糖果采用同样的包装。这些糖果统一分装在同样包装的大糖果袋里进行售卖,因此我们无法从袋子的外观上辨别袋中的糖果口味,只知道它们有5种可能的组合方式:历:100%樱桃味h2:75%樱桃味+25%酸橙味h3:50%樱桃味+50%酸橙味h425%樱桃味+75%酸橙味/15:100%酸橙味给定一袋未拆袋的糖果,用随机变量”(以代表假设)表示糖果袋的类型,其可能的值为从阳至
4、5。当然,H不能被直接观测到。但随着袋中的糖果逐颗被打开与辨认,越来越多的数据也逐渐被揭示我们记为其中每个Q是一个随机变量,其可能的值为cherry(樱桃味)或Iime(酸橙味)。智能体要完成的基本任务是预测下一块糖果的口味。山尽管从表面上看这个情景很简单,但它还是引出了许多重要的问题。智能体确实需要推断出一个关于其所在“世界”的理论,尽管这个问题中的理论很简单。1.U有一定统计学基础的读者可以发现该情境是瓮与球(um-and-ball)情形的一个变种。我们发现相比瓮与球,糖果更容易令人理解与信服。贝叶斯学习(Bayesianlearning)是指基于给定的数据计算每个假设发生的概率,并在此基
5、础上进行预测。也就是说,这个预测是通过对所有假设按概率加权求和所得的,而不是仅仅使用了单个“最佳”假设。通过这种方法,学习就可以归约为概率推断。令。代表所有的数据,其观测值为九贝叶斯方法中的关键量是假设先验Psi)和在每个假设下数据的似然31儿)每个假设的概率可以通过贝叶斯法则得到P(hid)=aP(dIl)P()(20-1)现在,假定我们想要对一个未知量X做出预测,那么我们有P(Xm)=EP(Xm)PS (20-2)其中每一个假设都参与决定了X的分布。这个式子说明预测是通过对每个假设的预测进行加权平均得到的,其中根据式(20-1)可知,权重Pej与假设%的先验概率以及它与数据的拟合程度成正比
6、。从本质上说,假设本身是原始数据与预测之间的一个“中间人”。对于上述糖果示例,我们暂定假设力,.,佐的先验分布为01,020.4,0.2,0.1),正如制造商在广告中宣传的那样。那么在观测是独立同分布(见19.4节)的假定下,数据的似然可以按如下方式计算:Pmm)=尸也)/(20-3)举个例子来说,假定一个糖果袋是一个全为酸橙糖果的糖果袋(%),并且前10颗糖果均为酸橙味,因为在心糖果袋中只有一半的糖果为酸橙味,所以PI必)将为05。图20-Ia给出了5种假设的后验概率随着10颗酸橙味糖果逐颗被观测的变化过程。注意,每个概率是以它们的先验概率值作为出发点,因此/23是初始状态下可能性最大的选择
7、,在观测到1颗酸橙味糖果后也是如此。在打开2颗酸橙味糖果后,鱼是可能性最大的。打开3颗后,A5(可怕的全酸橙糖果袋)是可能性最大的。连续10次之后,我们认命了。图20-Ib表示我们对下一颗糖果为酸橙味的概率预测,它基于式(20-2)o正如我们所料,它单调递增,并渐近于1。121我们事先说明过糖果袋中的糖果数目非常多;否则,独立同分布的假设将不成立。严格来说更为正确(但是更不卫生)的做法是在分辨出糖果口味后重新包装糖果并放回袋中。观测d的数所圣窣匚u_ _ 一 9 8 7 SaaI 6 5 O.asws逑w 京 GI 工(a)(b.)图20l(a)根据式(20-1)得到的后验概率Pmj4,,4观
8、测数量N为I10,且每一个观测都是酸橙味的糖果。(b)基于式(20-2)的贝叶斯预测P(DNX=Hme:4,,dj这个例子表明,贝叶斯预测最终会与真实的假设吻合。这是贝叶斯学习的一个特点。对于任何固定的先验,如果它没有将真实的假设排除在外,那么在一定的技术条件下,错误假设的后验概率最终会消失。有这样的结果仅仅是因为无限地生成“反常的”数据的概率非常小。(这一点类似于第19章中关于PAC学习的讨论。)更重要的是,无论数据集大小,贝叶斯预测都是最优的。给定了假设先验之后,任何其他预测都不太可能正确。当然,贝叶斯学习的最优性是有代价的。对于真实的学习问题,如我们在第19章中所见,假设空间通常非常大或
9、无限大。在某些情况下,式(20-2)中的求和(或连续情况下的积分)可以容易地计算,但在大多数情况下,我们必须采用近似或简化的方法。一种常见的近似方法(在科学研究中经常采用的)是,基于单个可能性最大的假设使常仇据大化的进行预测。这样的假设通常被称为最大后验(maximumaposteriori,MAP)假设。从产(Xlrf)P(XAAP)的意义上来说,由MAP假设%”所做出的预测近似于贝叶斯方法所做出的预测。在我们的糖果例子中,在连续3次观测到酸橙糖之后有MAP=%5,因此MAP学习器预测第四颗糖果是酸橙糖的概率为1。这比图20-Ib所示的贝叶斯预测概率0.8更有风险。随着数据量越来越多,MAP
10、预测和贝叶斯预测将变得越来越接近,因为与MAP假设竞争的其他假设的可能性越来越低。找到MAP假设通常比贝叶斯学习更简单(尽管在这个例子中没有体现),因为它仅要求求解一个优化问题,而不是一个大规模求和或积分的问题。在贝叶斯学习和MAP学习中,假设先验P(4)都起着重要的作用。我们在第19章中看到,当假设空间表达能力过强时,也就是说,当它包含许多与数据集高度一致的假设时,可能会出现过拟合。贝叶斯学习和MAP学习利用先验知识来约束假设的复杂性。通常情况下,越复杂的假设对应的先验概率越低,其中部分原因是它们数量太多了。但是,越复杂的假设拟合数据的能力越强。(一个极端的例子是,查表法可以精确地拟合数据。
11、)因此,假设的先验体现了假设的复杂性与其数据拟合程度之间的权衡。在逻辑函数的情况下,即“只包含确定性的假设(例如/表示所有的糖果都是樱桃味),我们可以更清楚地看到这种权衡的效果。在这种情况下,如果假设用是一致的,邮则为1,否则为0。此时注意式(20-1),我们发现既必尸将是与数据一致的最简单的逻辑理论。因此,最大后验学习自然体现了奥卡姆剃刀。另一个看待复杂性和拟合程度之间权衡的观点通过对式(20-1)的两边取对数体现。此时,选择使PI幻P仇)最大化的72MAP等价于最小化下式:-IofeP(dIl)-log,P(hh利用我们在19.3.3节中介绍的信息编码和概率之间的联系,我们可以看至卜1。即
12、P仇)等于说明假设用所需的位数。此外,ToeP(dM)是给定假设时说明数据所需的额外位数。(为了更好理解,我们可以考虑,如果假设确切地预测了数据,就好像假设为后和一连串出现的酸橙味糖果一样,那么此时我们不需要任何额外位数,贝MogJ=0。)因此,MAP学习所选择的是能最大程度压缩数据的假设。同样的任务可以通过称为最小描述长度(MDL)的学习方法更直接地阐述。MAP学习通过给更简单的假设赋予更高的概率来体现其简单性,而MDL则通过计算假设和数据在二进制编码中的位数来直接体现简单性。最后一个简化是通过假定假设空间具有均匀先验分布得出的。在这种情况下,MAP学习被简化为选择一个使PaI外最大的团。这
13、就是所谓的最大似然(maximum-likelihood)假设,Amlo最大似然学习在统计学中非常常用,是许多不相信假设先验主观性质的研究者所使用的准则。当没有理由采用某个先验或倾向于某个假设(例如所有的假设都同样复杂)时,最大似然是一个合理的方法。当数据集很大时,假设的先验分布就不那么重要了,因为来自数据的证据足够强大,足以淹没假设的先验分布。这意味着在大数据集的情况下,最大似然学习是贝叶斯学习和MAP学习的一个很好的近似,但在小数据集上可能会出现问题(我们将在后面看到)。1.2完全数据学习假设我们要学习一个概率模型,给定数据是从该概率模型生成的,那么学习这个概率模型的一般性任务被称为密度估
14、计(densityestimation)0(密度估计最初用于连续变量的概率密度函数,但现在也用于离散分布。)密度估计是一种无监督学习。本节将介绍其最简单的情形,即拥有完全数据的情形。当每个数据点包含所学习的概率模型的每个变量的值时,我们称数据是完全的。对于结构固定的概率模型,我们注重于参数学习(parameterlearning),即寻找其参数数值。例如,我们可能对学习具有给定结构的贝叶斯网络中的条件概率感兴趣。我们还将简要地探讨结构学习和非参数密度估计问题。1.2.1 最大似然参数学习:离散模型假设我们从一个新的生产商手中买入了一袋可能含有樱桃味和酸橙味糖果的糖果袋,其中糖果口味的比例完全未
15、知。樱桃味糖果所占的比例可以是0和1之间的任意一个数。在这种情形下,我们将有一个连续的假设集。这种情况下的参数记为仇表示樱桃味糖果所占的比例,其对应的假设为心。(此时酸橙味糖果所占的比例恰好为1-仇)如果我们假设所有的比例有相同的先验可能性,那么采用最大似然估计是合理的。如果我们使用一个贝叶斯网络对这种情境建模,则只需要一个随机变量一力次(对应于从袋中随机选取一颗糖果的口味),它的值为Cherry或者Iime,其中CheiTy的概率为。(见图20-2a)。现在假设我们已经打开了N颗糖果,其中有C颗为樱桃味,=乂颗为酸橙味。根据式(20-3),该特定数据集的似然为PW也)=11p(4也)=为。4片1最大似然假设所需的参数即为使得上式最大化的参数仇由于Iog函数是单调函数,我们可以通过最大化对数似然(loglikelihood)来得到同一个参数值:N1.(dIh)=logP(h)=XlogP(ty)=clog。+2log(l-)7三1(通过取对数,我们把数据乘积归约为数据求和,通常这更易于我们将其最大化。)为寻找使得似然最大的仇我们对L关于龌行微分并令其微分结果为0:dL(dh0)cZdf).0-0那么最大似然假设力ML将断言,糖果袋中樱桃口味的真实比例是到目前为止所打开观测到的糖果中樱桃口味的占比!从表面