首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > PRML Pattern Recognition and Machine Learning 中文高清完整PDF版

PRML Pattern Recognition and Machine Learning 中文高清完整PDF版

  • 资源大小:10.92M
  • 上传时间:2021-07-11
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: 一般编程问题

资 源 简 介

纵观《PRML》(《Pattern Recognition and Machine Learning》),讲述解决问题的方法的只有20%不到的内容,而其余的内容都是在讲述怎样将问题解决得更好(精度更高)!模式识别逃不掉的一本书,还出了中文版!!314正则化最小平方1053.1.5多个输出3.2偏置-方差分解1083.3贝叶斯线性回归1113.3.1参数分布11133.2预测分布11333等价核1163.4贝叶斯模型比较丰·.1183.5证据近似1213.5.1计算证据函数1213.52最大化证据函数.1233.5.3参数的有效数量,.36固定基函数的局限性1263.7练习1264分类的线性模型41判别函数13141.1二分类13141.2多分类13241.3用于分类的最小平方方法414 Fisher线性判别函数.13541.5与最小平方的关系1374.1.6多分类的 Fisher判别函数13841.7感知器算法.1394.2概率生成式模型141421连续输入143422最大似然解144423离散特征146424指数族分布.1464.3概率判别式模型1474.3.1定基两数1474.32 logistic回归4.33迭代重加权最小平方149434多类 logistic回归43.5 probit回归1514.3.6标准链接函数1524.4拉普拉斯近似1544.41模型比较和BIC1554.5贝叶斯 logistic回归1564.5.1拉普拉斯近似1564.5.2预测分布15746练习1585神经网络16151前馈神经网络权空间对称性5.2网络训练.,,521参数最优化168522局部二次近似..16952.3使用梯度信息.170524梯度下降最优化5.3误差反向传播353.1误差函数导数的计算..172532一个简单的例子,.174533反向传播的效率17553.4 Jacobian矩阵17554 Hessian矩阵177541对角近似177542外积近似54.3 Hessian矩阵的逆矩阵丰·5444有限差,17954.5 Hessian矩阵的精确计算179546 Hessian矩阵的快速乘法1805.5神经网络的正则化,,,,,,5.5.1相容的高斯先验1835.52早停止,1855.5.3不变性1865.54切线传播1875.5.5用变换后的数据训练1895.56卷积神经网络1905.5.7软权值共享..19156混合密度网络19357贝叶斯神经网络19757.1后验参数分布.198572超参数最优化199573用于分类的贝叶斯神经网络,,,,,,,,,,,,,,.20058练习6核方法20661对偶表示20662构造核.....2076.3径向基函数网络21163.1 Nadaraya- Watson模型21264高斯过程64.1重新考虑线性回归问题21464.2用于回归的高斯过程216643学习超参数219644自动相关性确定220645用于分类的高斯过程2216.4拉普拉斯近似.,..,64.7与神经网络的联系2256.5练习7稀疏核机2287.1最大边缘分类器,,,,,,,711重叠类分布2317.1.2与 logistic回归的关系71.3多类SVM2367.14回归问题的SVM2377.1.5计算学习理论24072相关向量机.241721用于回归的RVM,..,,241722稀疏性分析244723RVM用于分类24773练习..2498图模型2518.1贝叶斯网络25181.1例子:多项式回归2538.1.2生成式模型8.1.3离散变量2558.14线性高斯模型.25782条件独立..,259821图的三个例子260822d划分2648.3马尔科夫随机场266831条件独立性质8.3.2分解性质2688.3.3例子:图像去噪,834与有向图的关系27184图模型中的推断274841链推断27484.2树277843因子图277844加和乘积算法27984.5最大加和算法285846般图的精确推断28984.7循环置信传播289848学习图结构2908.5练习2909混合模型和EM039.1K均值聚类2939.11图像分割与压缩2969.2混合高斯9.21最大似然299.22用于高斯混合模型的EM30093EM的另一种观点3039.3.1重新考察高斯混合模型3049.32与K均值的关系3059.33伯努利分布的混合3069.34贝叶斯线性回归的EM算法30994般形式的LM算法·9.5练习,,,31310近似推断31610.1变分推断3160.1.1分解概率分布31710.12分解近似的性质10.1.3例了:一元高斯分布..32110.14模型比较32410.2例子:高斯的变分混合32410.2.1变分分布32510.22变分下界32910.23预测概率密度,33010.24确定分量的数量10.25诱导分解10.3变分线性回归33210.3.1变分分布10.3.2预测分布33410.3.3下界33510.4指数族分布.,310.41变分信息传递33710.5局部变分方法丰·33710.6变分 logistic回归,,,34110.61变分后验概率分布34110.62最优化变分参数3410.6.3超参数的推断34410.7期望传播34610.71例子:聚类问题,,35010.7.2图的期望传播.35210.8练与11采样方法111某本采样算法3591111标准概率分布.3591112拒绝采样.361111.3可调节的拒绝采样3611.1.4重要采样1115采样重要性重采样365111.6采样与EM算法11.2马尔科夫链蒙特卡罗367112.1马尔科夫链.3681122Mlis-Hastings算法113吉布斯采样370114切片采样11.5混合蒙特卡罗算法11.5.1动态系统1152混合蒙特卡罗方法116佔计划分函数37811.7练习37912连续潜在变量121主成分分析1211最大方差形式38212.1.2最小误差形式383121.3PCA的应用.38512.14高维数据的PCA388122概率PCA3881221最大似然PCA3911222用」PCA的EM算法393122.3贝叶斯PCA3951224因子分析39723核PCA39912.4非线性隐含变量模型..4021241独立成分分析4021242自关联网络,40312.4.3对非线性流形建模405125练习13顺序数据410131马尔科夫模型41013.2隐马尔科夫模型41313.21用于HMM的最大似然法41713.2.2前向后向算法41813.23用于HMM的加和-乘积算法.4231324缩放因子,.,42513.2.5维特比算法..42613.2.5隐马尔科夫模型的扩展.427133线性动态系统43013.3.1LDS中的推断413.32LDS中的学习43413.3.3LDS的推广43613.3.4粒子滤波43713.4练习43814组合模型441141贝叶斯模型平均441142委员会,44214.3提升方法44314.3.1最小化指数误差44414.3.2提升方法的误差函数.446144基于树的模型44714.5条件混合模型44914.51线性回归模型的混合449146 logistic模型的混合,,14.6.1专家混合4547练习A附录A.数据集456∧.1手写数字456A.2石油流,456A.3老忠实间歇喷泉A4人工生成数据459B附录B.概率分布460B.1伯努利分布460B.2Beta分布400B3二项分布,,,,461B4狄利克雷分布461B.5amma分布402B.6高斯分布462B.7高斯- Gamma分布,,,,463B.8高斯- Wisher分布464B9多项式分布.464B.10正态分布464B.11学生t分布465B.12均匀分布46B.13 Von mises分布申465B.14 Wishart分布4667C附录C矩阵的性质467C.1矩阵的基本性质,,467C2迹和行列式,467C.3矩阵的导数468C4特征向量方程,,,,469D附录D.变分法472E附录E.拉格朗日乘数法47481绪论寻找数据中模式的问题是一个基本的问题,有着很长的很成功的历史。例如,16世纪TchoBrahe的大量的观测使得 Johannes Kepler发现行星运行的经验性规律,这反过来给经典力学的发展提供了跳板。类似地,原了光谱的规律的发现在20世纪初期对于量了力学的发展和证明有着重要的作用。模式识别领域关注的是利用计算机算法自动发现数据屮的规律,以及使用这些规律采取将数据分类等行动。考虑手写数字识别的例了,如图1.1所示。每个数字对应一个28×28像素的图像,因此可以表示为一个由784个实数组成的向量。目标是建立一个机器,能够以这样的向量x作为输入以数字0到9为输出。这不是一个简单的问题,囚为手写体变化多端。这个问题可以使用人工编写的规则解决,或者依据笔画的形状启发式地区分数字,但是实际中这样的方法导致了规则数量的激增,以及不符合规则的例外等等,并且始终给出较差的结果。使用机器学习的方法可以得到好得多的结果。这个方法中,一个由N个数字{x1,…,N}组成的大的集合被叫做训练集( training set),用来调节模型的参数。训练集中数宇的类别实现已知,通常是被独立考察、人工标注的。我们可以使用目标向量( target vector)t来表示数字的类别,它代表对应数字的标签。使用向量来表示类别的合适的技术将在后面讨论。注意对于每个数字图像c只有一个目标向量t。运行机器学习算法的结果可以被表示为一个函数(x),它以一个新的数字的图像c为输入,生向量y,与日标向量的形式相同。函数y()的精确形式在训练( training)阶段被确定,这个阶段也被称为学丬( learning)阶段,以训练数据为基础。一巳模型被训练岀来,它就能确定新的数字的图像集合中图像的标签。这些新的数字的图像集合组成了测试集( test sct)。正确分类与训练集不同的新样本的能力叫做泛化( generalization)。在实际应用中,输入向量的变化性是相当大的,以至」训练数据只所冇叮能的输入向量中相当小得一部分,所以泛化是模式识别的一个中心问题对于大部分实际应用,原始输入向量通常被预处理( pre-processed),变换到新的变量空间。人们期望在新的变量空间中模式识别问题可以更容易地被解决。例如,在数字识别的问题中,数字的图像通常被转化缩放,使得每个数字能够被包含到一个固定大小的盒了中。这极大地减少了每个数字类别的变化性,因为现在所有数字的位置和大小现在相同、这使得后续的区分不同类别的模式识别算法变得更加容易。这个狈处理阶段有时被叫做特征抽取( featureextraction)。注意新的測试集必须使用与训练集相同的方法进行预处理。为了加快计算速度,也可能进行预处理。例如,如果目标是高清视频屮得实时人脸检测,计算机每秒钟必须处理大量的像素。将这些像索直接传递给一个复杂的模式识屴算法在计算上是不可行的。相反,目标是找到可以快速计算的有用的特征,这些特征还能够保存有用的判别信息使得人脸和非人脸可以被区分开。这些特征之后被用作模式识别算法的输入。例如,一个矩形小区域内图像灰度的平灼值可以被快速计算( Viola and Jones,2014),并且一组这样的特征被证明在快速人脸检测中很有效。由于这样的特征的数量小于像素的数量、因此这种预处理代表了一种形式的维数降低。必须注意,由于在预处理阶段信息通常被遗弃,因此如果信息对于问题的解决很重要的话,系统整体的精度会下降。训练数据的样木包含输入向量以及对应的目标向量的应用叫做有监督学习( supervisedlearning)问题。数字识别就是这个间题的一个例子,它的目标是给每个输入向量分配到有限数b/2947S6图1.1:来自美国邮政编码的手写数字的例子量离散标签中的一个,被称为分类( classification)问题。如果要求的输出由一个或者多个连续变量组成,那么这个任务被称为回归( regression)。回归问题的一个例子是化学药品制造过程中产量的预测。在这个问题中,输入由反应物、温度、压力组成。在其他的模式识别问题中,训练数据由·组输入向量x组成,没有任何对应的目标值在这样的无监督学习( unsupervised learning)问题中,目标可能是发现数据刂相似样本的分组,这被称为聚类( clustering),或者决定输入窣间中数据的分布,这被称为密度估计( density estimation),或者把数据从高维空间投影到二维或者三维空间,为了数据可视化(visualization)最后、反馈学习( reinforcement learning)( Sutton and barto,1998)技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最大值。这里,学匀问题没冇给定最优输出的用例。这些用例必须在一系列的实验和错误中被发现。这与有监督学习相反。通常,有一个状态和动作的序列,其中学习算法与环境交互。在许多情况下,当前动作不仅影响直接的奖励,也对所有后续时刻的奖励有影响。例如,通过使用合适的反馈学习技术,个神经网络可以学会 back gammon游戏的玩法,并且玩得很好( Tesauro,1994)。这里神经网络必须学习把一大组位置信息、骰子投掷的结果作为输入,产生一个移动的方式作为输出。通过让神经网络自己和自己坑一百万局,这个目的就可以达到。一个主要的挑战是 backgammon游戏会涉及到相当多次的移动,但是只有在游戏结束的时候才能给出奖励(以胜利的形式)。奖励必须被合理地分配给所有引起胜利的移动步骤。这些移动中,有些移动很好,其他的移动不是那么好。这是信用分配( credit assignment)问题的一个例子。反馈学与的一个通用的特征是探索( exploration)和利用( exploitation)的折中。“探索”是指系统尝试新类型的动作,“利用”是指系统使用已知能产生较高奖励的动作。过分地集中于探索或者利用都会产生较差的结果。反馈学习继续是机器学习研究中得一个活跃的领域。然而,详细讨论反馈学习不在本书的范围内虽然这些任务中每个都需要自己的工具和技术,但是在这些任务肯后的许多关键思想都是相通的。本章的主要目标是以一种相对非正式的形式介绍最重要的概念,并且使用简单的例子来说明。稍后在本书中,我们将看到同样的思想以更加复杂的模型的形式重新出现,这些模型能够应用于真实世界中模式识别的应用中。本章也将介绍将自始至终在本书中使用的三个重要工具:概率论、決策论、信息论。虽然这些东西听起来让人感觉害怕,但是实际上它们非常直观。并且,在实际应用中,如果想让机器学习技术发挥最大作用的话,清楚地理解它们是必须的1.1例子:多项式曲线拟合我们以一个简单的回归问题开始。本章中,我们将以这个问题为例,说明许多关键的概念。假改我们观察到一个实值输入变量x,我们想使用这个观察来预测实值目标变量l的值。对于这个目的,一个很好的方法是考虑一个使用已知的产生方式人工制造出的例了,因为这样我们就知道生成数据的精确过程,从而能够和我们学习到得模型进行比较。这个例子的数据由函数sin(2π)产生,目标变量带有随机的噪声。详细的描述见附录A。现在假设给定一个训练集。这个训练集由的N次观测组成,写作x=(x1,…,xN),伴随这对应的的观测值,记作t二(t1,…,tx)。图1.2展示了由N=10个数据点组成的图像。图12中的输入数据集合x通过选择n(-1,,N)的值来生成。这些xn均匀分布在区间0,1,目标数据集t的获得方式是:首先计算函数sin(2πx)的对应的值,然后给每个点增加一个小的符合高斯分布的随机噪声(高斯分布将在1.24节讨论),从而得到对应的t的值。通过使用这种方式产生数据,我们利用了许多真实数据集合的一个性质,即它们拥有一个内在的规律,这个规律是我们想要学习的,但是独自的观察被随机噪声干扰。这种噪声可能由·个本质上随机的过程六生,例如放射性衰变。但是更典型的情况是由于存在没有被观察到的具有变化性的噪声源。我们的日标是利用这个训练集预测对于输入变量的新值π的日标变量的值t。正如我们将要看到的那样,这涉及到隐式地发现内在的函数sin(2x)。这本质上是个困难的问题,因为我们不得不从有限的数据中生成。并且观察到得数捃被噪声干扰,因此对于一个给定的,合适的t值具有不确定性。概率论(在1.2节讨论)提供了一个框架,用来以精确的籹学的形式描述这种不确定性。决策论(在1.5节讨论)让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。
VIP VIP
0.258765s