钱爽's Blog

每一次不一样都来自一个勇敢的开始

07.0 朴素贝叶斯

算法原理 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类算法。首先假设特征与特征之间互相独立,然后利用贝叶斯定理求出后验概率最大的输出y。 其中,P(B)是类先验概率,P(A|B)是样本A相对于类标记B的类条件概率,P(A)是用于归一化的证据因子,表示我从无数样本中得到这个训练样本的概率,是一个定值,所以我们只需要求出P(A|B)即可。 由于P(A|B) =...

06.0 xgboost

算法原理 xgboost(eXtreme Gradient Boosting)是Gradient Boosting算法的高效实现,是GBDT的改造和优化版本,GBDT使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成附加基学习器,xgboost不仅使用到了一阶导数,还使用二阶导数。 上图中的红色箭头指向的l即为损失函数;红色方框为正则项,包括L1、L2;红色圆圈为...

05.0 GBDT

算法原理 再讲GBDT之前先给大家讲个故事,有一个年轻的阿姨今年50岁,现在我们不知道她的真实年龄,我们想通过他的皮肤、穿着打扮、头发颜色、言行举止、面部特征来推测她的真实年龄,假如我们根据这些输入特征首先猜测她今年40岁,然后计算拟合残差为50-40=10,与真实年龄偏差了10岁。这时我们还是以他的皮肤、穿着打扮、头发颜色、言行举止、面部特征作为输入,以拟合残差10作为我们要预测的值,我...

04.0 AdaBoost

算法原理 AdaBoost(Adaptive Boosting)自适应Boosting算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost算法本身是通过改变数据分布(样本权重和分类器权重)来实现的,它根据每次训练过程中,每个样本的分类结果是否正确来确定样本输入到下一分类器的权重,然后根据上一分类器...

03.0 随机森林

算法原理 集成学习(ensemble leaning)通过构建并结合多个学习器来完成学习任务,通过将多个学习器结合,常常可以获得比单一学习器显著优越的效果和泛化能力。集成学习中的基学习器可以是同质的,也可以是异质的。根据个体学习器的生成方式,目前的集成学习方法大致可分为三大类:一类是Bagging,个体学习器之间不存在强依赖关系,可以同时并行化训练和生成,最终结果通常通过投票机制产出,随机...

02.0 决策树

算法原理 决策树(Decision Tree),可以认为是if-then规则的集合,其主要优点是模型具有可读性,分类速度快。决策树学习通常包括3个步骤:特征选择、决策树的生成、决策树的修剪。 决策树的学习是一个递归的选择最优特征,然后根据该特征对训练数据进行分割的过程。为避免过拟合,还需要对生成的决策树进行剪枝。 信息增益大的特征具有更强的分类能力,信息增益的计算公式如下:g(D,A)...

01.0 K近邻算法

算法原理 k近邻(k-Nearest Neighbor,kNN),应该是最简单的传统机器学习模型,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例中的大多数属于哪个类别,就把该输入实例划分到这个类别。 k近邻算法没有显示的训练过程,在“训练阶段”仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后在进行计算处理。 这个k实际上是一个超参数...

00.0 AI系列分享概述及目录

概述 本系列分享的全部内容包括《机器学习》和《深度学习》两大部分,内容覆盖到机器学习和深度学习的方方面面,除了会循序渐进由易到难的介绍算法模型的原理和理论,主要还会介绍模型的实现和训练,以及模型的上线和调优。最重要的是会结合工业应用中的实际案例,让大家明白各种算法模型到底是如何在实际工作中落地和产出价值的。 我们会深入讲解机器学习深度学习在自然语言处理、计算机视觉、语音识别等三个领域的典...

1 2 3 4 5 6 7

返回顶部