岭回归 基本概念正则化 正则化是指对模型做显式约束,以避免过拟合。本文用到的岭回归就是L2正则化。(从数学的观点来看,岭回归惩罚了系数的L2范数或w的欧式长度) 正则化的具体原理就不在这里多叙述了,感兴趣的朋友可以看一下这篇文章:机器学习中正则化项L1和L2的直观理解。 算法简介岭回归 岭回归也是一种用于回归的线性模型,因此它的模型公式与最小二乘法的相同,如下式所示: y=w[0]x[0]+w[1]x[ 2021-06-15 机器学习 监督学习 线性模型 python 回归模型 L2正则化
决策树算法-单棵树(下) 序在上篇的文章决策树算法之讲解实操(上)当中,我们主要了解了决策树的算法原理,实际应用,以及简单介绍了下决策树的复杂度参数。而这篇我们主要讲解决策树的分析可视化,特征值重要程度,以及讨论回归决策树。 决策树的分析与可视化树的可视化有助于深入理解算法是如何进行预测的,也是易于向非专家解释的机器学习算法的优秀示例。我们可以利用tree模块的export_graphviz函数来将树可视化。这个函数会生成 2021-06-15 机器学习 监督学习 决策树 python 单棵树
决策树算法-单棵树(上) 序这次讲解机器学习里面非常经典的一个算法模型——分类树。由于篇幅比较长,所以特分为上下两篇讲解。本篇主要讲解决策树的原理,实际应用以及参数。 算法介绍1.分类树原理 决策树是广泛应用于分类和回归任务的模型。本质上,它从一层层的if/else问题中进行学习,并得出结论。 想像一下,你想要区分下面四种动物:熊,鹰,企鹅和海豚。你的目标是通过提出尽可能少的if/else问题来得到正确答案。而这个提问过程 2021-06-15 机器学习 监督学习 决策树 python 单棵树
决策树集成-随机森林 基础概念集成 集成是合并多个机器学习模型来构建更强大模型的方法。在机器学习算法中有许多模型属于这一类,但已证明有两种集成模型对大量分类和回归的数据集都是有效的,二者都以决策树为基础,分别是随机森林(random forest)和梯度提升决策树决策(gradiet boosted decision tree)。 本片文章先讲解一下随机森林。在了解随机森林之前建议先去看一下我的另外两篇讲解决策树的文章 2021-06-15 机器学习 监督学习 决策树集成 python 随机森林
分类器不确定度估计,监督学习算法小结 序我们之前用到的所有机器学习的算法均来自于scikit—learn库,但是这个接口还有另一个用处,就是能够给出分类器预测结果的不确定性估计。有的时候,我们不仅要关心一个测试数据点究竟属于哪个类别,还要考虑这个预测的置信区间。譬如,在最近新冠疫情中出现的无症状感染,如果是假阳性预测,那么可能只会让患者接受额外的测试,但是如果是假阴性感染却有可能导致患者没有得到治疗。(机器学习的大部分算法均是建立在概 2021-06-15 机器学习 监督学习 分类器不确定度估计 python 算法小结
LogisticRegression算法 基本概念先简单介绍一下机器学习里面的两个概念 1.损失函数 损失函数是机器学习里最基础也是最为关键的一个要素,它的作用就是衡量模型预测的好坏。我们举个简单地例子来说明这个函数: 假设我们对一家公司的销售情况进行建模,分别得出了实际模型和预测模型,这两者之间的差距就是损失函数,可以用绝对损失函数来表示: L(Y-f(X))=|Y-f(X)|——公式Y-实际Y的绝对值 对于不同的模型,损失函数也不尽相 2021-06-15 机器学习 监督学习 线性模型 分类模型 python
lasso回归算法 基本概念正则化 正则化是指对模型做显式约束,以避免过拟合。本文用到的lasso回归就是L1正则化。(从数学的观点来看,lasso惩罚了系数向量的L1范数,换句话说,就是系数的绝对值之和。) 正则化的具体原理就不在这里多叙述了,感兴趣的朋友可以看一下这篇文章:机器学习中正则化项L1和L2的直观理解。 算法简介lasso回归 在了解lasso回归之前,建议朋友们先对普通最小二乘法和岭回归做一些了解,可 2021-06-15 机器学习 监督学习 线性模型 python 回归模型 L1正则化
k临近算法-回归 基本概念先简单介绍一下机器学习里面的两个概念 1.分类与回归 分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。 一般来说,回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。 分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的 2021-06-15 机器学习 监督学习 k邻近 python 回归模型
k邻近算法-分类 算法简介k邻近算法是最简单的算法之一,该算法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。该算法主要用于解决分类问题,无论是二分类或者是多分类都可以应用。本文主要记录实际操作,想了解具体的算法原理可以自己查找,或者可以参考这篇博客:KNN原理小结 数据来源玻璃分类(Kaggle):https://www.kaggle.c 2021-06-15 机器学习 监督学习 k邻近 分类模型 python
博客搭建 博客搭建目前网络上有两种主流的搭建方法,一个是jekyll+github,另一个是hexo+github,这两种框架均是利用静态网页编辑器将生成的静态网页上传到github上,从而实现网页展示,跳转等功能. 本网站是采用hexo+github的方法搭建的,过程很简单,哪怕是完全不懂java,js的小白也可以轻松搭建出来.网络上有很多关于利用hexo搭建博客的文章,譬如:搭建GitHub免费个人网站 2021-06-14 博客搭建 博客搭建 注意事项