特征工程——独热编码 序到目前为止,我们一直假设数据是由浮点数组成的二维数组,其中每一列是描述数据点的连续特征。对于许多应用而言,数据的收集方式并不是这样。一种特别常见的特征类型就是分类特征,也叫离散特征。这种特征通常并不是数值。分类特征与连续特征之间的区别类似于分类和回归之间的区别,只是前者在输入端而不是输出端。其实,无论你的数据包含哪种类型的特征,数据表示方式都会对机器学习模型的性能产生巨大影响。譬如说我们之前讲过 2021-09-12 机器学习 特征工程 独热编码 虚拟变量 独热编码 文本数据 分类变量
金字塔(附录)-外展推理 在无结构情况下解决问题的方法前面提到的”界定问题”把解决问题描绘成一个不断进行逻辑分析的过程,目的是发现并展示导致非期望结果的内在结构.如果问题是我们不喜欢该结构造成的结果,解决方案就是调整结构. 当然,有的时候,我们无法解释问题,发生这种情况的原因有3个: 造成非期望结果的结构根本不存在,比如你要发明一件新东西时. 结构无形,如空气或者是wifi等,只能分析其结果. 结构不能解释结果,比如无论 2021-09-12 金字塔思维 推理逻辑 附录 读书笔记 内化笔记 外展推理
无监督学习——聚类评估 序在用聚类算法时,其挑战之一就是很难评估一个算法的效果好坏,也很难比较不同算法的结果.在讨论完k均值,凝聚聚类和DBSCAN背后的算法之后,下面我们来说一下如何对聚类进行评估. 用真实值评估聚类有一些指标可用于评估聚类算法相对于真实聚类的结果,其中最重要的是调整rand指数和归一化互信息。二者都给出了定量的度量,其最佳值为1,0表示不相关的聚类(虽然ARI可以取负值)。 下面我们使用ARI来比较k 2021-09-12 机器学习 无监督学习 聚类评估 DBSCAN K均值 凝聚聚类 聚类评估
无监督学习——DBSCAN 序与之前提到的凝聚聚类,K均值聚类类似,DBSCAN也是一个非常有用的聚类算法。它的主要优点是它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。 接下来,我“简单”地介绍一下算法的原理(PS:大概看一下就好)。 算法原理DBSCAN的全称是具有噪声的基于密度的空间聚类应用。顾名思义,DBSCAN 2021-09-12 机器学习 无监督学习 DBSCAN 聚类 DBSCAN
金字塔(九)-结构化分析问题 结构化分析问题一般分析问题的流程如下所示: 信息资料 描述发现 得出结论 提出解决方案 从上述步骤来看,分析问题的起点要从收集信息资料开始。因此,最省脑筋的做法就是尽可能多的,尽可能详细的收集资料。可以预见的是,直接分析大量的资料会很麻烦(主要是显得并不聪明)。实际上,我们可以用一些辅助手段来节省精力,譬如诊断图,树状图等。中规中矩地顺着流程走是没有问题的,但是没有谁会拒绝省力吧。不过,为了显 2021-09-12 金字塔思维 解决问题的逻辑 第九章 读书笔记 内化笔记 结构化分析问题 逻辑树 诊断框架
金字塔(八)-界定问题 界定问题大多数商务文章的目的都是为了解决问题,那么如何判断问题是否存在呢?要想知道是否存在问题,就是要清楚通过努力得到的结果(正常发展)或者说是现状,与想要完成的目标或者说是期望之间是否存在差距。而“问题”就是导致这个差距存在的“罪魁祸首”。 本章主要介绍界定问题方面的内容。 界定问题的框架刚才提到了判断问题需要从两个因素入手,一个是现状(R1),一个是期望(R2)。实际上,问题往往是有悖于正常流 2021-09-12 金字塔思维 解决问题的逻辑 第八章 读书笔记 内化笔记 界定问题
金字塔(七)-概括各组思想 序这篇文章主要讲一下金字塔原理的第一原则:金字塔结构中的每一层思想都是下一层思想的精炼,概括,总结.而之所以这么说,便是因为每一层思想都是来源于下一层,同时每一层思想也都为上一层思想提供支持. 不过,无论是写文章,还是生活中的其它事务,概括总结都并不是一件容易的事情,所以人们也很少愿意在这方面去费脑筋.因此,我们在阅读文章的时候,常常能看到作者的”敷衍了事”: 公司遇到的三个问题. 整个流程的四 2021-09-12 金字塔思维 思考的逻辑 第七章 读书笔记 内化笔记 概括总结
无监督学习——凝聚聚类 序凝聚聚类指的是许多基于相同原则构建的聚类算法,这一原则是:算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止规则为止。scikit-learn中实现的停止规则是簇的个数,因此相似的簇被合并,直到仅剩下指定个数的簇。还有一些链接准则,规定如何度量”最相似的簇“。这种度量总是定义在两个现有的簇之间。 scikit-learn中实现了以下三种选项:ward:默认选项。ward挑选两 2021-08-15 机器学习 无监督学习 凝聚聚类 聚类可视化 层次聚类
无监督学习——K均值聚类(下) 序之前我们讲了聚类中比较常用的K均值算法,包括原理,相关参数以及实际操作。那么本篇文章,我们来讲一下更复杂一点的内容,即K均值,PCA与NMF之间的比较。希望大家在阅读下面的内容之前,已经了解了K均值,PCA与NMF算法的基础知识。 如果不清楚的话,可以点击下面的链接,来简单阅读下:K均值:无监督学习——K均值聚类(上)PCA:主成分分析(PCA)应用(上);主成分分析(PCA)应用(下)NMF: 2021-08-15 机器学习 无监督学习 K均值聚类 人脸识别 图像聚类 PCA与NMF