数据分析
-
交叉检验如何用在时间序列数据上?
与标准的k-folds 交叉检验不同,数据不是随机分布的,而是具有时序性的。如果模式出现在后期,模型仍然需要选择先前时间的数据,尽管前期对模式无影响。我们可以如下这么做: fold...
-
生成模型与判别模型有什么区别?
生成模型会学习数据的分布;判别模型学习的是不同类型数据之间的区别,不学习数据内部特点。在分类问题上,判别模型会优于生成模型。 判别模型求解的思路是:条件分布------>模型参数后...
-
什么是傅立叶变换?
傅立叶变换指:一个满足某些条件的函数可以表示成三角函数或他们的积分形式的线性组合。
-
概率和似然有什么区别?
概率和似然都是指可能性,但在统计学中,概率和似然有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一...
-
第一类误差和第二类误差有什么区别?
第一类误差指的是假正率,第二类指的是假负率。简单来说,第一类误差意味着假设为真的情况下,作出了拒绝原假设的一种错误推断。第二类误差意味着假设为假的情况下,做出了接受原假设的一种错误...
-
你最喜欢的算法是什么?把它解释一下。
这里我比较想说的是SVM,因为它的数学理论让我觉得很有意思,而且应用广泛,效果不错。先从线性可分讲起,然后是最大间隔原理。什么是支持向量?如何进行常数估计。转化成优化问题,对偶问题...
-
L1、L2正则之间有什么不同?
L2正则 对应的是加入2范数,使得对权重进行衰减,从而达到惩罚损失函数的目的,防止模型过拟合。保留显著减小损失函数方向上的权重,而对于那些对函数值影响不大的权重使其衰减接近于0。相...
-
为什么我们要称“朴素“贝叶斯?
因为我们在用到它的时候,有一个很强的假设,现实数据中几乎不会出现的:我们假设特征之间是相互独立,也就是我们计算条件概率时可以简化成它的组件的条件概率乘积。
-
监督学习和非监督学习有什么不同?
监督学习需要具有标签(label)的训练数据,比如做分类,你需要先对训练数据做标记,然后才能训练模型将数据分成你说需要的标记类。 而非监督学习则不需要。
-
KNN和k-means聚类由什么不同?
k-Nearest Neighbors 是一种监督学习算法,而k-means 是非监督的。这两种算法看起来很相似,都需要计算样本之间的距离。knn算法需要事先已有标注好的数据,当你...
-
什么是偏倚(bias)、方差(variable)均衡?
偏倚指的是模型预测值与真实值的差异,是由使用的学习算法的某些错误或过于简单的假设造成的误差。它会导致模型欠拟合,很难有高的预测准确率。 方差指的是不同训练数据训练的模型的预测值之间...
-
以下哪种方法不属于特征选择的标准方法
A 嵌入 B 过滤 C 包装 D 抽样 选D
-
下面哪种不属于数据预处理的方法?
A变量代换 B离散化 C 聚集 D 估计遗漏值 选D