数据分析
-
在数据处理过程中,对于缺失特征的样本如何进行处理?
1)均值,中值,最大最小值等来填充数据 2)根据经验值补全数据 3)通过相关计算得到缺失值 4)样本数量足够,则可以直接删除有缺失值的样本
-
如何避免数据不平衡?
1)bootstrap(重采样)--->上采样和下采样 2)数据合成-->利用已有样本生成更多样本 3)加权
-
文本数据处理的方式有哪些,以及这些处理方式有什么区别
1) 词袋法(BOW/TF)\词集法(SOW) ---不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW) 2) TF-IDF ...
-
什么是交叉验证?交叉验证的作用是什么?
交叉验证就是将原始数据集(dataset)划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果. 作用: 1)交叉验证是用来评估模型在新的数据集上的预测效...
-
如何避免欠拟合问题?
1.增加样本的数量 2.增加样本特征的个数 3.可以进行特征维度扩展
-
什么是机器学习的欠拟合?
所谓欠拟合就是模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好.
-
如何避免过拟合问题?
1. 重采样bootstrap 2. L1,l2正则化 3. 决策树的剪枝操作 4. 交叉验证
-
判别式模型和生成式模型的区别?
判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。 生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件...
-
什么时候使用归一化/标准化
如果对输出结果范围要求,用归一化;如果数据较为稳定,不存在极端的最大最小值,用归一化;如果存在噪音和异常值,可以使用标准化处理。归一化和标准化的而区别在于,归一化是统一到一定的区间...
-
lightgbm和xgboost有什么区别?他们的loss一样么? 算法层面有什么区别?
lightgbm:基于Histogram的决策树算法;Leaf-wise的叶子生长策略;Cache命中率优化;直接支持类别特征(categorical Feature) xgboo...
-
xgboost怎幺处理缺失值?
xgboost处理缺失值的方法和其他树模型不同。xgboost把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失,选择...
-
随机森林如何评估特征重要性
随机森林中进行特征重要性的评估思想为: 判断每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数...
-
为什么GBDT只能由回归树组成?
因为GBDT是加法模型,主要是利用残差逼近的方式,这就意味每棵树的值是连续的可叠加的,这一点和回归树输出连续值不谋而合,如果采用分类树,那么残差逼近进行叠加就会使得这种叠加没有意义...
-
特征选择基本原则
数据预处理完成之后,我们需要选择有意义的特征,输入机器学习的算法和模型进行训练,通常来说,从两个方面考虑来选择特征 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本...