数据分析归档 - 第8页共13页

数据分析

在数据处理过程中，对于缺失特征的样本如何进行处理？

1)均值,中值,最大最小值等来填充数据 2)根据经验值补全数据 3)通过相关计算得到缺失值 4)样本数量足够,则可以直接删除有缺失值的样本

2023年11月30日 0 0 75 0

数据分析

如何避免数据不平衡？

1)bootstrap(重采样)--->上采样和下采样 2)数据合成-->利用已有样本生成更多样本 3)加权

2023年11月30日 0 0 71 0

数据分析

文本数据处理的方式有哪些，以及这些处理方式有什么区别

1) 词袋法(BOW/TF)\词集法(SOW) ---不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW) 2) TF-IDF ...

2023年11月30日 0 0 68 0

数据分析

什么是交叉验证？交叉验证的作用是什么？

交叉验证就是将原始数据集(dataset)划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果. 作用: 1）交叉验证是用来评估模型在新的数据集上的预测效...

2023年11月30日 0 0 68 0

数据分析

如何避免欠拟合问题？

1.增加样本的数量 2.增加样本特征的个数 3.可以进行特征维度扩展

2023年11月30日 0 0 66 0

数据分析

什么是机器学习的欠拟合？

所谓欠拟合就是模型复杂度低或者数据集太小,对模型数据的拟合程度不高,因此模型在训练集上的效果就不好.

2023年11月30日 0 0 62 0

数据分析

如何避免过拟合问题？

1. 重采样bootstrap 2. L1,l2正则化 3. 决策树的剪枝操作 4. 交叉验证

2023年11月30日 0 0 71 0

数据分析

判别式模型和生成式模型的区别？

判别方法：由数据直接学习决策函数 Y = f（X），或者由条件分布概率 P（Y|X）作为预测模型，即判别模型。生成方法：由数据学习联合概率密度分布函数 P（X,Y）,然后求出条件...

2023年11月30日 0 0 64 0

数据分析

什么时候使用归一化/标准化

如果对输出结果范围要求，用归一化；如果数据较为稳定，不存在极端的最大最小值，用归一化；如果存在噪音和异常值，可以使用标准化处理。归一化和标准化的而区别在于，归一化是统一到一定的区间...

2023年11月30日 0 0 74 0

数据分析

lightgbm和xgboost有什么区别？他们的loss一样么？算法层面有什么区别？

lightgbm:基于Histogram的决策树算法；Leaf-wise的叶子生长策略；Cache命中率优化；直接支持类别特征（categorical Feature） xgboo...

2023年11月30日 0 0 80 0

数据分析

xgboost怎幺处理缺失值?

xgboost处理缺失值的方法和其他树模型不同。xgboost把缺失值当做稀疏矩阵来对待，本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失，选择...

2023年11月30日 0 0 69 0

数据分析

随机森林如何评估特征重要性

随机森林中进行特征重要性的评估思想为：判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数...

2023年11月30日 0 0 71 0

数据分析

为什么GBDT只能由回归树组成？

因为GBDT是加法模型，主要是利用残差逼近的方式，这就意味每棵树的值是连续的可叠加的，这一点和回归树输出连续值不谋而合，如果采用分类树，那么残差逼近进行叠加就会使得这种叠加没有意义...

2023年11月30日 0 0 71 0

数据分析

特征选择基本原则

数据预处理完成之后，我们需要选择有意义的特征，输入机器学习的算法和模型进行训练，通常来说，从两个方面考虑来选择特征特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本...

2023年11月30日 0 0 79 0