1. 首页
  2. 编程面试题
  3. Python
  4. 数据分析

KNN算法原理



KNN 即最近邻算法,其主要过程为:
1. 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离
等);

2. 对上面所有的距离值进行排序;

3. 选前 k 个最小距离的样本;

4. 根据这 k 个样本的标签进行投票,得到最后的分类类别;

如何选择一个最佳的 K 值,这取决于数据。一般情况下,在分类时较大的 K 值能够减小噪
声的影响。但会使类别之间的界限变得模糊。一个较好的 K 值可通过各种启发式技术来获取,
比如,交叉验证。另外噪声和非相关性特征向量的存在会使 K 近邻算法的准确性减小。
近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算
法错误率的两倍。对于一些好的 K 值,K 近邻保证错误率不会超过贝叶斯理论误差率。

注:马氏距离一定要先给出样本集的统计性质,比如均值向量,协方差矩阵等

发布者:admin,如若转载,请注明出处:https://ai1024.vip/41404.html

QR code
//