1. 首页
  2. 编程面试题
  3. Python
  4. 数据分析

文本数据处理的方式有哪些,以及这些处理方式有什么区别



1) 词袋法(BOW/TF)\词集法(SOW)

    ---不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW)

    2) TF-IDF

    ---既考虑文本的词频,也考虑文件的逆文档频率(基本思想是:单词的重要性与单词在文档中出现的次数成正比,与单词在语料库中出现的次数成反比)

    3) HashTF-IDF(不计算词频,计算单词进行Hash后的Hash值的数量)

    4) 哑编码(OneHotEncoder)

    5) Word2Vec (通过对文档中的所有单词进行分析->>获得单词之间的关联程度->>进而形成词向量矩阵)

发布者:admin,如若转载,请注明出处:https://ai1024.vip/40810.html

QR code
//