1) 词袋法(BOW/TF)\词集法(SOW)
---不考虑文本的语法和语序,只考虑单词存在的次数(BOW/TF)或者是否存在(SOW)
2) TF-IDF
---既考虑文本的词频,也考虑文件的逆文档频率(基本思想是:单词的重要性与单词在文档中出现的次数成正比,与单词在语料库中出现的次数成反比)
3) HashTF-IDF(不计算词频,计算单词进行Hash后的Hash值的数量)
4) 哑编码(OneHotEncoder)
5) Word2Vec (通过对文档中的所有单词进行分析->>获得单词之间的关联程度->>进而形成词向量矩阵)
发布者:admin,如若转载,请注明出处:https://ai1024.vip/40810.html