趣文网 > 作文大全

文本分类问题

2020-12-05 05:50:01
相关推荐

经典的新闻主题分类,用朴素贝叶斯怎么做。

In [193]:

In [175]:

文本处理

1、把训练样本划分为训练集和测试集

2、统计了词频,按词频降序生成词袋

In [137]:

In [138]:

停用词文件去重

这个停用词文件不是很官方,所以需要清洗下

In [140]:

In [145]:

词袋中选取有代表性的特征词

第一步生成的词袋里有很多通用的、无意义的词语,需要去掉。

有代表性的词语很大概率是一些对最终类别区分有作用的词语。并且后面这些词语会作为特征作为模型的输入。

In [125]:

In [149]:

训练和测试集生成固定长度的词向量特征

这步为后面数据输入进贝叶斯模型训练做准备。

因为文本长度不一,所以每个样本需要固定好维度,才能喂给模型训练。

In [153]:

In [169]:

贝叶斯模型开始训练和预测

In [176]:

In [177]:

可视化

这步调参,查看不同的deleteNs对模型效果的影响

In [179]:

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

我最爱的食物作文 我的阅读故事作文 新年活动作文 你是我的榜样作文 我的家风故事作文 关于向日葵的作文 与书同行作文 写一封信作文400字 我喜爱的植物作文 我不再迷茫作文 假期游玩的作文 感谢信英语作文模板 写人的作文三百字 心里暖暖的作文 榜样作文300字 方特游玩作文 绿萝作文400字 四年级上册优秀作文 包饺子600字作文 有关节日的作文 秋风起 作文 英语作文初中范文大全 孝老爱亲作文 西安兵马俑作文 痕迹作文600字 关于坚韧的作文 责任作文300字 我的朋友圈作文 周记作文300字 我的一家英语作文