dedecms如何采集文章

2020-11-23 12:30:01

相关推荐

如果要从其他站点转载文章，我们无需复制来复去，dedecms自带了文章和图片采集功能，对于不熟悉的人员来，采集规则配置起来很麻烦，常常在采集时出错，或者乱码，现在就向大家介绍dedecms的采集功能。

打开新增节点菜单打开后台->采集->采集节点管理，点击增加新节点

选择模型

新增节点-配置网址索引填写要采集的网站的列表相关规则，

查看采集站点的编码和网站源码我们右键单击，点击查看源码，在源码的开头位置，找到一个写有charset=某一编码的meta标签，比如charset="gb2312",这个就是第二步中所说的网站编码了

新增节点-配置文章网址匹配规则我们查看采集站点的列表页源码，找到文章列表开始html和结束html标签，分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签，你可以在文章开始的地方右键单击，审查元素(chrome浏览器,firefox是查看元素)，这样就更方便的找到文章列表开始和结束的标签了。设置之后我们点击"保存信息并进入下一步设置"

网址获取规则测试如果在测试结果发现有无关的网址信息，说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误，你可以返回上一次修改，没有就点击“保存信息并进入下一步设置”。

内容字段获取规则我们查看采集站点的文章源码，找到相关选项的开始和结束html标签，填写入指定位置，开始和结束标签以"[内容]"分格。设置完毕，我们点击"保存配置并预览"

过滤规则在第七步中的匹配规则后面，都有一个过滤规则，这个过滤规则是用来过滤无需采集的内容。比如，网易每篇文章都有一个放置广告的iframe标签，我们要采集网易的文章，不可能采集回来之后，一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则，我们点击常用规则，就会弹出一个小窗口，列出了常用的过滤规则，我们只需点击要们要过滤的规则即可，要过滤网易文章中的iframe标签，我们就点击iframe即可。

测试内容字段设置因为网易有的文章开头是

,有的文章开头是

，所以会出现采集出错的情况。如果你现在就要采集，你可以点击保存并采集。这里我选择仅保存

采集内容（一）回到采集节点管理的界面，也就是第一步中的界面，我们选择节点，点击采集

采集内容（二）

查看已下载可以在采集界面(即第十步中的界面)的右上角，点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

导出内容选择要导入到的栏目，数据量，是否生成html文件，随机推荐数量

最终结果

阅读剩余内容

dedecms 文章

dedecms如何采集文章

dedecms织梦修改文章发布时间不更新的方法

织梦DedeCms文章标题字数长度限制的方法教程

织梦dedecms修改文章不修改更新时间保持排序不变的方法

使用bootstrap制作dedecms多终端自适应模板实战详细教程

织梦dedecms系统模板文件存放位置以及文件功能介绍