趣文网 > 作文大全

dedecms如何采集文章

2020-11-23 12:30:01
相关推荐

如果要从其他站点转载文章,我们无需复制来复去,dedecms自带了文章和图片采集功能,对于不熟悉的人员来,采集规则配置起来很麻烦,常常在采集时出错,或者乱码,现在就向大家介绍dedecms的采集功能。

打开新增节点菜单打开后台->采集->采集节点管理,点击增加新节点

选择模型

新增节点-配置网址索引填写要采集的网站的列表相关规则,

查看采集站点的编码和网站源码我们右键单击,点击查看源码,在源码的开头位置,找到一个写有charset=某一编码的meta标签,比如charset="gb2312",这个就是第二步中所说的网站编码了

新增节点-配置文章网址匹配规则我们查看采集站点的列表页源码,找到文章列表开始html和结束html标签,分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签,你可以在文章开始的地方右键单击,审查元素(chrome浏览器,firefox是查看元素),这样就更方便的找到文章列表开始和结束的标签了。设置之后我们点击"保存信息并进入下一步设置"

网址获取规则测试如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

内容字段获取规则我们查看采集站点的文章源码,找到相关选项的开始和结束html标签,填写入指定位置,开始和结束标签以"[内容]"分格。设置完毕,我们点击"保存配置并预览"

过滤规则在第七步中的匹配规则后面,都 有一个过滤规则,这个过滤规则是用来过滤无需采集的内容。比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

测试内容字段设置因为网易有的文章开头是

,有的文章开头是

,所以会出现采集出错的情况。如果你现在就要采集,你可以点击保存并采集。这里我选择仅保存

采集内容(一)回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

采集内容(二)

查看已下载可以在采集界面(即第十步中的界面)的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

导出内容选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

最终结果

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

复兴之路作文 研究报告作文350字 禁毒心得作文 读书伴成长作文 这样做值得作文500字 关于珍惜时间的作文结尾 玩泥巴的作文 作文传统文化 听的作文 坚持志向的作文 作文家乡美食 一件小事作文怎么写 假如我是班长作文500字 关于方位的英语作文 我就这样长大作文 春暖花开作文700字 写景作文秋天 作文优秀600字初中 班级不良现象作文 生活给我的启示作文500字 构建和谐校园作文 遇见挫折作文 英语写人的作文 身边那些有特点的人作文300字 暑假的见闻作文500字 煮饺子作文400字 小树林作文300字 作文父爱300字 拖地作文200字 最敬佩的人作文600字