Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

2021-07-28 0 4,278

前言:这篇文章是Dedecms采集功能使用方法的第二篇,主要目的是采集含有分页的普通文章,并使用简单的过滤规则。这次选取的目标站点是中国网管联盟网络技术频道的网络协议栏目,网址是“http://www.bitscn.com/network/protocol/”。本文共分为三节,第一节,主要是介绍新增采集节点中的第一步:设置基本信息及网址索引页规则;第二节,主要是介绍新增采集节点中的第二步:设置字段获取规则;第三节,主要是介绍如何采集指定节点和如何导出采集内容。对于编写采集规则中一些基本的操作,本文将一带而过或不再涉及,如有疑问可参见文章“Dedecms采集功能的使用方法 — 不含分页的普通文章的采集”。

下面进入第一节。

 

1.1 设置基本信息及网址索引页规则

建立一个新的普通文章型节点,并进入“新增采集节点:第一步设置基本信息及网址索引页规则”如(图1)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图1-新增采集节点:第一步设置基本信息及网址索引页规则

 

1.1.1 设置节点基本信息

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图2-节点基本信息

 

首先,定义节点名称为“采集测试(二)”。其次,查找目标页面编码。其操作步骤为:

(a)打开被采集的目标页:http://www.bitscn.com/network/protocol/;

 

(b)单击右键后选择“查看源文件”,找到“charset”, 如(图3)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图3-查看源文件

 

其等号后面的代码就是所需的“编码格式”,这里是“gb2312”。对于“区域匹配模式”、“内容导入顺序”和“防盗链模式”,均使用默认值。

 

引用网址:可以选取在文章列表里出现的任意一个文章页的网址。方便起见,一般是填入文章列表中第一篇文章的网址,但是由于第一篇文章没有涉及到分页内容,为了展示如何采集分页文章,这里使用第二篇文章作为引用网址。其网址为:“http://www.bitscn.com/network/protocol/201105/193110.html”。设置后的节点基本信息,如(图4)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图4-设置后的节点基本信息

 

检查无误后,进入下一步设置。

 

1.1.2 设置列表网址获取规则

如(图5)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图5-列表网址获取规则

 

这里是设置被采集的文章列表页的匹配规则的,也是本节的重点和难点。

具体操作步骤:

(a)首先,回到已打开的文章列表页,这时浏览器的URL地址栏中显示的网址,如(图6)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图6-列表首页的网址

 

(b)找到文章列表页的换页部分,把鼠标放在各个页码上面,同时观察其URL的变化规律。可以得出,网址的匹配规律为:“http://www.bitscn.com/network/protocol/list_(*).html“。因此,在“匹配网址”中,应填入“http://www.bitscn.com/network/protocol/list_(*).html”,为了能够快速演示采集过程,这里设定页面是从1开始到1结束,也就是说只采集第一页。

 

设置后的 “列表网址获取规则”,如(图7)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图7-设置后的列表网址获取规则

 

检查无误后,进入下一步设置。

 

1.1.3 设置文章网址匹配规则

如(图8)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图8-文章网址匹配规则

 

这里是设置被采集文章列表页的匹配规则。

具体操作步骤:

(a)对于“区域开始的HTML”,可通过在打开的文章列表首页上,单击右键后选择“查看源文件”。在源文件中,找到第一篇文章的标题“OpenFlow网络是空谈吗?”,如(图9)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图9-查看源文件中,第一篇文章的标题

 

 通过观察源文件,不难看出“<div class="list-cc">”为整个文章列表的开始部分。因此,在“区域开始的HTML”中,填入“<div class="list-cc">”。 
 (b)在源文件中,找到最后一篇文章标题“认识多重PPP链接协议”,如(图10)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图10-查看源文件中,最后一篇文章的标题

 

结合文章列表的开始部分并通过观察可知,“</div>”为整个文章列表的结束部分。因此,在“区域结束的HTML”中,应填入”</div>”。

 

设置结束后的“文章网址匹配规则“, 如(图11)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图11-设置后的文章网址匹配规则

 

通过1.1.1小节、1.1.2小节和1.1.3小节,新增采集节点的第一步就已经设置完成了。设置后的结果,如(图12)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图12-设置后的新增采集节点:第一步设置基本信息及网址索引页规则

 

全部完成并检查无误后,单击“保存信息并进入下一步设置“。如果之前设置正确,单击后,将会进入“新增采集节点:测试基本信息及网址索引页规则设置的网址获取规则测试”页面并看到相应的文章列表地址。如(图13)所示,

Dedecms采集功能的使用方法 — 含有分页的普通文章(一)

图13-网址获取规则测试

确定正确无误后,单击“保存信息并进入下一步设置”。否则,请单击“返回上一步进行修改“。

到这里,第一节就结束了。下面进入第二节。。。

 

收藏 (0) 打赏

您的支持是我们前进最大的动力!

打开微信扫一扫,即可进行扫码打赏哦
点赞 (0)

本站声明: 根据2013年1月30日《计算机软件保护条例》2次修订第17条规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬,鉴于此,也希望大家遵守相关法律法规使用、研究软件。 1、本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解。 2、下载用户仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。 3、站内资源均来源于网络公开发表文件或网友投稿发布,如侵犯您的权益,请联系管理员处理。 4、本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用,如有链接无法下载、失效或广告,请联系客服处理。 5、所有资源均收集于互联网仅供学习、参考和研究,请理解这个概念,所以不能保证每个细节都符合你的需求,也可能存在未知的BUG与瑕疵,因本站资源均为可复制品,所 以不支持任何理由的退款兑现,请熟知后再下载。

彤彤模板团 织梦CMS教程 Dedecms采集功能的使用方法 — 含有分页的普通文章(一) https://www.xiaoyuerqingfen.cn/3079.html

一家有态度的精品资源分享平台

常见问题
 • 模板团承诺演示效果图均和网站95%一样,并且我们的模板和数据都没有留后门,请放心使用。
查看详情
 • 因为模板具有可复制性和可传播性,模板一旦发货,非质量问题,不支持退换;所以务必请您一定看清楚后再购买。
查看详情

相关文章

评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务

 • 0 +

  访问总数

 • 0 +

  会员总数

 • 0 +

  资源总数

 • 0 +

  今日发布

 • 0 +

  本周发布

 • 0 +

  运行天数

开通会员,尊享海量资源下载特权