火车头列表页分页采集获取案例

作者: 本站原创发布时间:2019-01-08 浏览: 次

对于设置列表分页，下图设置是最常见也是最常用的。

clip_image004

现在教大家另外一个获取分页的办法，就是通过列表页分页采集获取功能来自动获取分页。

使用这个功能，起始页就只需要把首页地址添加进去就可以了如下图：

clip_image006

分页设置是在 “多级网址获取”里的“列表分页获取”如下图：

clip_image008

上图“从该区域中提取列表分页网址”这里就是找到源代码里面分页开始和结束，中间包含的地址就分页地址。

对于那种分页全部列出来的，设置好这一步就可以了，但是很多情况下分页都不是完全列出来的，中间会有省略号代替如下图：

clip_image010

现在针对全部列出，和不是全部列出这２种情况，做一个都适用的设置，我一直都是用这种方式获取，几乎解决所有的网站。

我们重要的是要找到当前页源代码的特点。我是用http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 这个列表页来做说明的。

我们看下第一页分页源代码的情况如下图：

clip_image012

再看下第二页源代码的情况如下图：

clip_image014

然后我们不再一页一页看随便看一页，查看源代码我这里选第五页如下图：

clip_image016

通过红色标注，大家看到规律了没有？当前页都是<strong></strong>这个代码后面紧接着一个<a >就是下一页地址。

也就是说我们是要通过当前页获取下一页，这样一级一级的向下获取，直至把所有分页获取到。

那么放到采集器里面的表示就是从<div class="pageNav">开始，中间我不管是什么用(*)表示，然后遇到第一个<strong>(*)strong>，因为页码也是变化的所以中间我用（*）表示变化的。

然后到再到第一次出现</a> 做为结束，中间包含的就是下一页地址。

而且分页地址也有一个规律<a href="http://news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 变化的是页码数字，变化的用参数来替代，其他是不变化的，那么我们只要获取变化

的就可以了。

原理就是这样，在我遇到的分页都是有这样的规律的，源代码肯定是不一样的，但是规律是一样的，大家要会举一反三，不要死脑筋。这里告诉的是方法！！！！

写到采集器里面如下图：

clip_image018

我们可以通过上图“最多获取分页数”来设置要获取多少页，０为全部获取。

右侧“组合生成列表页分页”我们做了设置的，上图的“自动识别分页”就不需要勾选了。最好不要勾选，有时候会出错。

我上面的截图都是勾选上的，默认是勾选的，设置好规则了，就把这个勾选取消。