火车头采集规则写法介绍 火车头采集规则如何导入? | 攀枝花网络公司
一个大型的资讯网站在发表文章时,如果是一条条的文章网上发,这不仅浪费时间,效率还不高,这时为了提高更新网站的效率,就出现了火车头采集器,可是火车头采集规则怎么写呢?接下来就由小编来详细的介绍吧。
火车头采集规则写法介绍
步骤一:新建一个文章采集节点
登录后台,依次点击 采集>>采集节点管理>>增加新节点>>选择普通文章>>确定
步骤二 :填写采集列表规则
1.节点名称:随便(注意你要能分清哦,因为节点多了的话,有可能会搞得自己混乱)
2.目标页面编码:看目标页面的编码
3.匹配网址:去到采集目标列表页面,查看它的列表规则!比如说很多网站的列表的第一面跟其它内页是有很大的差别的,所以我一般不采集目标列表的第一页!
最好是从第二页开始(虽然可以找出第一页,但很多的网站是根本没第一页的,所以,这里就不说怎么找第一页了)
4.区域结束的HTML:在采集目标列表页打开源代码!在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签!
写好了,点击保存信息并进入下一步!如果写正确了规则的话,那这些就会出现一个有内容的网址获取规则测试
再按下一步!进入填写采集内容规则
步骤三:采集内容规则
1.文章标题:在文章标题前后找两个标签,能识别出标题的!
2.文章内容:在文章内容前后找两个标签,能识别出内容的!我采集的网站的文章内容前后唯一标签是<div class=”content”>…<ul class=”page clearfix”>,所以就写成<div class=”content”>[内容]<ul class=”page clearfix”>!
其它的功能,也不用管!这里只分享怎么能采到文章!然后,点击保存配置并预览,如果前面的列表规则跟内容规则都写对了的话,那现在就会预览到内容了!
点击仅保存,如果你要马上采集的话,也可以点击隔壁的保存并马上采集!
火车头采集规则导入方法
1.导入规则方法一
右键点击刚才新建的分组,选择“导入任务至该分组”(记住:不是“导入分组规则”),在弹出的对话框中选择已经采集规则文件(后缀为.ljobx)。
2.导入规则方法二
也可以选择刚才新建的分组,然后依次点击菜单“分组”->“导入任务至该分组” 在弹出的对话框中选择已经采集规则文件(后缀为.ljobx)。
3.导入分组规则
如果你手上的规则文件后缀名为“.lgrp”,那么你需要通过菜单或右键快捷菜单选择“导入分组规则”,而不是“导入任务至该分组”。
好了,有关火车头采集规则写法就介绍到这里了,当然想要掌握这个写法的可不是马上就能完成的事情,是需要在不断的实践中去掌握和运用的,所以想要掌握格则写法的,现在就开始练习吧。如果想了解更多的内容,欢迎关注我们南奇网络营销的官网。
推荐阅读
火车头采集规则写法介绍 火车头采集规则如何导入? | 攀枝花网络公司 https://cdnanqi.cn/panzhihua/879.html