万企互联-专注高端网站建设
扫描关注万企互联微信公众账号

扫一扫微信二维码

侠客站群采集系统采集模块全流程编写

程序设计2013/4/6 1837

      首先先介绍下侠客站群系统的流程。第一,我要写个采集游戏攻略的模块发布到我的网站,我的网站是织梦做的。第二当然是准备工作了,这次主要是说采集模块,发布模块有机会的吧,要不内容太多发布模块官方有很多,各种cms的发布模块侠客都为我们准备的很充分,功能也很完善。第三 最好学习下侠客为我们准备的学习视频。

  我用的发布模块id=1173. 大家可以上在线获取。好吧,下面我就要开始了。

  我们可以制作新模块,抓取和发布。单击即可。这个是建立模块的界面。当然要先修改模块信息,不要手懒哦,有利于自己的管理的。选择自己需要的抓取模式,四种采集,自由选择。模块参数,自定义和关键词抓取有三个流程,蜘蛛和同步追踪模式有两个流程。

  先说明一下其它的地方:1 侠客可以保存自己的模块到本地,同时支持导入导出,推荐在本地保存。2 自定义抓取模式,顾名思义,当然是自己可以自由采集你需要的内容,推荐 学习下正则。 关键词抓取,根据定义好的关键词库进行抓取,可以获取相关的内容主题。 蜘蛛爬行,模仿蜘蛛,给出入口地址,则可以在全站无阻碍抓取。 同步追踪,及时跟踪目标站,根据目标站来进行及时抓取。 语料库自动重组,自动原创高质量文章。 这个部分,是用于第三方网站发布内容。

  流程1 部分。选择自己的抓取编码,填写自己的抓取网站,即目标站。注意各个地方的编码格式要统一哦。

  第一步:填写测试网址,用于测试规则。第二步:有两种方式提取,第一种,为可视化的,不会正则的朋友可以尝试,我们使用第二种。第三步:选择安装规则提取。第四步:为添加规则的面板。这里面根据第一步的选择不同,添加的规则会不同。

  说明:提取分页的正则方式。找到分页的地方,使用regextest (上面有下载地址)进行测试。说明:\d 匹配数字。第二流程:内容链接的提取。

  说明:我们找到内容代码部分。写出采集规则。我提供了两种,第二种让我贴到了规则描述 的地方。大家可以参考下。我这里选择的是正则方式提取,对应的是正则规则。第三流程:具体内容获得部分:

  说明:填写基本信息。提取模式两种,规则和智能,我们为了说明问题,使用规则提取方式,让大家了解下正则。也可以提取分页,这里分页流程一的列表分页设置类似,这里不在赘语。

  说明:提取标题,使用正则,同样,我们发现还有b标签,一会在提取后处理过滤掉即可。本来打算使用可视化引擎方式提取标题了,下次吧。

  说明:正文内容的提取,找到正文的开始和结尾,写出正则,即可。方法一样。具体正则学习,在头部已经贴出侠客视频教程。

  提取后处理,让我们过滤下正文内容。几个重要的标签过滤。说明:标签过滤。包括链接,脚本等影响网页布局和采集网站信息的内容,使用正则我们过滤掉。

  流程四:现在我们保存我们的抓取规则,建立站点,添加任务。进行测试吧。

  说明:一个站点可以设置多个任务,一个任务可以对应个采集模块,任务对应一个发布模块。

  说明:采集开始了! 先获取列表,在获取内容。

  说明:这个事文章库的信息,我们看下文章质量,如果有质量不好,我们可以选择替换库过滤或者重新修正采集规则,进行重新采集。站点设置:采集的质量,还行,我们这里不需要重新在来。下面是发布的具体设置:

  说明:三个部分:第一部分为基本库。第二部分为模块设置。第三部分为测试发布。先登录在分类,在发布,如果发布成功,几乎差不多可以了。如果不成功,我们可以修改下发布模块或者重新获取下其它发布模块。

  说明:测试登录

  说明:测试获取分类

  说明:测试发布文章,如果正常,即为侠客测试文章一篇。

  说明:测试发布文章成功。

  说明:侠客发布过程!

  说明:发布成功网页。已经成功发布。

  这个教程已经一步步带着大家进行了侠客的全流程采集过程。侠客还有其他强大的功能。我这个只是冰山一角,希望大家多多指导,提供宝贵意见,谢谢大家。

文章分类
程序设计
打开微信,点击底部的“发现”,使用“扫一扫”即可将网页分享至朋友圈。
万企互联 咸阳网站建设 咸阳微信营销 IDC主机测评 IP地址查询 万企工具 四六互联 四六技术网 品多技术网 超越彼岸BEYOND 六佰号 秦川云 秦川云影院