关关采集规则编写详细教程

1

第一步: 我们先复制一份原来的规则做模板比如说我今天演示的采集站点是我爱读书网 52dsw.net 这个小说站点那么我就把我复制的那份做模板的规则命名为 52dsw.xml 这个主要是便于记忆

2

第二步: 我们运行采集器里的规则管理工具打开后加载刚刚我们命名为 52dsw.xml的这个XML文件

3

第三步: 开始正式编写规则了 1. RULEID(规则编号) 这个任意 2. GetSiteName(站点名称) 这里我们写我爱读书网 3. GetSiteCharset(站点编码) 这里我们打开 www.52dsw.net 查找 charset= 这个 =号后面的就是我们需要的站点编码 www.52dsw.net 我们查到的编码是 gb2312 4. GetSiteUrl(站点地址) 这个就不用我说了吧写入 http://www.52dsw.net/ 5. NovelSearchUrl(站点搜索地址) 这个地址的获得得按照每个网站程序的不同而言不过呢有个通用的方法就是通过抓包来获得自己想要的内容虽然说是通过抓包来获得但是怎么就知道获得的就是我们想要的呢看我操作首先我们运行封包工具选择 IEXPLORE.EXE 这个进程最好是你只开一个网站也就是你只打开了你要想编写规则的那个网站确保进程里只有一个IEXPLORE.EXE这个进程这里我们我们可以看到提交的地址是 /book/search.aspx 我们来组合一下得到的地址是 http://www.52dsw.net/book/search.aspx 而提交内容的代码是SearchKey=%C1%AB%BB%A8&SearchClass=1&SeaButton.x=26&SeaButton.y=10 但是对于我们有用的是 SearchKey=%C1%AB%BB%A8&SearchClass=1 这一段这里获得的这段将在NovelSearchData(搜索提交内容) 这里用到把这段改成我们想要的代码就是把这一段%C1%AB%BB%A8 替换成 {SearchKey} 这个表示搜索提交的内容完整的代码是 SearchKey={SearchKey}&SearchClass=1 然后我们测试下是否正确经过测试我们获得的内容是正确的 6. NovelListUrl(站点最新列表地址) 这个我就不说了因为这些每个站点的不同这个就需要自己去找了我爱读书网的是 http://www.52dsw.net/top/lastupdate_1.html 7. NovelList_GetNovelKey(从最新列表中获得小说编号此规则中可以同时获得书名获得书名是在手动模式的时候用到如果你要用手动模式那么必须获得书名否则手动模式将会无法使用) 我们打开 http://www.52dsw.net/top/lastupdate_1.html 这个地址查看源文件我们编写这个规则的时候找到想要获得的内容所在的地方比如我们打开地址看到想要获得的内容的第一本小说的名字是立地成魔我们在源文件里面找到莫伦特传

我们编写规则用到的代码其实也不是很多我编写规则的原则是能省则省也就是说代码越短越好除非万不得已一般精短一些比较好好了不废话了在这个规则里面我们需要用到的是立地成魔我们将这段改下 (.+?) 其中 (\d*) 表示编号 (.+?) 表示小说名经过测试正确 8. NovelUrl(小说信息页地址) 这个很容易我们随便点开一本小说就能知道了比如说 http://www.52dsw.net/Book/150557/Index.html 这本小说我们可以看到的我们改下将里面的 150557 换成 {NovelKey} 一般情况表示小说编号 http://www.52dsw.net/Book/{NovelKey}/Index.html 9. NovelErr(小说信息页错误识别标记) 这个一般是 http://www.52dsw.net/Book/149539/Index.html 吧中间的那个编号随意改变下比如 http://www.52dsw.net/Book/15055799/Index.html 这样我们获得的错误标记就是未找到该编号的书籍信息! 10. NovelName(获得小说名称正则) 我们随便打开一本小说 http://www.52dsw.net/Book/149539/Index.html 查看源代码获得小说名称这个我们可以从固定模式着手比如我们刚才打开的立地成魔这本小说我们看到他的固定小说名格式是《立地成魔》那我们在源代码里找到《立地成魔》这个我们得到的内容是

《立地成魔》

这一段我们改下

《(.+?)》

下面的 NovelAuthor(获得小说作者) LagerSort(获得小说大类) SmallSort(获得小说大类) NovelIntro(获得小说简介) NovelKeyword(获得小说主角(关键字)) NovelDegree(获得写作进程) NovelCover(获得小说封面) 这些呢我就不演示了这些跟上面的那个获得小说名方法是一样的也就所谓的一通百通这里有些时候获得的内容里面有些不想用到的因为格式不固定有些内容只能先获得然后在用过滤功能过滤掉过滤的用法在后面有说 11. NovelInfo_GetNovelPubKey(获得小说公众目录页地址) 这个的地址获得跟上面的一样的方法这里我就不说明了 12 PubIndexUrl(公众目录页地址) 这个我说明一下这个的用法这个一般是在知道采集目标站的动态地址的时候用到如果不知道对方动态地址的话就在这个里面写入{NovelPubKey} 如果知道动态路径比如说 http://www.52dsw.net 这个站的没本小说的章节目录的动态地址是 http://www.52dsw.net/Book/149539/Index.aspx 那么 PubIndexUrl 这个的规则就是 http://www.52dsw.net/Book/{NovelKey}/Index.aspx 13. PubVolumeSplit(分割分卷) 这个分割分卷有写地方需要注意到如果分割分卷的正则没对那么有可能对于下面的获得章节名那些有很大的影响这里我们获得分割部分的代码呢按我的经验呢是找到第一个分卷跟下面的分卷查看他们的共同处在我们分析 http://www.52dsw.net/html/book/130/149539/List.shtm 这个目录章节里面的源代码可以看出他们有个共同点拿这一段来说明下

力量的追求

从这里我们可以看到他的共同点是

我们吧他改下改成正则格式 \s*

其中的\s* 表示匹配与任何白字符匹配，包括空格、制表符、分页符等也就是说在与

之间不管有多少个空格都可以用 \s* 来表示 14 . PubVolumeName(获得分卷名) 想要获得准确的分卷名必须在上面的分割部分的正则必须正确一般情况下分割部分跟分卷名是在一块的上面我们说明分割部分用到的

力量的追求

(.+?)

强悍的驯服方法
(.+?)
(.+?)
(.+?)
(.+?)
书籍作者
聚散随风

有些的有有些的没有所以我们暂时不管直接用书籍作者\s*

(.+?)

先获得想要的内容从规则看来我们获得的内容是

这个表示过滤 ♂
这个表示替换比如说 feiku 这个站里面有个地字他是用的图片我们该怎么办呢这里我们用替换来处理

♂地其他的替换类似 ♂替换的内容替换只在章节内容里才有用这个是章节内容专用的

4

有些人又问了为什么我采集某个站为什么老出现空章节呢这个出现可能空章节的原因这个有可能是目标站正好重启网站你的采集IP被封等等... 这里我要说明的出现空章节的是因为图片章节引起的缘故采集器的采集内容的操作程序是先检查你采集的章节是否是图片章节如果你的PubContentImages(章节内容中提取图片) 的正则不正确没有获得图片章节内容的话就会检查你的采集文字内容 PubContentText(获得章节内容)这个里面的正则的匹配如果 PubContentImages(章节内容中提取图片) 跟 PubContentText(获得章节内容) 都没有匹配的内容那么就出现了上面我们说的空章节的原因好了规则写好了我们来测试下规则是否能够正常获得想要获得的内容测试显示我们写的规则能够正常的获得想要的内容

5

附上我爱读书网采集规则供大家参考： Match None RuleVersion Match None 22 RuleID Match None http://www.52dsw.net/ GetSiteName Match None gbk GetSiteCharset Match None http://www.52dsw.net/ GetSiteUrl Match None NovelSearchUrl Match None NovelSearchData Match None NovelSearch_GetNovelKey Match None http://www.52dsw.net/list/0.html NovelListUrl Match None <td class='odd'><a href='http://www.52dsw.net/book/(\d*).html'>(.+?)</a></td> NovelList_GetNovelKey Match None http://www.52dsw.net/book/{NovelKey}.html NovelUrl Match None 未找到该编号的书籍信息 NovelErr Match None line-height: \d*%'>(.+?)</span></td> NovelName Match None <td width='25%'>作    者：(.+?)</td> NovelAuthor Match None <td width='25%'>类    别：(.+?)</td> LagerSort Match None <td width='25%'>类    别：(.+?)</td> SmallSort   Match None <span class='hottext'>内容简介：</span><br />((.|\n)+?)<span class='hottext'>作品关键字：</span> NovelIntro Match None NovelKeyword Match None <td>文章状态：(.+?)</td> NovelDegree Match None <img src='(.+?)' border='0' width='100' height='125' align='right' hspace='5' vspace='5' /></a> NovelCover Match IgnoreCase nocover.jpg NovelDefaultCoverUrl Match None <li><a class='btnlink' href='(.+?)'>点击阅读</a></li> NovelInfo_GetNovelPubKey Match None PubCookies Match None {NovelPubKey} PubIndexUrl Match None 这里必须填写 PubIndexErr Match None PubVolumeContent Match None <div id='tit PubVolumeSplit Match None le'>(.+?)</div> PubVolumeName Match None <td class='ccss'>\s*<a href='\d*.html'>(.+?)</a>\s*</td> PubChapterName Match None <td class='ccss'>\s*<a href='(\d*.html)'>.+?</a>\s*</td> PubChapter_GetChapterKey Match None {ChapterKey} PubContentUrl Match None 这里必须填写 PubContentErr Match None PubContent_GetTextKey Match None PubTextUrl   Match IgnoreCase <div id='content'>((.|\n)+?)<div id='footlink'> PubContentText Match None PubContentReplace Match None <[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:['']?))))(?:[^\s''>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*> PubContentImages

欧尼酱

关关采集规则编写详细教程

关关采集规则编写详细教程

皮肤天生黑怎么美白

天生黑皮肤用这些方法美白

儿童简笔画之动物园看书的女孩

天生皮肤黑怎么变白

出国行李箱里有什么？

美国探亲签证办理流程

美国旅游签证拒签

高中交换生申请常识

金圣爆珠有几款

首尔旅游注意事项

美国签证面签要注意哪几点

日常美容错误

滕王阁序带拼音全文

美国旅游签证面谈注意事项1

出国旅游准备小常识

辣椒炒田鸡的做法

PS切片怎么保存

Ps做好的动画图片怎么保存？

爆炒青椒鲜墨鱼的做法

PS2019如何保存做好的图片，保存格式为图片