多语言展示
当前在线:732今日阅读:60今日分享:41

dede织梦采集工具的使用

dede织梦采集工具的使用。我之前在网上找了很多的文章讲解织梦采集规则的,都不太详细。所以我自己发布一篇超详细的织梦采集教程,虽然篇幅较长,但很容易理解!!!
工具/原料

dede织梦后台

方法/步骤
1

登陆织梦后台,点击“采集“-”采集结点管理“-”添加新节点“

2

选择内容模型,这里我们根据你要采集的目标站来决定,这里我采集的是”http://www.jb51.net/web/list220_1.html,这是脚本之家网站的一个栏目页,这是一个我经常访问的一个网站,一直在运行的。然后点击”确定“

3

在”节点名称“填上自定义的名称。(最好有实际意义,比如我采集的是关于HTML/Xhtml的文章,所以我取名HTML/Xhtml。

4

然后,”目标页面编码“是根据采集的网站是采用什么编码来决定的,不一致会产生乱码。右击目标站http://www.jb51.net/web/list220_1.html,选择”查看源代码“,如图所示

5

在打开的代码中,发现使用的编码为gb2312,所以dede织梦后台选择的规则也是gb2312。

6

”内容导入顺序“,随便填,看个人意愿

7

重点来了!!!!首先,大家要搞清列表的概念,“列表”指的是“一页中包含多个文章链接,这就是列表”,如图:

8

而”列表网址获取规则“就指的是“多个这样的列表页链接有什么关系”,我们采集的一个栏目下的文章通常有成百上千,我们把这些列表分成多个页:第一页、第二页、末页等,每一个链接指向一个列表,你点击每个列表会发现他们是:http://www.jb51.net/web/list220_1.htmlhttp://www.jb51.net/web/list220_2.htmlhttp://www.jb51.net/web/list220_3.htmlhttp://www.jb51.net/web/list220_4.htmlhttp://www.jb51.net/web/list220_5.html一直到http://www.jb51.net/web/list220_61.html共61个列表页!所以我在下图”列表网址获取规则“中,我填的是http://www.jb51.net/web/list220_(*).html,这里的(*)是正则表达式(一定得是英文符号),表示:一个或多个字母或数,。大家以后再写采集规则时,就可以将列表链接不相同的地方用(*)代替,填上从1~61,递增1。

9

填完这里之后,我们可以点击”测试“按钮,如下图则代表写的正确

10

手工指定网址:在指定了通配规则后有些不能匹配的网址也可以在这里指定。好,写完”列表规则“,我们开始写”文章网址匹配规则“:”文章网址匹配规则“指的是列表的一页有多个文章链接,我们随便选一个链接进入,这里我选的是第一篇文章http://www.jb51.net/web/248680.html,如下图所示。

11

右击”查看源文件“,(大家放心,一般信息多的网站,为了便于编辑和维护,他们的样式都是相似的,见微知著,看一篇文章就基本能写出规则了),我们在源代码中找到该片文章的标题汉字和结尾的汉字,在这两处的附近选唯一的一段代码(这段代码,在该片文章只能出现一次)”,填到区域开始的HTML“和”区域结束的HTML“处,如下如所示

12

点击“保存设置并进入下一步”,下面填的是“网页内容获取规则“,找到文章代码中”作者“、”来源“、”时间“等所在的位置,和上面一样,这文字的附近选唯一的一段代码,中间的内容使用[内容]代替,如下图所示

13

设置完毕后点保存设置并预览,我的采集规则就写好了。(其他未讲到的地方可以默认的,一般不用选),点击”保存并测试“,结果如图所示。再点击”开始采集“,采集如下所示:

14

采集完之后,点击”已下载“,如图所示,最后将其导出到目标栏目即可。。

推荐信息