java爬虫系列：怎么用jsoup进行爬虫开发?(4)

jsoup是一个非常优秀的爬虫框架，这篇将给大家分享jsoup爬取网页后进行保存的几种方式，有dom，string，stream，byte。

工具/原料

eclipse/idea

jsoup

方法/步骤

第一步：用jsoup进行请求，获取一个response对象，不懂请求的可以参考前几篇经验，代码如下：Connection.Response response = Jsoup.connect('http://127.0.0.1:8039/test/login.html') .method(Connection.Method.GET).execute();

第二步：response的Document对象，这个Document对象很明显就是网页的Document，这个就是直接提取里面的文本，执行js，类似于jquery，代码如下：Document doc = response.parse(); System.out.println(doc.toString());

第三步：response的String对象，这个String就是一个单纯的字符串，和普通的字符串一样，不能进行dom操作，代码如下：String s = response.body(); System.out.println(s);

第四步：response的stream对象，这个是一个流，在很程序解析的过程中，有时候需要用流进行操作，代码如下：try(BufferedInputStream bufferedInput = response.bodyStream()){ byte[] buffer = new byte[1024]; int bytesRead = 0; while ((bytesRead = bufferedInput.read(buffer)) != -1) { String chunk = new String(buffer, 0, bytesRead); System.out.print(chunk); } }

第五步：response的byte对象，这个byte字节，代码如下：byte[] bytes = res.bodyAsBytes(); System.out.println(new String(bytes));

第六步：获取一些其他信息，状态码和信息，代码如下：int code = res.statusCode(); String msg = res.statusMessage(); System.out.println('code = ' + code + ', msg = ' + msg);

注意事项

dom，string，stream，byte返回的都是网页里面的html

上一篇：source insight粘贴文字后光标位置设置

下一篇：daemon tools虚拟光驱使用方法

欧尼酱

java爬虫系列：怎么用jsoup进行爬虫开发?(4)

java爬虫系列：怎么用jsoup进行爬虫开发?(4)

豆干的营养价值

女宝发型绑扎方法简单

小孩子编发辣妈们可不要错过

怎样做香干芹菜，美容瘦身菜哦！！

小女孩怎么扎头发好看又简单

儿童丸子头的简单扎法

儿童丸子头怎么扎简单好看

我的口水香干

怎么样给宝贝扎好看又简单的头发

茶树菇香干的做法

怎样在家煮香干

大人小孩都可用的发辫。简洁时尚

香干五花肉的做法

美味的青椒香干

卤蛋和卤香干的制作

爽脆可口的香干

儿童绑头发的简单方法

经常吃农家自产的香干有哪些好处

放疗和化疗的区别？化疗为什么死得快？

五件小事让你的免疫力飙升