多语言展示
当前在线:693今日阅读:84今日分享:32

java爬虫系列:怎么用jsoup进行爬虫开发?(4)

jsoup是一个非常优秀的爬虫框架,这篇将给大家分享jsoup爬取网页后进行保存的几种方式,有dom,string,stream,byte。
工具/原料
1

eclipse/idea

2

jsoup

方法/步骤
1

第一步:用jsoup进行请求,获取一个response对象,不懂请求的可以参考前几篇经验,代码如下:Connection.Response response = Jsoup.connect('http://127.0.0.1:8039/test/login.html')         .method(Connection.Method.GET).execute();

2

第二步:response的Document对象,这个Document对象很明显就是网页的Document,这个就是直接提取里面的文本,执行js,类似于jquery,代码如下:Document doc = response.parse(); System.out.println(doc.toString());

3

第三步:response的String对象,这个String就是一个单纯的字符串,和普通的字符串一样,不能进行dom操作,代码如下:String s = response.body(); System.out.println(s);

4

第四步:response的stream对象,这个是一个流,在很程序解析的过程中,有时候需要用流进行操作,代码如下:try(BufferedInputStream bufferedInput = response.bodyStream()){     byte[] buffer = new byte[1024];     int bytesRead = 0;     while ((bytesRead = bufferedInput.read(buffer)) != -1) {         String chunk = new String(buffer, 0, bytesRead);         System.out.print(chunk);     } }

5

第五步:response的byte对象,这个byte字节,代码如下:byte[] bytes = res.bodyAsBytes(); System.out.println(new String(bytes));

6

第六步:获取一些其他信息,状态码和信息,代码如下:int code = res.statusCode(); String msg = res.statusMessage(); System.out.println('code = ' + code + ', msg = ' + msg);

注意事项

dom,string,stream,byte返回的都是网页里面的html

推荐信息