多语言展示
当前在线:1346今日阅读:39今日分享:10

java爬虫系列:怎么用jsoup进行爬虫开发?(1)

java是现在很流行的语言,能够进行全方位的开发,爬虫也不例外,但是鉴于java爬虫用的比较少,资料不是很多,这里开始就开始一起用java框架jsoup进行爬虫开发
工具/原料
1

eclipse/idea

2

java环境

3

jsoup jar包

方法/步骤
1

第一步:maven引入jsoup,或者从jsoup的官网下载jsoup导入编译器,官网下载地址:jsoup.org/download。因有依赖问题,这里建议使用maven

2

第二步:开始使用jsoup进行网络爬取,代码如下:Document document = Jsoup.connect('你的url').get();这是get请求,post请求如下:Document document = Jsoup.connect('你的url').post();是不是很简单

3

第三步:jsoup的爬取的其他方式:Connection conn = Jsoup.connect('').method(Connection.Method.GET);post如下:Connection conn = Jsoup.connect('').method(Connection.Method.POST);

4

第三步:分析不同点。返回值Document就是一个网页dom,也就是一个网页,请求到此结束,而Connection 返回的是一个连接,表示请求还没结束,Connection 常用方法如下:Document doc = response.parse(); Map cookies = response.cookies();获取文档和cookies

5

第五步:cookies的作用就是让网站记住你,告诉网站还是我,别验证了,所以如果再次请求的验证的网站,带上cookies就不用验证。代码如下:Connection.Response response = cget.execute(); Document doc = response.parse(); Map cookies = response.cookies();  Document document = Jsoup.connect('').cookies(cookies).get();

6

第六步:下次开始讲代理,头部,get和Post的参数传递,并模拟登陆

注意事项
1

保证网络畅通

2

学无止境

推荐信息