如何爬取网页数据

Python是进行网页爬虫和网页数据抓取的一个不错语言。其中python也提供了不少模块用于数据抓取。urllib是用于打开网页链接的模块，urlopen（）函数用于打开网页，bs4（BeautifulSoup模块）用BeautifulSoup（）函数处理返回html的数据。

工具/原料

python3.4

BeautifulSoup

方法/步骤

from urllib.request import urlopen用于打开网页from urllib.error import HTTPError用于处理链接异常from bs4 import BeautifulSoup用于处理html文档import re用正则表达式匹配目标字符串

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.MalformedURLException;import java.net.URL;public class Capture { public static void main(String[] args) throws MalformedURLException, IOException { String strUrl ='http://news.baidu.com/'; URL url =new URL(strUrl); HttpURLConnection httpConnection = (HttpURLConnection) url.openConnection(); InputStreamReader input = new InputStreamReader(httpConnection.getInputStream(),'utf-8'); BufferedReader bufferedReader = new BufferedReader(input); String line =''; StringBuilder stringBuilder = new StringBuilder(); while ((line =bufferedReader.readLine())!=null){ stringBuilder.append(line); } String string =stringBuilder.toString(); int begin =string.indexOf(''); int end=string.indexOf(''); System.out.println('IP address:'+string.substring(begin,end)); }

上一篇：Web scrape插件如何抓取多页的数据

下一篇：如何通过Java代码实现对网页数据进行指定抓取

欧尼酱

如何爬取网页数据

如何掌握篮球技巧及提高篮球水平？

如何自制椒盐土豆

造越位战术如何运用和注意事项

篮球如何防守深度切入

如何打赢一场实力不对称的街球比赛

中端数码单反相机如何选购？

惠普小超人m132nw耗材如何选择？

如何在摄影的道路上进步的更快

如何区别激光打印机和喷墨打印机？

如何对魔漫相机进行意见反馈

佳能相机6D如何设置连拍

如何提高激光打印机的打印速度

浅谈激光打印机打印原理如何释放粉尘

如何自己给激光打印机装粉盒？

健美相机如何使用

如何更换激光打印机硒鼓的鼓芯？

单反摄影相机 如何快速提高构图水平？

佳能EOS 600D数码单反相机如何上传照片

打印机如何节省碳粉

单反相机如何手动精确对焦

三星PPM42M5S液晶显示器使用说明书:[3]

《除魔》实用攻略之铜钱

教你做萝卜丝包子

小硬币大用途

购买家装壁纸有什么要求？

逆水寒怎么买铜钱

接吻有什么好处和坏处

怎样化解灶台对厨房门

蕾丝连衣裙搭配什么衣服好看

2013早春韩版蕾丝连衣裙搭配

2013最新夏装蕾丝流行趋势

如何使用wps图片的设图片为桌面背景功能？

圆明园60岁以上老人怎么买票

怎么投诉物业

酸梅酒的做法

【草莓酒酿蒸蛋】——营养低脂的“液体蛋糕”

酸酸甜甜的草莓酱

怎么做蓝莓酒

妈妈厨房：草莓酒酿蒸蛋

做南瓜馒头无水版的教程

单反摄影相机如何快速提高构图水平？