当前位置:首页 > 技术文章 > 正文内容

Python 爬虫如何爬取网页源码?

arlanguage2个月前 (03-17)技术文章13

下面教大家用几行代码轻松爬取百度首页源码。

什么是urllib?

urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:

  • urllib.request:请求模块
  • urllib.error:异常处理模块
  • urllib.parse:URL解析模块
  • urllib.robotparser:robots.txt解析模块

快速使用urllib爬取网页

爬取网页,其实就是通过URL获取网页信息,这段网页信息的实质就是一段附加了JS和CSS的HTML代码。如果把网页比作是一个人,那么HTML就是它的骨架,JS是它的肌肉,CSS是它的衣服。由此看来,网页最重要的数据部分是存在于HTML中的。

urllib库的使用比较简单,接下来,我们使用urllib快速爬取一个网页,具体代码如下:

importurllib.request
#调用urllib.request库的urlopen方法,并传入一个url
response=urllib.request.urlopen('http://www.baidu.com')
#使用read方法读取获取到的网页内容
html=response.read().decode('UTF-8')
#打印网页内容
print(html)

上述代码就是一个简单的爬取网页案例,爬取的网页结果如图所示。

获取的网页源码

实际上,如果我们在浏览器上打开百度首页,右键选择“查看源代码”,你会发现,跟我们刚才打印出来的是一模一样。也就是说,上述案例仅仅用了几行代码,就已经帮我们把百度首页的全部代码下载下来了。

多学一招:Python2使用的是urllib2库

Python2中使用的是urllib2库来下载网页,该库的用法如下所示:

importurllib2
response=urllib2.urlopen('http://www.baidu.com')

Python3出现后,之前Python2中的urllib2库被移到了urllib.request模块中,之前urllib2中很多函数的路径也发生了变化,希望大家在使用的时候多加注意。

扫描二维码推送至手机访问。

版权声明:本文由AR编程网发布,如需转载请注明出处。

本文链接:http://www.arlanguage.com/post/3349.html

分享给朋友:

“Python 爬虫如何爬取网页源码?” 的相关文章

Nginx常用配置与命令 nginx命令详解

Nginx特点高并发、高性能;模块化架构使得它的扩展性非常好;异步非阻塞的事件驱动模型这点和 Node.js 相似;相对于其它服务器来说它可以连续几个月甚至更长而不需要重启服务器使得它具有高可靠性;热部署、平滑升级;完全开源,生态繁荣;Nginx作用Nginx 的最重要的几个使用场景:静态资源服务,...

php手把手教你做网站(二十四)jquery ajax上传大的附件

上传大的附件分为两种情况,可以改变服务器配置;不能改变配置;第2种使用分片上传优势:可以突破服务器上传大小的限制,可以web存储上传到哪一块了,在浏览器关闭或者刷新的情况下可以断点续传;劣势:上传速度慢,在我本地电脑测试,200M的文件,改变配置按照正常方式上传大约需要12到15秒,但是使用第2种分...

K8S灰度环境频繁出现502 k8s ingress 灰度发布

公司一个需求版本开发、测试结束,升级到灰度环境之后频繁出现502公司使用的是php + nginx 所以分析也是按照这个方向来分析的。nginx报错:NGINX ERROR 10.9.95.75 !!!2020/07/21 17:05:12 [error] 7#7: *38808 recv() fa...

大数据分析工程师入门15-数据收集

数据与智能 本公众号关注大数据与人工智能技术。由一批具备多年实战经验的技术极客参与运营管理,持续输出大数据、数据分析、推荐系统、机器学习、人工智能等方向的原创文章,每周至少输出10篇精品原创。同时,我们会关注和分享大数据与人工智能行业动态。欢迎关注。 作者:凯凯连导语上一篇文章我们简单介绍了下大数...

宝塔面板如何关闭https强制跳转http/https共存

宝塔面板如何关闭https强制跳转http/https共存在 宝塔面板 中,如果你需要关闭 HTTPS 强制跳转并实现 HTTP 和 HTTPS 共存,可以通过以下步骤完成配置:一、关闭 HTTPS 强制跳转登录宝塔面板进入宝塔后台,点击左侧菜单中的 网站。找到目标网站在网站列表中找到需要取消 HT...

Python Web 应用部署指南:从开发到生产环境的最佳实践

部署 Python Web 应用是实现应用上线的重要步骤。以下是部署 Python Web 应用的一般步骤和技术选择:1. 选择 Web 框架Python 中常见的 Web 框架包括 Flask、Django 和 FastAPI。每个框架适用于不同类型的应用开发:Flask:适合轻量级、快速开发的应...