爬虫
爬虫
1.1 爬虫的定义
- 爬虫是指使用代码模拟用户批量发送网络请求,批量获取数据的行为。
1.2 urllib的基本使用
1 | # 使用urllib来获取百度首页的源码 |
1.3 urllib 一个类型6个方法
1 | coding: 'utf8' |
1.4 请求对象定制
1 | import urllib.request |
- 扩展
1.5 urllib_get请求方式 quote方法
1 | import urllib.request |
1.6urllib_get请求方式 urlencode方法
1 | # urlencode的应用场景 |
1.7post请求方式百度方式
1 | import urllib.request |
1.9 ajax get请求 豆瓣电影的第一页数据
1 | # get 请求 获取豆瓣电影第一页的数据 并且保存起来 |
2.0 urllib异常处理
1 | import urllib.error |
2.1 handler处理器
1 | import urllib.request |
2.2 代理
1 | import urllib.request |
2.3 代理池
1 | import urllib.request |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 梦创空间!
评论