使用requests库制作Python爬虫


Posted in Python onMarch 25, 2018

使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。

下面介绍requests库简单使用:

#!/usr/local/env python
# coding:utf-8

import requests

#下面开始介绍requests的使用,环境语言是python3,使用下面的网址作为参考
#http://www.sse.com.cn/market/bonddata/data/tb/

request_param = {'jsonCallBack': 'jsonpCallback6588',
   'isPagination': 'true',
   'sqlId': 'COMMON_BOND_XXPL_ZQXX_L',
   'BONDTYPE': '地×××府债券',
   'pageHelp.pageSize': '25',
   'pageHelp.pageNo': '2',
   'pageHelp.beginPage': '2',
   'pageHelp.cacheSize': '1',
   'pageHelp.endPage': '21'}

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
referer = 'http://www.sse.com.cn/market/bonddata/data/ltb/'
#设置headers
headers = {'User-Agent': user_agent, 'Referer': referer}
#设置代理
proxy = {
 "http":"http://113.214.13.1:8000"
}

# 需要请求的URL地址
request_url = 'http://query.sse.com.cn/commonQuery.do?'

#设置请求地址
response = requests.get(request_url, headers=headers, proxies=proxy, params=request_param);
print(response.status_code)
#文本响应内容
print(response.text)
#json格式响应内容
print(response.json())
#二进制响应内容
print(response.content)
#原始格式
print(response.raw)
Python 相关文章推荐
介绍Python的@property装饰器的用法
Apr 28 Python
Python 探针的实现原理
Apr 23 Python
Python进行数据提取的方法总结
Aug 22 Python
Python各类图像库的图片读写方式总结(推荐)
Feb 23 Python
几种实用的pythonic语法实例代码
Feb 24 Python
python学习入门细节知识点
Mar 29 Python
python print 按逗号或空格分隔的方法
May 02 Python
Python输出\u编码将其转换成中文的实例
Dec 15 Python
python二进制文件的转译详解
Jul 03 Python
django写用户登录判定并跳转制定页面的实例
Aug 21 Python
python中xlutils库用法浅析
Dec 29 Python
python3.9和pycharm的安装教程并创建简单项目的步骤
Feb 03 Python
利用Python代码实现数据可视化的5种方法详解
Mar 25 #Python
Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例
Mar 23 #Python
教你使用python实现微信每天给女朋友说晚安
Mar 23 #Python
python微信公众号开发简单流程
Mar 23 #Python
python3如何将docx转换成pdf文件
Mar 23 #Python
python实现csv格式文件转为asc格式文件的方法
Mar 23 #Python
python字典快速保存于读取的方法
Mar 23 #Python
You might like
PHP Smarty模版简单使用方法
2016/03/30 PHP
php array_merge_recursive 数组合并
2016/10/26 PHP
浅谈PHP安全防护之Web攻击
2017/01/03 PHP
php 中奖概率算法实现代码
2017/01/25 PHP
你必须知道的JavaScript 中字符串连接的性能的一些问题
2013/05/07 Javascript
angularjs指令中的compile与link函数详解
2014/12/06 Javascript
基于jQuery实现的图片切换焦点图整理
2014/12/07 Javascript
jQuery中 DOM节点操作方法大全
2017/10/12 jQuery
使用vue-cli(vue脚手架)快速搭建项目的方法
2018/05/21 Javascript
vue渲染方式render和template的区别
2020/06/05 Javascript
vue内置组件component--通过is属性动态渲染组件操作
2020/07/28 Javascript
vue添加锚点,实现滚动页面时锚点添加相应的class操作
2020/08/10 Javascript
Python中多线程的创建及基本调用方法
2016/07/08 Python
Python简单生成随机姓名的方法示例
2017/12/27 Python
详解python之heapq模块及排序操作
2019/04/04 Python
pow在python中的含义及用法
2019/07/11 Python
python list多级排序知识点总结
2019/10/23 Python
关于tensorflow的几种参数初始化方法小结
2020/01/04 Python
解决tensorflow打印tensor有省略号的问题
2020/02/04 Python
在Django中预防CSRF攻击的操作
2020/03/13 Python
python json.dumps中文乱码问题解决
2020/04/01 Python
Tensorflow中k.gradients()和tf.stop_gradient()用法说明
2020/06/10 Python
CSS3中颜色线性渐变实战
2015/07/18 HTML / CSS
德国最大的网上鞋店之一:Schuhe24.de
2017/06/10 全球购物
英国最大的经认证的有机超市:Planet Organic
2018/02/02 全球购物
什么是数据库锁?Oracle中都有哪些类型的锁?
2015/08/21 面试题
.NET面试题:什么是反射
2016/09/30 面试题
记者岗位职责
2014/01/06 职场文书
学子宴答谢词
2014/01/25 职场文书
《满井游记》教学反思
2014/02/26 职场文书
大班幼儿评语大全
2014/04/30 职场文书
感恩父母的演讲稿
2014/05/06 职场文书
擅自离岗检讨书
2014/09/12 职场文书
医德医风个人总结
2015/02/28 职场文书
2016年党员干部廉政承诺书
2016/03/24 职场文书
MySQL数据库压缩版本安装与配置详细教程
2021/05/21 MySQL