编程 Python

几行Python代码爬取3000+上市公司的信息

Posted in Python onJanuary 24, 2019

前言

入门爬虫很容易，几行代码就可以，可以说是学习 Python 最简单的途径。

刚开始动手写爬虫，你只需要关注最核心的部分，也就是先成功抓到数据，其他的诸如：下载速度、存储方式、代码条理性等先不管，这样的代码简短易懂、容易上手，能够增强信心。

基本环境配置

版本：Python3
系统：Windows
相关模块：pandas、csv

爬取目标网站

几行Python代码爬取3000+上市公司的信息

实现代码

import pandas as pdimport csvfor i in range(1,178): # 爬取全部页  tb = pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str(i)))[3]   tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0)

3000+ 上市公司的信息，安安静静地躺在 Excel 中：

几行Python代码爬取3000+上市公司的信息

有了上面的信心后，我开始继续完善代码，因为 5 行代码太单薄，功能也太简单，大致从以下几个方面进行了完善：

增加异常处理

由于爬取上百页的网页，中途很可能由于各种问题导致爬取失败，所以增加了 try except 、if 等语句，来处理可能出现的异常，让代码更健壮。

增加代码灵活性

初版代码由于固定了 URL 参数，所以只能爬取固定的内容，但是人的想法是多变的，一会儿想爬这个一会儿可能又需要那个，所以可以通过修改 URL 请求参数，来增加代码灵活性，从而爬取更灵活的数据。

修改存储方式

初版代码我选择了存储到 Excel 这种最为熟悉简单的方式，人是一种惰性动物，很难离开自己的舒适区。但是为了学习新知识，所以我选择将数据存储到 MySQL 中，以便练习 MySQL 的使用。

加快爬取速度

初版代码使用了最简单的单进程爬取方式，爬取速度比较慢，考虑到网页数量比较大，所以修改为了多进程的爬取方式。

经过以上这几点的完善，代码量从原先的 5 行增加到了下面的几十行：

import requestsimport pandas as pdfrom bs4 import BeautifulSoupfrom lxml import etreeimport timeimport pymysqlfrom sqlalchemy import create_enginefrom urllib.parse import urlencode # 编码 URL 字符串start_time = time.time() #计算程序运行时间def get_one_page(i):  try:    headers = {      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'    }    paras = {    'reportTime': '2017-12-31',    #可以改报告日期，比如2018-6-30获得的就是该季度的信息    'pageNum': i  #页码    }    url = 'http://s.askci.com/stock/a/?' + urlencode(paras)    response = requests.get(url,headers = headers)    if response.status_code == 200:      return response.text    return None  except RequestException:    print('爬取失败')def parse_one_page(html):  soup = BeautifulSoup(html,'lxml')  content = soup.select('#myTable04')[0] #[0]将返回的list改为bs4类型  tbl = pd.read_html(content.prettify(),header = 0)[0]  # prettify()优化代码,[0]从pd.read_html返回的list中提取出DataFrame  tbl.rename(columns = {'序号':'serial_number', '股票代码':'stock_code', '股票简称':'stock_abbre', '公司名称':'company_name', '省份':'province', '城市':'city', '主营业务收入(201712)':'main_bussiness_income', '净利润(201712)':'net_profit', '员工人数':'employees', '上市日期':'listing_date', '招股书':'zhaogushu', '公司财报':'financial_report', '行业分类':'industry_classification', '产品类型':'industry_type', '主营业务':'main_business'},inplace = True)  return tbldef generate_mysql():  conn = pymysql.connect(    host='localhost',    user='root',    password='******',    port=3306,    charset = 'utf8',     db = 'wade')  cursor = conn.cursor()  sql = 'CREATE TABLE IF NOT EXISTS listed_company (serial_number INT(20) NOT NULL,stock_code INT(20) ,stock_abbre VARCHAR(20) ,company_name VARCHAR(20) ,province VARCHAR(20) ,city VARCHAR(20) ,main_bussiness_income VARCHAR(20) ,net_profit VARCHAR(20) ,employees INT(20) ,listing_date DATETIME(0) ,zhaogushu VARCHAR(20) ,financial_report VARCHAR(20) , industry_classification VARCHAR(20) ,industry_type VARCHAR(100) ,main_business VARCHAR(200) ,PRIMARY KEY (serial_number))'  cursor.execute(sql)  conn.close()def write_to_sql(tbl, db = 'wade'):  engine = create_engine('mysql+pymysql://root:******@localhost:3306/{0}?charset=utf8'.format(db))  try:    tbl.to_sql('listed_company2',con = engine,if_exists='append',index=False)    # append表示在原有表基础上增加，但该表要有表头  except Exception as e:    print(e)def main(page):  generate_mysql()  for i in range(1,page):     html = get_one_page(i)    tbl = parse_one_page(html)    write_to_sql(tbl)# # 单进程if __name__ == '__main__':    main(178)  endtime = time.time()-start_time  print('程序运行了%.2f秒' %endtime)# 多进程from multiprocessing import Poolif __name__ == '__main__':   pool = Pool(4)   pool.map(main, [i for i in range(1,178)]) #共有178页  endtime = time.time()-start_time  print('程序运行了%.2f秒' %(time.time()-start_time))

结语

这个过程觉得很自然，因为每次修改都是针对一个小点，一点点去学，搞懂后添加进来，而如果让你上来就直接写出这几十行的代码，你很可能就放弃了。

所以，你可以看到，入门爬虫是有套路的，最重要的是给自己信心。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

几行Python代码爬取3000+上市公司的信息

- Author -

Python新世界

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python实现递归版汉诺塔示例(汉诺塔递归算法)

Apr 08 Python

python实现多线程暴力破解登陆路由器功能代码分享

Jan 04 Python

python的Tqdm模块的使用

Jan 10 Python

使用Python自动化破解自定义字体混淆信息的方法实例

Feb 13 Python

python pandas获取csv指定行列的操作方法

Jul 12 Python

Pandas分组与排序的实现

Jul 23 Python

Python实现生成密码字典的方法示例

Sep 02 Python

PyTorch如何搭建一个简单的网络

Aug 24 Python

Python 在 VSCode 中使用 IPython Kernel 的方法详解

Sep 05 Python

Python Pivot table透视表使用方法解析

Sep 11 Python

python 调用API接口获取和解析 Json数据

Sep 28 Python

详解Go语言运用广度优先搜索走迷宫

Jun 23 Python

python安装pywin32clipboard的操作方法

Jan 24 #Python

Python中extend和append的区别讲解

Jan 24 #Python

对python pandas读取剪贴板内容的方法详解

Jan 24 #Python

Python3按一定数据位数格式处理bin文件的方法

Jan 24 #Python

Python使用post及get方式提交数据的实例

Jan 24 #Python

在python中利用opencv简单做图片比对的方法

Jan 24 #Python

正确理解Python中if __name__ == '__main__'

Jan 24 #Python

You might like

php 判断网页是否是utf8编码的方法

2014/06/06 PHP

微信公众平台天气预报功能开发

2014/07/06 PHP

PHP命名空间和自动加载类

2016/04/03 PHP

Jquery each方法跳出循环,并获取返回值(实例讲解)

2013/12/12 Javascript

原生js实现复制对象、扩展对象类似jquery中的extend()方法

2014/08/30 Javascript

JavaScript中的console.group()函数详细介绍

2014/12/29 Javascript

Jquery动态替换div内容及动态展示的方法

2015/01/23 Javascript

javascript去除字符串左右两端的空格

2015/02/05 Javascript

javascript文本框内输入文字倒计数的方法

2015/02/24 Javascript

去除html代码里面的script正则方法

2016/05/19 Javascript

Canvas实现微信红包照片效果

2018/08/21 Javascript

vscode配置vue下的es6规范自动格式化详解

2019/03/20 Javascript

vue:el-input输入时限制输入的类型操作

2020/08/05 Javascript

[27:08]完美世界DOTA2联赛PWL S2 SZ vs Rebirth 第二场 11.21

2020/11/23 DOTA

用Python中的wxPython实现最基本的浏览器功能

2015/04/14 Python

python显示生日是星期几的方法

2015/05/27 Python

python中WSGI是什么，Python应用WSGI详解

2017/11/24 Python

pandas中Timestamp类用法详解

2017/12/11 Python

详解Python3.6安装psutil模块和功能简介

2018/05/30 Python

Python常见的pandas用法demo示例

2019/03/16 Python

python 函数的缺省参数使用注意事项分析

2019/09/17 Python

Python调用graphviz绘制结构化图形网络示例

2019/11/22 Python

Python使用正则实现计算字符串算式

2019/12/29 Python

keras使用Sequence类调用大规模数据集进行训练的实现

2020/06/22 Python

利用Python的folium包绘制城市道路图的实现示例

2020/08/24 Python

css3加js做一个简单的3D行星运转效果实例代码

2017/01/18 HTML / CSS

保加利亚服装和鞋类购物网站：Bibloo.bg

2020/11/08 全球购物

洗煤厂厂长岗位职责

2014/01/03 职场文书

2014年道德讲堂实施方案

2014/03/05 职场文书

政协调研汇报材料

2014/08/15 职场文书

春节慰问信范文

2015/02/15 职场文书

2015年乡镇民政工作总结

2015/05/13 职场文书

孙振耀退休感言

2015/08/01 职场文书

公司环境卫生管理制度

2015/08/05 职场文书

毕业晚宴祝酒词

2015/08/11 职场文书

一些让Python代码简洁的实用技巧总结

2021/08/23 Python