基于Python爬取搜狐证券股票过程解析


Posted in Python onNovember 18, 2020

数据的爬取

我们以上证50的股票为例,首先需要找到一个网站包含这五十只股票的股票代码,例如这里我们使用搜狐证券提供的列表。

https://q.stock.sohu.com/cn/bk_4272.shtml

基于Python爬取搜狐证券股票过程解析

可以看到,在这个网站中有上证50的所有股票代码,我们希望爬取的就是这个包含股票代码的表,并获取这个表的第一列。

爬取网站的数据我们使用Beautiful Soup这个工具包,需要注意的是,一般只能爬取到静态网页中的信息。

简单来说,Beautiful Soup是Python的一个库,最主要的功能是从网页抓取数据。

像往常一样,使用这个库之前,我们需要先导入该库bs4。除此之外,我们还需要使用requests这个工具获取网站信息,因此导入这两个库:

import bs4 as bs

import requests

我们定义一个函数saveSS50Tickers() 来实现上证50股票代码的获取,获取的数据来自于搜狐证券的网页,使用 get() 方法获取给定静态网页的数据。

def saveSS50Tickers():
resp = requests.get('https://q.stock.sohu.com/cn/bk_4272.shtml')

接下来我们打开搜狐证券的这个网址,在页面任意位置右键选择查看元素,或者Inspect Element,或者类似的选项来查看当前网站的源代码信息。

基于Python爬取搜狐证券股票过程解析

我们需要先在这里找出网页的一些基本信息和我们需要爬取的数据的特征。

基于Python爬取搜狐证券股票过程解析

首先,找到Element,在下面的内容中找到网页的头文件 (head)。然后找到网页的文字的编码方式。这里这个网页文字的编码方式是gb2312。

如果我们想爬取并正确显示这个网页上,就需要先对获取到的网页内容解码。

解码可以使用 encoding 这个方法:

resp.encoding = 'gb2312'

接下来使用 BeautifulSoup 和lxml解析网页信息:

soup = bs.BeautifulSoup(resp.text, 'lxml')

这里为了方便后期的处理,首先使用 resp.text 将网页信息转成了文本格式,然后再解析网页的数据。

接下来我们需要在网页的源码中找到需要爬取信息的标签,这里我们需要爬取这个表格中的信息,首先,可以通过网站源码的搜索功能搜索表格里的相关数据定位到表格的源码。

基于Python爬取搜狐证券股票过程解析

同样以这个页面为例,一般网页使用HTML语言编译的,因为要准确定位,我们需要了解一些 HTML 语言的基础内容。在这个页面的源码中,

基于Python爬取搜狐证券股票过程解析

<table表示表格开始,后面是这个表格的一些属性。</table>表示表格结束。

首先,我们使用 soup.find 在网页信息中找到这个表格标签的入口:

table = soup.find('table', {'id': 'BIZ_MS_plstock'})

其中'table'表示这里需要找到一个表格,{'id':'BIZ_MS_plstock'} 则是通过内容或者属性实现表格的进一步定位。

找到表格的位置之后,我们需要继续查找需要的数据,同样以这个页面为例:

基于Python爬取搜狐证券股票过程解析

在网页开发语言中,

<tr表示表格中开始新的一行,<td表示在这一行中又新建了一列,而</td>则表示这一列结束了,对应的</tr>则表示这一行结束了。

通过该网页的源码,我们可以发现,

表格的第一行和第二行都是表头的信息,第三行开始是五十家公司的股票信息。另外每家公司的股票代码在表格的第一列位置。

因为,在Python中,我们需要从表格的第三行开始抓取,每行抓取表格的第一列的数据,将抓取到的数据转换成文本格式,我们用一个列表 tickers 来存储抓取到的数据:

tickers = []
for row in table.findAll('tr')[2:]:
ticker = row.findAll('td')[0].text
tickers.append(ticker + '.SS')

因此为了方便后续进行数据处理,这里我们存储上证50的每家公司的股票代码时,都在代码后面再添加'.SS'的字符。这时我们运行目前的代码,并将列表tickers输出:

# 导入 beautiful soup4 包,用于抓取网页信息
import bs4 as bs
# 导入 pickle 用于序列化对象
import pickle
# 导入 request 用于获取网站上的源码
import requests

def saveSS50Tickers():
  resp = requests.get('https://q.stock.sohu.com/cn/bk_4272.shtml')
  resp.encoding = 'gb2312'
  soup = bs.BeautifulSoup(resp.text, 'lxml')
  # print(soup)
  
  table = soup.find('table', {'id': 'BIZ_MS_plstock'})
  # print(table)
  tickers = []
  # print(table.find_all('tr'))
  for row in table.findAll('tr')[2:]:
    # print(row)
    ticker = row.findAll('td')[0].text
    tickers.append(ticker + '.SS') 
  return tickers

tickers = saveSS50Tickers()
print(tickers)

观察到输出信息如下:

['600036.SS', '601229.SS', '600031.SS', '601166.SS', '600104.SS', '600030.SS', '603259.SS', '601668.SS', '601628.SS', '601766.SS', '601857.SS', '601398.SS', '601390.SS', '600029.SS', '600028.SS', '601818.SS', '601211.SS', '601066.SS', '601111.SS', '600837.SS', '600887.SS', '601888.SS', '600690.SS', '600519.SS', '600016.SS', '601989.SS', '601988.SS', '601601.SS', '600019.SS', '601186.SS', '600703.SS', '600196.SS', '601318.SS', '601800.SS', '600050.SS', '601319.SS', '601288.SS', '601688.SS', '603993.SS', '600309.SS', '600048.SS', '600276.SS', '601138.SS', '601336.SS', '601088.SS', '600585.SS', '600000.SS', '601328.SS', '601939.SS', '600340.SS']

这样我们就从搜狐证券这个网站上爬取到了上证50的公司股票代码,并将其以字符串的格式存放在了一个列表变量中。

将股票代码保存到本地

一般像股票代码这种内容,短时间内不会有很大的变动,所以我们也不需要每次使用时重新爬取,一种方便的做法是可以将股票代码信息以文件的格式保存到本地,需要使用时直接从本地读取就可以了。

这里我们将股票代码数据保存为pickle格式。pickle 格式的数据可以在 Python 中高效的存取,当然,将文件导出成该格式前需要先导入相应的pickle 库:

import pickle

pickle可以保存任何数据格式的数据,在经常存取的场景(保存和恢复状态)下读取更加高效。

把文件导出成pickle格式的方法是 pickle.dump,同时需要结合文件读写操作:

with open('SS50tickers.pickle', 'wb') as f: pickle.dump(tickers, f)

这里的'SS50tickers.pickle'就是保存的文件的名称,'wb'则表示向文件中写入数据。pickle.dump(tickers, f) 表示将列表tickers写入到文件中。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python list中append()与extend()用法分享
Mar 24 Python
python实现2014火车票查询代码分享
Jan 10 Python
跟老齐学Python之有容乃大的list(2)
Sep 15 Python
使用Python发送邮件附件以定时备份MySQL的教程
Apr 25 Python
Python中每次处理一个字符的5种方法
May 21 Python
Windows上使用virtualenv搭建Python+Flask开发环境
Jun 07 Python
关于Python元祖,列表,字典,集合的比较
Jan 06 Python
关于Python如何避免循环导入问题详解
Sep 14 Python
python编程实现随机生成多个椭圆实例代码
Jan 03 Python
python中metaclass原理与用法详解
Jun 25 Python
Python 最强编辑器详细使用指南(PyCharm )
Sep 16 Python
详解Anaconda 的安装教程
Sep 23 Python
Python + opencv对拍照得到的图片进行背景去除的实现方法
Nov 18 #Python
Anaconda的安装与虚拟环境建立
Nov 18 #Python
如何基于Python pygame实现动画跑马灯
Nov 18 #Python
Pycharm安装Qt Design快捷工具的详细教程
Nov 18 #Python
jupyter使用自动补全和切换默认浏览器的方法
Nov 18 #Python
Python urllib3软件包的使用说明
Nov 18 #Python
Python从文件中读取数据的方法步骤
Nov 18 #Python
You might like
phpfans留言版用到的install.php
2007/01/04 PHP
PHP 图片上传实现代码 带详细注释
2010/04/29 PHP
PHP调用wsdl文件类型的接口代码分享
2014/11/19 PHP
浅析PHP7新功能及语法变化总结
2016/06/17 PHP
session 加入redis的实现代码
2016/07/15 PHP
PHP面向对象自动加载机制原理与用法分析
2016/10/14 PHP
PHP自带方法验证邮箱、URL、IP是否合法的函数
2016/12/08 PHP
纯JAVASCRIPT图表动画插件Highcharts Examples
2011/04/16 Javascript
jquery easyui combox一些实用的小方法
2013/12/25 Javascript
JavaScript中的style.cssText使用教程
2014/11/06 Javascript
基于jquery实现图片上传本地预览功能
2016/01/08 Javascript
Js 获取、判断浏览器版本信息的简单方法
2016/08/08 Javascript
JS判断是否在微信浏览器打开的简单实例(推荐)
2016/08/24 Javascript
JavaScript和jQuery获取input框的绝对位置实现方法
2016/10/13 Javascript
js实现鼠标拖动功能
2017/03/20 Javascript
JavaScript判断变量名是否存在数组中的实例
2017/12/28 Javascript
微信小程序swiper左右扩展各显示一半代码实例
2019/12/05 Javascript
微信公众号中的JSSDK接入及invalid signature等常见错误问题分析(全面解析)
2020/04/11 Javascript
跟老齐学Python之私有函数和专有方法
2014/10/24 Python
python读取json文件并将数据插入到mongodb的方法
2015/03/23 Python
python魔法方法-属性转换和类的表示详解
2016/07/22 Python
python 从文件夹抽取图片另存的方法
2018/12/04 Python
Python占用的内存优化教程
2019/07/28 Python
简单了解Django ORM常用字段类型及参数配置
2020/01/07 Python
python cookie反爬处理的实现
2020/11/01 Python
使用PDF.JS插件在HTML中预览PDF文件的方法
2018/08/29 HTML / CSS
宝拉珍选官方旗舰店:2%水杨酸精华液,收缩毛孔粗大和祛痘
2018/07/01 全球购物
个人自荐信
2013/12/05 职场文书
绘画专业自荐信范文
2014/02/23 职场文书
《梅兰芳学艺》教学反思
2014/02/24 职场文书
安全主题班会教案
2015/08/12 职场文书
商业计划书格式、范文
2019/03/21 职场文书
golang 实用库gotable的具体使用
2021/07/01 Golang
mysql事务对效率的影响分析总结
2021/10/24 MySQL
使用MybatisPlus打印sql语句
2022/04/22 SQL Server
教你使用Ubuntu搭建DNS服务器
2022/09/23 Servers