Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例


Posted in Python onJune 04, 2019

本文实例讲述了Python获取基金网站网页内容、使用BeautifulSoup库分析html操作。分享给大家供大家参考,具体如下:

利用 urllib包 获取网页内容

#引入包
from urllib.request import urlopen
response = urlopen("http://fund.eastmoney.com/fund.html")
html = response.read();
#这个网页编码是gb2312
#print(html.decode("gb2312"))
#把html内容保存到一个文件
with open("1.txt","wb") as f:
  f.write(html.decode("gb2312").encode("utf8"))
  f.close()

使用BeautifulSoup分析html

from bs4 import BeautifulSoup
# 读取文件内容
with open("1.txt", "rb") as f:
  html = f.read().decode("utf8")
  f.close()
# 分析html内容
soup = BeautifulSoup(html,"html.parser")
# 取出网页title
print(soup.title) #<title>每日开放式基金净值表 _ 天天基金网</title>
# 基金编码
codes = soup.find("table",id="oTable").tbody.find_all("td","bzdm")
result = () # 初始化一个元组
for code in codes:
  result += ({
    "code":code.get_text(),
    "name":code.next_sibling.find("a").get_text(),
    "NAV":code.next_sibling.next_sibling.get_text(),
    "ACCNAV":code.next_sibling.next_sibling.next_sibling.get_text()
   },)
# 打印结果
print(result[0]["name"])

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中处理字符串之isalpha()方法的使用
May 18 Python
Python脚本获取操作系统版本信息
Dec 17 Python
python3+dlib实现人脸识别和情绪分析
Apr 21 Python
python实现京东秒杀功能
Jul 30 Python
使用python Telnet远程登录执行程序的方法
Jan 26 Python
浅谈Pandas Series 和 Numpy array中的相同点
Jun 28 Python
python+Django实现防止SQL注入的办法
Oct 31 Python
PyQt5 如何让界面和逻辑分离的方法
Mar 24 Python
Python 通过正则表达式快速获取电影的下载地址
Aug 17 Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 Python
Pytorch 图像变换函数集合小结
Feb 01 Python
教你怎么用Python实现多路径迷宫
Apr 29 Python
Python使用MyQR制作专属动态彩色二维码功能
Jun 04 #Python
Python流行ORM框架sqlalchemy安装与使用教程
Jun 04 #Python
Python3日期与时间戳转换的几种方法详解
Jun 04 #Python
Falsk 与 Django 过滤器的使用与区别详解
Jun 04 #Python
python儿童学游戏编程知识点总结
Jun 03 #Python
Python控制Firefox方法总结
Jun 03 #Python
python+webdriver自动化环境搭建步骤详解
Jun 03 #Python
You might like
php中文字符串截取多种方法汇总
2016/10/06 PHP
laravel 解决后端无法获取到前端Post过来的值问题
2019/10/22 PHP
图片连续滚动代码[兼容IE/firefox]
2009/06/11 Javascript
JavaScript的单例模式 (singleton in Javascript)
2010/06/11 Javascript
JavaScript中两种链式调用实现代码
2011/01/12 Javascript
jQuery代码优化 事件委托篇
2011/11/01 Javascript
基于jquery的拖动布局插件
2011/11/25 Javascript
js中的referrer返回上一页使用介绍
2013/09/26 Javascript
jquery插件jTimer(jquery定时器)使用方法
2013/12/23 Javascript
javascript对话框使用方法(警告框 javascript确认框 提示框)
2014/01/07 Javascript
javascript实现ecshop搜索框键盘上下键切换控制
2015/03/18 Javascript
JavaScript实现cookie的写入、读取、删除功能
2015/11/05 Javascript
Bootstrap table分页问题汇总
2016/05/30 Javascript
Vue Cli与BootStrap结合实现表格分页功能
2017/08/18 Javascript
vue使用自定义icon图标的方法
2018/05/14 Javascript
angularjs $http调用接口的方式详解
2018/08/13 Javascript
vue 中滚动条始终定位在底部的方法
2018/09/03 Javascript
微信小程序map组件结合高德地图API实现wx.chooseLocation功能示例
2019/01/23 Javascript
从0到1构建vueSSR项目之node以及vue-cli3的配置
2019/03/07 Javascript
Element Backtop回到顶部的具体使用
2020/07/27 Javascript
[50:02]完美世界DOTA2联赛循环赛 Magma vs IO BO2第一场 11.01
2020/11/02 DOTA
详解Python的Django框架中的Cookie相关处理
2015/07/22 Python
Python使用OpenCV进行标定
2018/05/08 Python
解决matplotlib库show()方法不显示图片的问题
2018/05/24 Python
分析经典Python开发工程师面试题
2019/04/08 Python
python实现xlwt xlrd 指定条件给excel行添加颜色
2020/07/14 Python
Python urllib request模块发送请求实现过程解析
2020/12/10 Python
浅谈HTML5新增及移除的元素
2016/06/27 HTML / CSS
html5实现输入框fixed定位在屏幕最底部兼容性
2020/07/03 HTML / CSS
周鸿祎:教你写创业计划书
2013/12/30 职场文书
出纳员岗位职责
2014/03/13 职场文书
企业负责人任命书
2014/06/05 职场文书
入队仪式主持词
2015/07/04 职场文书
2015暑期爱心支教策划书
2015/07/14 职场文书
最新动漫情报:2022年7月新番定档超过30部, OVERLORD骨王第四季也在其中噢
2022/05/04 日漫
多线程Spring通过@Scheduled实现定时任务
2022/05/25 Java/Android