Python获取基金网站网页内容、使用BeautifulSoup库分析html操作示例


Posted in Python onJune 04, 2019

本文实例讲述了Python获取基金网站网页内容、使用BeautifulSoup库分析html操作。分享给大家供大家参考,具体如下:

利用 urllib包 获取网页内容

#引入包
from urllib.request import urlopen
response = urlopen("http://fund.eastmoney.com/fund.html")
html = response.read();
#这个网页编码是gb2312
#print(html.decode("gb2312"))
#把html内容保存到一个文件
with open("1.txt","wb") as f:
  f.write(html.decode("gb2312").encode("utf8"))
  f.close()

使用BeautifulSoup分析html

from bs4 import BeautifulSoup
# 读取文件内容
with open("1.txt", "rb") as f:
  html = f.read().decode("utf8")
  f.close()
# 分析html内容
soup = BeautifulSoup(html,"html.parser")
# 取出网页title
print(soup.title) #<title>每日开放式基金净值表 _ 天天基金网</title>
# 基金编码
codes = soup.find("table",id="oTable").tbody.find_all("td","bzdm")
result = () # 初始化一个元组
for code in codes:
  result += ({
    "code":code.get_text(),
    "name":code.next_sibling.find("a").get_text(),
    "NAV":code.next_sibling.next_sibling.get_text(),
    "ACCNAV":code.next_sibling.next_sibling.next_sibling.get_text()
   },)
# 打印结果
print(result[0]["name"])

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python开发实例分享bt种子爬虫程序和种子解析
May 21 Python
python动态加载包的方法小结
Apr 18 Python
Python爬虫爬取美剧网站的实现代码
Sep 03 Python
Python中文分词工具之结巴分词用法实例总结【经典案例】
Apr 15 Python
Python 输出时去掉列表元组外面的方括号与圆括号的方法
Dec 24 Python
Python中的random.uniform()函数教程与实例解析
Mar 02 Python
Django使用消息提示简单的弹出个对话框实例
Nov 15 Python
PyTorch 对应点相乘、矩阵相乘实例
Dec 27 Python
Python字符编码转码之GBK,UTF8互转
Feb 09 Python
Django高并发负载均衡实现原理详解
Apr 04 Python
解决Python数据可视化中文部分显示方块问题
May 16 Python
Python中qutip用法示例详解
Oct 02 Python
Python使用MyQR制作专属动态彩色二维码功能
Jun 04 #Python
Python流行ORM框架sqlalchemy安装与使用教程
Jun 04 #Python
Python3日期与时间戳转换的几种方法详解
Jun 04 #Python
Falsk 与 Django 过滤器的使用与区别详解
Jun 04 #Python
python儿童学游戏编程知识点总结
Jun 03 #Python
Python控制Firefox方法总结
Jun 03 #Python
python+webdriver自动化环境搭建步骤详解
Jun 03 #Python
You might like
《一拳超人》埼玉一拳下去,他们存在了800年毫无意义!
2020/03/02 日漫
无线电的诞生过程
2021/03/01 无线电
关于mysql 字段的那个点为是定界符
2007/01/15 PHP
解析:通过php socket并借助telnet实现简单的聊天程序
2013/06/18 PHP
WordPress中用于创建以及获取侧边栏的PHP函数讲解
2015/12/29 PHP
thinkphp5.1 文件引入路径问题及注意事项
2018/06/13 PHP
php解决crontab定时任务不能写入文件问题的方法分析
2019/09/16 PHP
获取内联和链接中的样式(js代码)
2013/04/11 Javascript
iframe子页面获取父页面元素的方法
2013/11/05 Javascript
利用jq让你的div居中的好方法分享
2013/11/21 Javascript
js鼠标及对象坐标控制属性详细解析
2013/12/14 Javascript
使用angular写一个hello world
2015/01/23 Javascript
Flow之一个新的Javascript静态类型检查器
2015/12/21 Javascript
全面解析多种Bootstrap图片轮播效果
2016/05/27 Javascript
JQuery EasyUI Layout 在from布局自适应窗口大小的实现方法
2016/05/28 Javascript
在JavaScript中调用Java类和接口的方法
2016/09/07 Javascript
Node.js应用设置安全的沙箱环境
2018/04/23 Javascript
vue 自定义提示框(Toast)组件的实现代码
2018/08/17 Javascript
如何在基于vue-cli的项目自定义打包环境
2018/11/10 Javascript
ES10的13个新特性示例(小结)
2019/09/23 Javascript
javascript设计模式 ? 解释器模式原理与用法实例分析
2020/04/17 Javascript
Pycharm学习教程(4) Python解释器的相关配置
2017/05/03 Python
基于Python的XSS测试工具XSStrike使用方法
2017/07/29 Python
Django model序列化为json的方法示例
2018/10/16 Python
Python 多线程不加锁分块读取文件的方法
2018/12/11 Python
python读取大文件越来越慢的原因与解决
2019/08/08 Python
Python flask路由间传递变量实例详解
2020/06/03 Python
新春联欢会主持词
2014/03/24 职场文书
生物科学专业毕业生求职信
2014/06/02 职场文书
走群众路线剖析材料
2014/10/09 职场文书
公安机关正风肃纪剖析材料
2014/10/10 职场文书
房地产销售员岗位职责
2015/04/11 职场文书
法定代表人身份证明书
2015/06/18 职场文书
html5调用摄像头截图功能
2022/01/18 Javascript
详解Python+OpenCV进行基础的图像操作
2022/02/15 Python
Mysql数据库事务的脏读幻读及不可重复读详解
2022/05/30 MySQL