Python实现抓取网页生成Excel文件的方法示例


Posted in Python onAugust 05, 2017

本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下:

Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力

示例代码如下:

#-*- encoding:utf-8 -*-
import sys
import locale
import string
import traceback
import datetime
import urllib2
from pyquery import PyQuery as pq
# 确定运行环境的encoding
reload(sys);
sys.setdefaultencoding('utf8');
f = open('gongsi.csv', 'w');
for i in range(1,24):
  d = pq(url="http://www.yourwebname.com/?Code=HANGYELINGYU&myFlag=allShow&SiteID=122&PageIndex=%d"%(i));
  itemsa=d('dl dt a') #取title元素
  itemsb=d('dl dd') #取title元素
  for j in range(0,len(itemsa)):
    f.write("%s,\"%s\"\n"%(itemsa[j].get('title'),itemsb[j*2].text));
  #end for
#end for
f.close();

接下来就是用Notepad++打开gongsi.csv,然后转成ANSI编码格式,保存。再用Excel软件打开这个csv文件,另存为Excel文件

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python 数据加密代码
Dec 24 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
用Python进行一些简单的自然语言处理的教程
Mar 31 Python
深入讲解Python中的迭代器和生成器
Oct 26 Python
mac安装pytorch及系统的numpy更新方法
Jul 26 Python
python实现通过队列完成进程间的多任务功能示例
Oct 28 Python
利用Python绘制有趣的万圣节南瓜怪效果
Oct 31 Python
python构造函数init实例方法解析
Jan 19 Python
PyCharm取消波浪线、下划线和中划线的实现
Mar 03 Python
pytorch VGG11识别cifar10数据集(训练+预测单张输入图片操作)
Jun 24 Python
python 使用OpenCV进行简单的人像分割与合成
Feb 02 Python
深入浅析Django MTV模式
Sep 04 Python
Python基于Socket实现的简单聊天程序示例
Aug 05 #Python
Python Socket实现简单TCP Server/client功能示例
Aug 05 #Python
对pandas的dataframe绘图并保存的实现方法
Aug 05 #Python
解决PyCharm中光标变粗的问题
Aug 05 #Python
Python实现的中国剩余定理算法示例
Aug 05 #Python
python爬虫_自动获取seebug的poc实例
Aug 05 #Python
python中的break、continue、exit()、pass全面解析
Aug 05 #Python
You might like
PHP几个实用自定义函数小结
2016/01/25 PHP
作为PHP程序员你要知道的另外一种日志
2018/07/30 PHP
gearman管理工具GearmanManager的安装与php使用方法示例
2020/02/27 PHP
javascript &&和||运算法的另类使用技巧
2009/11/28 Javascript
另一个javascript小测验(代码集合)
2011/07/27 Javascript
使用js修改客户端注册表的方法
2013/08/09 Javascript
javascript:FF/Chrome与IE动态加载元素的区别说明
2014/01/26 Javascript
Js操作树节点自动折叠展开的几种方法
2014/05/05 Javascript
JavaScript实现大数的运算
2014/11/24 Javascript
jQuery.position()方法获取不到值的安全替换方法
2015/03/13 Javascript
剖析Node.js异步编程中的回调与代码设计模式
2016/02/16 Javascript
Markdown与Bootstrap相结合实现图片自适应属性
2016/05/04 Javascript
原生ajax处理json格式数据的实例代码
2016/12/25 Javascript
基于jQuery制作小图标上下滑动特效
2017/01/18 Javascript
PHP 实现一种多文件上传的方法
2017/09/20 Javascript
Thinkjs3新手入门之添加一个新的页面
2017/12/06 Javascript
利用node实现一个批量重命名文件的函数
2017/12/21 Javascript
深入理解JavaScript的async/await
2018/08/05 Javascript
vue 项目打包时样式及背景图片路径找不到的解决方式
2019/11/12 Javascript
vue.js this.$router.push获取不到params参数问题
2020/03/03 Javascript
详解阿里Node.js技术文档之process模块学习指南
2021/01/04 Javascript
[04:27]DOTA2官方论坛水友赛集锦
2013/09/16 DOTA
[01:20:05]DOTA2-DPC中国联赛 正赛 Ehome vs VG BO3 第二场 2月5日
2021/03/11 DOTA
Pyramid将models.py文件的内容分布到多个文件的方法
2013/11/27 Python
讲解Python中的递归函数
2015/04/27 Python
python中defaultdict的用法详解
2017/06/07 Python
在python中利用numpy求解多项式以及多项式拟合的方法
2019/07/03 Python
Python实现快速排序的方法详解
2019/10/25 Python
Docker部署Python爬虫项目的方法步骤
2020/01/19 Python
某公司部分笔试题
2013/11/05 面试题
大二学期个人自我评价
2014/01/13 职场文书
给儿子的表扬信
2014/01/15 职场文书
党员干部廉洁自律承诺书
2015/04/28 职场文书
工会经费申请报告
2015/05/15 职场文书
无犯罪记录证明样本
2015/06/16 职场文书
纯CSS实现酷炫的霓虹灯效果
2021/04/13 HTML / CSS