Python实现抓取网页生成Excel文件的方法示例


Posted in Python onAugust 05, 2017

本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下:

Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力

示例代码如下:

#-*- encoding:utf-8 -*-
import sys
import locale
import string
import traceback
import datetime
import urllib2
from pyquery import PyQuery as pq
# 确定运行环境的encoding
reload(sys);
sys.setdefaultencoding('utf8');
f = open('gongsi.csv', 'w');
for i in range(1,24):
  d = pq(url="http://www.yourwebname.com/?Code=HANGYELINGYU&myFlag=allShow&SiteID=122&PageIndex=%d"%(i));
  itemsa=d('dl dt a') #取title元素
  itemsb=d('dl dd') #取title元素
  for j in range(0,len(itemsa)):
    f.write("%s,\"%s\"\n"%(itemsa[j].get('title'),itemsb[j*2].text));
  #end for
#end for
f.close();

接下来就是用Notepad++打开gongsi.csv,然后转成ANSI编码格式,保存。再用Excel软件打开这个csv文件,另存为Excel文件

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
详解Python中的文本处理
Apr 11 Python
在Python中使用列表生成式的教程
Apr 27 Python
python+VTK环境搭建及第一个简单程序代码
Dec 13 Python
python+matplotlib实现礼盒柱状图实例代码
Jan 16 Python
python:print格式化输出到文件的实例
May 14 Python
Django forms组件的使用教程
Oct 08 Python
在Qt中正确的设置窗体的背景图片的几种方法总结
Jun 19 Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 Python
详解Python中的format格式化函数的使用方法
Nov 20 Python
Python谱减法语音降噪实例
Dec 18 Python
SpringBoot实现登录注册常见问题解决方案
Mar 04 Python
Python+logging输出到屏幕将log日志写入文件
Nov 11 Python
Python基于Socket实现的简单聊天程序示例
Aug 05 #Python
Python Socket实现简单TCP Server/client功能示例
Aug 05 #Python
对pandas的dataframe绘图并保存的实现方法
Aug 05 #Python
解决PyCharm中光标变粗的问题
Aug 05 #Python
Python实现的中国剩余定理算法示例
Aug 05 #Python
python爬虫_自动获取seebug的poc实例
Aug 05 #Python
python中的break、continue、exit()、pass全面解析
Aug 05 #Python
You might like
PHP中SESSION使用中的一点经验总结
2012/03/30 PHP
PHP使用DOMDocument类生成HTML实例(包含常见标签元素)
2014/06/25 PHP
php实现向javascript传递数组的方法
2015/07/27 PHP
js控制淡入淡出示例代码
2013/11/12 Javascript
JS记录用户登录次数实现代码
2014/01/15 Javascript
js用闭包遍历树状数组的方法
2014/03/19 Javascript
jQuery瀑布流插件Wookmark使用实例
2014/04/02 Javascript
你所不了解的javascript操作DOM的细节知识点(一)
2015/06/17 Javascript
JS实现选中当前菜单后高亮显示的导航条效果
2015/10/15 Javascript
Jquery检验手机号是否符合规则并根据手机号检测结果将提交按钮设为不同状态
2015/11/26 Javascript
JS实现把鼠标放到链接上出现滚动文字的方法
2016/04/06 Javascript
Jquery attr()方法 属性赋值和属性获取详解
2016/04/15 Javascript
Javascript的无new构建实例详解
2016/05/15 Javascript
BootStrap 轮播插件(carousel)支持左右手势滑动的方法(三种)
2016/07/07 Javascript
微信小程序之MaterialDesign--input组件详解
2017/02/15 Javascript
在Debian(Raspberry Pi)树莓派上安装NodeJS的教程详解
2017/09/19 NodeJs
bootstrap响应式工具使用详解
2017/11/29 Javascript
利用Angular2 + Ionic3开发IOS应用实例教程
2018/01/15 Javascript
[01:11:27]2018DOTA2亚洲邀请赛小组赛 A组加赛 Newbee vs Optic
2018/04/03 DOTA
[02:16]完美世界DOTA2联赛PWL S3 集锦第三期
2020/12/21 DOTA
CentOS中升级Python版本的方法详解
2017/07/10 Python
Python实现判断并移除列表指定位置元素的方法
2018/04/13 Python
Python3简单实现串口通信的方法
2019/06/12 Python
python redis连接 有序集合去重的代码
2019/08/04 Python
Python搭建代理IP池实现获取IP的方法
2019/10/27 Python
python Tensor和Array对比分析
2020/01/08 Python
Python 如何反方向迭代一个序列
2020/07/28 Python
Python request post上传文件常见要点
2020/11/20 Python
深入浅析HTML5中的SVG
2015/11/27 HTML / CSS
HTML5 canvas实现移动端上传头像拖拽裁剪效果
2016/03/14 HTML / CSS
澳大利亚排名第一的露营和户外设备在线零售商:Outbax
2020/05/06 全球购物
求职信标题怎么写
2014/05/26 职场文书
班组长安全工作职责
2014/07/15 职场文书
教师节寄语2015
2015/03/23 职场文书
Golang: 内建容器的用法
2021/05/05 Golang
如何更改Win11声音输出设备?Win11声音输出设备四种更改方法
2022/04/08 数码科技