编程 Python

python动态网页批量爬取

Posted in Python onFebruary 14, 2016

四六级成绩查询网站我所知道的有两个：学信网（http://www.chsi.com.cn/cet/）和99宿舍（http://cet.99sushe.com/），这两个网站采用的都是动态网页。我使用的是学信网，好了，网站截图如下：

python动态网页批量爬取

网站的代码如下：

<form method="get" name="form1" id="form1" action="/cet/query">

<table border="0" align="center" cellpadding="0" cellspacing="0">
<tr><td align="right">准考证号：</td><td align="left"><input name="zkzh" value="112008000463141" id="zkzh" type="text" size="18" maxlength="15" class="input_text input_t_l" /></td>
 <td align="left" class="font12 color666">请输入15位准考证号</td>
</tr>
<tr><td align="right">姓名：</td><td align="left"><input name="xm" value="啊啊" id="xm" type="text" size="18" maxlength="50" class="input_text input_t_l" /></td>
 <td align="left" class="font12 color666">姓名超过3个字，可只输入前3个</td>
</tr>

<tr><td align="center"> </td>
 <td colspan="2" align="left"><input type="submit" id="submitCET" class="btn_blue" value="查询" /></td>
 </tr>
</table>
</form>

由图中可以看出表单提交的链接为/cet/query，即：http://www.chsi.com.cn/cet/query，好了，填写表单和结果如下：

python动态网页批量爬取

但是，点击查看源代码之后发现，没有成绩，即代码仍是上面那个，之后按F12查看代码：

<TBODY><TR>
<TH>姓名：</TH>
<TD>XXXX</TD></TR>
<TR>
<TH>学校：</TH>
<TD>XXXXXX</TD></TR>
<TR>
<TH>考试类别：</TH>
<TD>英语四级</TD></TR>
<TR>
<TH>准考证号：</TH>
<TD>120135151100101</TD></TR>
<TR>
<TH>考试时间：</TH>
<TD>2015年06月</TD></TR>总分：</TH><TD class=fontBold vAlign="top"><SPAN class=colorRed>403 </SPAN><BR><SPAN class=color666>听力：</SPAN> 132 <BR><SPAN class=color666>阅读：</SPAN> 147 <BR><SPAN class=color666>写作与翻译：</SPAN> 124 </TD></TR>

该代码显示了成绩，可以知道，该网站使用的是动态网页，用的JavaScript或者Ajax.js还是其他的我就不知道了0.0。上面为需求。

前言：使用过BeautifulSoup爬取过，但是BeautifulSoup是爬取不了动态网页的，上各种论坛找各种资料，用了n种东西，scapy,pyqt等等，走了真心不少弯路，不是不行，应该是我不会用，最终用了selenium和phantomjs，这两个应该也是目前最流行的爬虫模块了吧。

一、导入selenium和phantomjs

from selenium import webdriver

driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')
driver.get(url)
driver.find_element_by_id('zkzh').send_keys(i)
driver.find_element_by_id('xm').send_keys(xm)
driver.find_elements_by_tag_name('form')[1].submit()

代码说明：

3.selenium可以加载很多驱动，比如Chrome、FireFox等，这里需要有这两个浏览器和驱动才行，折腾了一下，网上说Phantomjs是较好的了

5、6、7分别是准考证号，姓名和提交

二、字符处理

提交之后就可以直接查找了:

print driver.find_element_by_xpath("//tr[3]/td[1]").text
print driver.find_element_by_xpath("//tr[6]/td[1]").text

代码说明：

1.查看姓名

2.查看分数及其具体成绩

打印之后为：

姓名
听力
阅读
写作

之后要对分数进行字符串处理，选取各部分的数字，这里我们采用re模块：

import re
m = re.findall(r'(\w*[0-9]+)\w*', chuli2)

其中m是数组，输出的是["403","132","147","142"]

三、数据库

我们学校也不知说很渣还是人性化，反正公布了全校的四六级准考证号，当然，是excel的，需要导入mysql数据库，打开Excel之后，我发现微软大法和Oracle真是牛，Excel365居然有mysql workbench连接部分。

python动态网页批量爬取

数据库代码如下：

import MySQLdb

conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')
cur = conn.cursor()
curr = conn.cursor()
cur.execute("select name from cet.cet where zkzh=(%s)" % i)
xm = cur.fetchone()[0]
print "Name is " + xm
sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (
  ss, m[0], m[1], m[2], m[3], i)
cur.execute(sqltxt)
conn.commit()
cur.close()
conn.close()

代码说明：

3.python连接数据库代码

6.连接数据库取得姓名部分

9.这行我好无语啊，使用‘“+ss+”'这样的写法一直报错，最终找了半天资料，这个写法我不太喜欢，但是凑合着用吧。

12.记得一定要提交事务！！！commit（）！！！不然是没有效果的

四、使用代理服务器（保留以后写）

运行了一段时间之后，大概抓了几百人的吧，然后就出现要求验证码了，解决办法只能处理验证码或者使用代理服务器了，这部分继续加强学习再弄出来了?(^ω^)?

五、源代码和效果

# encoding=utf8

import MySQLdb
import re
import time

from selenium import webdriver

# connect mysql,get zkxh and xm
conn = MySQLdb.Connect(host='localhost', user='root', passwd='root', db='cet', port=3306, charset='utf8')
cur = conn.cursor()
curr = conn.cursor()
url = 'http://www.chsi.com.cn/cet/query'


def kaishi(i):
 print i,
 print " start"
 try:
 cur.execute("select name from cet.cet where zkzh=(%s)" % i)
 xm = cur.fetchone()[0]
 print "Name is " + xm
 driver = webdriver.PhantomJS(executable_path='D:\phantomjs-2.1.1-windows\phantomjs.exe')
 driver.get(url)
 driver.find_element_by_id('zkzh').send_keys(i)
 driver.find_element_by_id('xm').send_keys(xm)
 driver.find_elements_by_tag_name('form')[1].submit()
 driver.set_page_load_timeout(10)
 leibie = driver.find_element_by_xpath("//tr[3]/td[1]").text
 leibie2 = str(leibie.encode("utf-8"))
 ss = ""
 if leibie2.decode("utf-8") == '英语四级'.decode("utf-8"):
  ss = 4
 else:
  ss = 6
 # zongfen = driver.find_element_by_xpath("//tr[6]/th[1]").text
 # print zongfen
 # print "===="
 chuli = driver.find_element_by_xpath("//tr[6]/td[1]").text
 print chuli
 chuli2 = str(chuli.encode("utf-8"))
 m = re.findall(r'(\w*[0-9]+)\w*', chuli2)
 sqltxt = "update cet.cet set leibie=(%s),zongfen=(%s),tingli=(%s),yuedu=(%s),xiezuo=(%s) WHERE zkzh=(%s)" % (
  ss, m[0], m[1], m[2], m[3], i)
 cur.execute(sqltxt)
 conn.commit()
 print str(i) + " finish"
 except Exception, e:
 print e
 driver.close()
 time.sleep(10)
 kaishi(i)


# for j1 in range(1201351511001, 1201351512154):
for j1 in range(1201351511007, 1201351512154):
 for j2 in range(0, 3):
 for j3 in range(0, 10):
  j = str(j1) + str(j2) + str(j3)
  if str(j2) + str(j3) == "00":
  print "0.0"
  elif str(j2) + str(j3) == "29":
  kaishi(str(j1) + str(j2) + str(j3))
  j4 = str(j1) + "30"
  kaishi(j4)
  else:
  kaishi(j)
print "END!!!"
cur.close()
conn.close()

python动态网页批量爬取

总结：python的字符串处理细节真的很重要，动不动就输出错误，还有IDE的编码不一样，记得还有个系统编码，字符编码，环境编码，数据库编码等等都要一致。

以上就是本文的全部内容，希望对大家的学习有所帮助。

python动态网页批量爬取

- Author -

lijiao

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python编写一个每天都在系统下新建一个文件夹的脚本

May 04 Python

Python正则表达式分组概念与用法详解

Jun 24 Python

关于Django外键赋值问题详解

Aug 13 Python

python DataFrame 修改列的顺序实例

Apr 10 Python

PyQt5实现下载进度条效果

Apr 19 Python

在python中使用with打开多个文件的方法

Jan 07 Python

总结python中pass的作用

Feb 27 Python

详解Python3中setuptools、Pip安装教程

Jun 18 Python

Python selenium页面加载慢超时的解决方案

Mar 18 Python

使用pandas库对csv文件进行筛选保存

May 25 Python

如何导出python安装的所有模块名称和版本号到文件中

Jun 05 Python

django有哪些好处和优点

Sep 01 Python

Python ftp上传文件

Feb 13 #Python

Python cx_freeze打包工具处理问题思路及解决办法

Feb 13 #Python

Python批量创建迅雷任务及创建多个文件

Feb 13 #Python

Python 中 Meta Classes详解

Feb 13 #Python

教大家使用Python SqlAlchemy

Feb 12 #Python

理解Python垃圾回收机制

Feb 12 #Python

一步步解析Python斗牛游戏的概率

Feb 12 #Python

You might like

php中函数的形参与实参的问题说明

2010/09/01 PHP

慎用preg_replace危险的/e修饰符(一句话后门常用)

2013/06/19 PHP

php用正则判断是否为数字的方法

2016/03/25 PHP

使用jQuery实现的掷色子游戏动画效果

2014/03/14 Javascript

jQuery+css实现炫目的动态块漂移效果

2016/01/28 Javascript

jQuery height()、innerHeight()、outerHeight()函数的区别详解

2016/05/23 Javascript

同步文本框内容JS代码实现

2016/08/04 Javascript

JavaScript优化以及前段开发小技巧

2017/02/02 Javascript

很棒的vue弹窗组件

2017/05/24 Javascript

JS奇技之利用scroll来监听resize详解

2017/06/15 Javascript

微信小程序实现自定义加载图标功能

2018/07/19 Javascript

React注册倒计时功能的实现

2018/09/06 Javascript

javascript实现异形滚动轮播

2019/11/28 Javascript

JavaScript Window浏览器对象模型原理解析

2020/05/30 Javascript

JavaScript本地储存:localStorage、sessionStorage、cookie的使用

2020/10/13 Javascript

python文件操作之目录遍历实例分析

2015/05/20 Python

Python 中的 else详解

2016/04/23 Python

python pyinstaller 加载ui路径方法

2019/06/10 Python

python爬虫实现获取下一页代码

2020/03/13 Python

如何基于python对接钉钉并获取access_token

2020/04/21 Python

浅谈Keras的Sequential与PyTorch的Sequential的区别

2020/06/17 Python

基于python实现监听Rabbitmq系统日志代码示例

2020/11/28 Python

使用Python提取文本中含有特定字符串的方法示例

2020/12/09 Python

使用phonegap进行提示操作的具体方法

2017/03/30 HTML / CSS

计算机软件个人的自荐信范文

2013/12/01 职场文书

小学教师寄语大全

2014/04/03 职场文书

大学新生军训方案

2014/05/03 职场文书

财务管理专业毕业生求职信

2014/06/02 职场文书

新疆民族团结演讲稿

2014/08/27 职场文书

财务科长个人对照检查材料

2014/09/18 职场文书

学生穿着不得体检讨书

2014/10/12 职场文书

群众路线自查报告及整改措施

2014/11/04 职场文书

测量员岗位职责

2015/02/14 职场文书

中学生打架《检讨书》范文

2019/08/12 职场文书

Python中OpenCV实现简单车牌字符切割

2021/06/11 Python

将MySQL的表数据全量导入clichhouse库中

2022/03/21 MySQL