编程 Python

python如何爬取动态网站

Posted in Python onSeptember 09, 2020

python有许多库可以让我们很方便地编写网络爬虫，爬取某些页面，获得有价值的信息！但许多时候，爬虫取到的页面仅仅是一个静态的页面，即网页的源代码，就像在浏览器上的“查看网页源代码”一样。一些动态的东西如javascript脚本执行后所产生的信息，是抓取不到的，这里暂且先给出这么一些方案，可用于python爬取js执行后输出的信息。

1、两种基本的解决方案

1.1 用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

import dryscrape
# 使用dryscrape库 动态抓取页面
def get_url_dynamic(url):
    session_req=dryscrape.Session()
    session_req.visit(url) #请求页面
    response=session_req.body() #网页的文本
    #print(response)
    return response
get_text_line(get_url_dynamic(url)) #将输出一条文本

这里对于其余包含js的网页也是适用的！虽然可以满足抓取动态页面的要求，但缺点还是很明显的：慢！太慢了，其实想一想也合理，python调用 webkit请求页面，而且等页面加载完，载入js文件，让js执行，将执行后的页面返回，慢一点也是应该的！除外还有很多库可以调用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它写个浏览器），pyjamas等等，听说它们也可以实现相同的功能！

1.2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

# 使用 selenium webdriver 可行，但会实时打开浏览器窗口

def get_url_dynamic2(url):
    driver=webdriver.Firefox() #调用本地的火狐浏览器，Chrom 甚至 Ie 也可以的
    driver.get(url) #请求页面，会打开一个浏览器窗口
    html_text=driver.page_source
    driver.quit()
    #print html_text
    return html_text
get_text_line(get_url_dynamic2(url)) #将输出一条文本

这也不失为一条临时的解决方案！与selenium类似的框架还有一个windmill，感觉稍复杂一些，就不再赘述！

2、selenium的安装与使用

2.1 selenium的安装

在Ubuntu上安装可以直接使用pip install selenium。由于以下原因：

1. selenium 3.x开始，webdriver/firefox/webdriver.py的__init__中，executable_path="geckodriver"；而2.x是executable_path="wires"

2. firefox 47以上版本，需要下载第三方driver，即geckodriver

还需要一些特殊操作：

1. 下载 geckodriverckod 地址：

mozilla/geckodriver

2. 解压后将geckodriverckod 存放至 /usr/local/bin/ 路径下即可：

sudo mv ～/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 运行报错：

driver = webdriver.chrome()
TypeError: 'module' object is not callable

解决方案：浏览器的名称需要大写Chrome和Firefox，Ie

2. 通过

content = driver.find_element_by_class_name('content')

来定位元素时，该方法返回的是FirefoxWebElement，想要获取包含的值时，可以通过

value = content.text

到此这篇关于python如何爬取动态网站的文章就介绍到这了,更多相关python怎么爬动态网站内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python如何爬取动态网站

- Author -

爱喝马黛茶的安东尼

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python ValueError: invalid literal for int() with base 10 实用解决方法

Jun 21 Python

解决python3 json数据包含中文的读写问题

May 10 Python

Python设计模式之装饰模式实例详解

Jan 21 Python

Python3中函数参数传递方式实例详解

May 05 Python

python多继承(钻石继承)问题和解决方法简单示例

Oct 21 Python

Python3 中sorted() 函数的用法

Mar 24 Python

基于python实现上传文件到OSS代码实例

May 09 Python

keras的ImageDataGenerator和flow()的用法说明

Jul 03 Python

python利用tkinter实现图片格式转换的示例

Sep 28 Python

python使用selenium爬虫知乎的方法示例

Oct 28 Python

详解pandas赋值失败问题解决

Nov 29 Python

使用Pytorch训练two-head网络的操作

May 28 Python

python如何停止递归

Sep 09 #Python

python能做哪些生活有趣的事情

Sep 09 #Python

Python 连接 MySQL 的几种方法

Sep 09 #Python

python实现AHP算法的方法实例（层次分析法）

Sep 09 #Python

Pytorch 扩展Tensor维度、压缩Tensor维度的方法

Sep 09 #Python

Python列表推导式实现代码实例

Sep 09 #Python

利用Python中的Xpath实现一个在线汇率转换器

Sep 09 #Python

You might like

服务器上配置PHP运行环境教程

2015/02/12 PHP

PHP引用的调用方法分析

2016/04/25 PHP

php简单的上传类分享

2016/05/15 PHP

thinkphp3.2.3版本的数据库增删改查实现代码

2016/09/22 PHP

一次因composer错误使用引发的问题与解决

2019/03/06 PHP

JavaScript聚焦于第一个字段的代码

2010/10/15 Javascript

js 判断一个元素是否在页面中存在

2012/12/27 Javascript

jquery获取radio值(单选组radio)

2014/10/16 Javascript

jQuery中last()方法用法实例

2015/01/06 Javascript

简介JavaScript中search()方法的使用

2015/06/06 Javascript

浅谈jQuery添加的HTML,JS失效的问题

2016/10/05 Javascript

Angular和百度地图的结合实例代码

2016/10/19 Javascript

bootstrap学习使用（导航条、下拉菜单、轮播、栅格布局等）

2016/12/01 Javascript

Angular路由简单学习

2016/12/26 Javascript

javascript 正则表达式去空行方法

2017/01/24 Javascript

基于Two.js实现星球环绕动画效果的示例

2017/11/06 Javascript

使用Vue开发动态刷新Echarts组件的教程详解

2018/03/22 Javascript

vue组件开发之用户无限添加自定义填写表单的方法

2018/08/28 Javascript

Vue form表单动态添加组件实战案例

2019/09/02 Javascript

Python的Django框架中的select_related函数对QuerySet 查询的优化

2015/04/01 Python

Python中max函数用法实例分析

2015/07/17 Python

Django中STATIC_ROOT和STATIC_URL及STATICFILES_DIRS浅析

2018/05/08 Python

浅谈tensorflow 中tf.concat()的使用

2020/02/07 Python

python怎么判断素数

2020/07/01 Python

简述 Python 的类和对象

2020/08/21 Python

Python爬虫Scrapy框架CrawlSpider原理及使用案例

2020/11/20 Python

理肤泉美国官网：La Roche-Posay

2018/01/17 全球购物

如何判断计算机可能已经中马

2013/03/22 面试题

中学自我评价

2014/01/31 职场文书

工作推荐信范文

2014/05/10 职场文书

私人委托书格式

2014/09/10 职场文书

讲文明知礼仪演讲稿

2014/09/13 职场文书

党员领导干部民主生活会批评与自我批评发言

2014/09/28 职场文书

2015年世界急救日宣传活动方案

2015/05/06 职场文书

Python制作春联的示例代码

2022/01/22 Python