Python网络爬虫神器PyQuery的基本使用教程


Posted in Python onFebruary 03, 2018

前言

pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好,和它差不多的还有BeautifulSoup,都是用来解析的。相比BeautifulSoup完美翔实的文档,虽然PyQuery库的文档弱爆了, 但是使用起来还是可以的,有些地方用起来很方便简洁。

安装

关于PyQuery的安装可以参考这篇文章:https://3water.com/article/82955.htm

PyQuery库官方文档

  • 初始化为PyQuery对象
  • 常用的CCS选择器
  • 伪类选择器
  • 查找标签
  • 获取标签信息

初始化为PyQuery对象

html = """
<html lang="en">
 <head>
 简单好用的
 <title>PyQuery</title>
 </head>
 <body>
 <ul id="container">
  <li class="object-1">Python</li>
  <li class="object-2">大法</li>
  <li class="object-3">好</li>
 </ul>
 </body>
</html>
"""

相当于BeautifulSoup库的初识化方法,将html转化为BeautifulSoup对象。

bsObj = BeautifulSoup(html, 'html.parser')

PyQuery库也要有自己的初始化。

1.1 将字符串初始化

from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)

返回

<class 'pyquery.pyquery.PyQuery'>

<html lang="en">
 <head>
 <title>PyQuery学习</title>
 </head>
 <body>
 <ul id="container">
  <li class="object-1"/>
  <li class="object-2"/>
  <li class="object-3"/>
 </ul>
 </body>
</html>

1.2 将html文件初始化

#filename参数为html文件路径
test_html = pq(filename = 'test.html')
print(type(test_html))
print(test_html)

返回

<class 'pyquery.pyquery.PyQuery'><html lang="en">
 <head>
 <title>PyQuery学习</title>
 </head>
 <body>
 <ul id="container">
  <li class="object-1"/>
  <li class="object-2"/>
  <li class="object-3"/>
 </ul>
 </body>
</html>

1.3 对网址响应进行初始化

response = pq(url = 'https://www.baidu.com')
print(type(response))
print(response)

返回

<class 'pyquery.pyquery.PyQuery'>

<html> <head><meta http-equiv="content-type" content="text/html;charset=utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=Edge"/><meta content="always" name="referrer"/><link rel="stylesheet" type="text/css" href="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css" rel="external nofollow" /><title>ç�¾åº¦ä¸�ä¸�ï¼�ä½ å°±ç�¥é��</title></head> <body link="#0000cc"> <div id="wrapper"> <div id="head"> <div class="head_wrapper"> <div class="s_form"> <div class="s_form_wrapper"> <div id="lg"> <img hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270" height="129"/> </div> <form id="form" name="f" action="//www.baidu.com/s" class="fm"> <input type="hidden" name="bdorz_come" value="1"/> <input type="hidden" name="ie" value="utf-8"/> <input type="hidden" name="f" value="8"/> <input type="hidden" name="rsv_bp" value="1"/> <input type="hidden" name="rsv_idx" value="1"/> <input type="hidden" name="tn" value="baidu"/><span class="bg s_ipt_wr"><input id="kw" name="wd" class="s_ipt" value="" maxlength="255" autocomplete="off" autofocus="autofocus"/></span><span class="bg s_btn_wr"><input type="submit" id="su" value="ç�¾åº¦ä¸�ä¸�" class="bg s_btn" autofocus=""/></span> </form> </div> </div> <div id="u1"> <a href="http://news.baidu.com" rel="external nofollow" name="tj_trnews" class="mnav">æ�°é�»</a> <a href="https://www.hao123.com" rel="external nofollow" name="tj_trhao123" class="mnav">hao123</a> <a href="http://map.baidu.com" rel="external nofollow" name="tj_trmap" class="mnav">å�°å�¾</a> <a href="http://v.baidu.com" rel="external nofollow" name="tj_trvideo" class="mnav">è§�é¢�</a> <a href="http://tieba.baidu.com" rel="external nofollow" name="tj_trtieba" class="mnav">è´´å�§</a> <noscript> <a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1" rel="external nofollow" name="tj_login" class="lb">ç�»å½�</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === " rel="external nofollow" " ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">ç�»å½�</a>');
</script> <a href="//www.baidu.com/more/" rel="external nofollow" name="tj_briicon" class="bri" style="display: block;">æ�´å¤�产å��</a> </div> </div> </div> <div id="ftCon"> <div id="ftConw"> <p id="lh"> <a href="http://home.baidu.com" rel="external nofollow" >å
³äº�ç�¾åº¦</a> <a href="http://ir.baidu.com" rel="external nofollow" >About Baidu</a> </p> <p id="cp">©2017 Baidu <a href="http://www.baidu.com/duty/" rel="external nofollow" >使ç�¨ç�¾åº¦å��å¿
读</a> <a href="http://jianyi.baidu.com/" rel="external nofollow" class="cp-feedback">����</a> 京ICP�030173� <img src="//www.baidu.com/img/gs.gif"/> </p> </div> </div> </div> </body> </html>

二、常用的CCS选择器

打印id为container的标签

print(doc('#container'))
print(type(doc('#container')))

返回

<ul id="container">
 <li class="object-1"/>
 <li class="object-2"/>
 <li class="object-3"/>
</ul>

<class 'pyquery.pyquery.PyQuery'>

打印class为object-1的标签

print(doc('.object-1'))

返回

<li class="object-1"/>

打印标签名为body的标签

print(doc('body'))

返回

<body>
 <ul id="container">
 <li class="object-1"/>
 <li class="object-2"/>
 <li class="object-3"/>
 </ul>
</body>

多种css选择器使用

print(doc('html #container'))

返回

<ul id="container">
 <li class="object-1"/>
 <li class="object-2"/>
 <li class="object-3"/>
</ul>

三、伪类选择器

伪类nth

print(pseudo_doc('li:nth-child(2)'))
#打印第一个li标签
print(pseudo_doc('li:first-child'))
#打印最后一个标签
print(pseudo_doc('li:last-child'))

返回

<li class="object-2">大法</li>
<li class="object-1">Python</li>
<li class="object-6">好玩</li>

contains

#找到含有Python的li标签
print(pseudo_doc("li:contains('Python')"))
#找到含有好的li标签
print(pseudo_doc("li:contains('好')"))

返回

<li class="object-1">Python</li>
<li class="object-3">好</li>
<li class="object-4">好</li>
<li class="object-6">好玩</li>

四、查找标签

按照条件在Pyquery对象中查找符合条件的标签,类似于BeautifulSoup中的find方法。

打印id=container的标签

print(doc.find('#container'))

返回

<ul id="container">
 <li class="object-1"/>
 <li class="object-2"/>
 <li class="object-3"/>
</ul>
print(doc.find('li'))

返回

<li class="object-1"/>
<li class="object-2"/>
<li class="object-3"/>

4.2 子辈标签-children方法

#id=container的标签的子辈标签
container = doc.find('#container')
print(container.children())

返回

<li class="object-1"/>
<li class="object-2"/>
<li class="object-3"/>

4.3 父辈标签-parent方法

object_2 = doc.find('.object-2')
print(object_2.parent())

返回

<ul id="container">
 <li class="object-1"/>
 <li class="object-2"/>
 <li class="object-3"/>
</ul>

4.4 兄弟标签-siblings方法

object_2 = doc.find('.object-2')
print(object_2.siblings())

返回

<li class="object-1"/>
<li class="object-3"/>

五、获取标签的信息

定位到目标标签后,我们需要标签内部的文本或者属性值,这时候需要进行提取文本或属性值操作

5.1 标签属性值的提取

.attr() 传入 标签的属性名,返回属性值

object_2 = doc.find('.object-2')
print(object_2.attr('class'))

返回

object-2

5.2 标签内的文本

.text()

html_text = """
<html lang="en">
 <head>
  简单好用的
  <title>PyQuery</title>
 </head>
 <body>
  <ul id="container">
   Hello World!
   <li class="object-1">Python</li>
   <li class="object-2">大法</li>
   <li class="object-3">好</li>
  </ul>
 </body>
</html>
"""
docs = pq(html_text)
print(docs.text())

返回

简单好用的 PyQuery Hello World! Python 大法 好
object_1 = docs.find('.object-1')
print(object_1.text())
container = docs.find('#container')
print(container.text())

返回

Python

Hello World! Python 大法 好

tips:如果我只想获得Hello World这个,不想得到其他的文本,可以使用remove方法将li标签去掉,然后再使用text方法

container = docs.find('#container')
container.remove('li')
print(container.text())

返回

Hello World!

pyquery一些自定义的用法

访问网址

PyQuery与BeautifulSoup对比,我们会发现PyQuery可以对网址发起请求。 比如

from pyquery import PyQuery
PyQuery(url = 'https://www.baidu.com')

opener参数

这是PyQuery对百度网址进行请求,并将请求返回的响应数据处理为PyQuery对象。一般pyquery库会默认调用urllib库,如果想使用selenium或者requests库,可以自定义PyQuery的opener参数。

opener参数作用是告诉pyquery用什么请求库对网址发起请求。常见的请求库如urllib、requests、selenium。这里我们自定义一个selenium的opener。

from pyquery import PyQuery
from selenium.webdriver import PhantomJS
#用selenium访问url
def selenium_opener(url):
 #我没有将Phantomjs放到环境变量,所以每次用都要放上路径
 driver = PhantomJS(executable_path = 'phantomjs的路径')
 driver.get(url)
 html = driver.page_source
 driver.quit()
 return html
#注意,使用时opener参数是函数名,没有括号的!
PyQuery(url='https://www.baidu.com/', opener=selenium_opener)

这时候我们就能对PyQuery对象进行操作,提取有用的信息。具体请看上次的分享,如果想了解更多的功能,pyquery文档写的不怎么详细,好在基本跟jQuery功能吻合,我们如果想用好pyquery,需要查看jQuery文档。

cookies、headers

在requests用法中,一般为了访问网址更加真实,模仿成浏览器。一般我们需要传入headers,必要的时候还需要传入cookies参数。而pyquery库就有这功能,也能伪装浏览器。

from pyquery import PyQuery
cookies = {'Cookie':'你的cookie'}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
PyQuery(url='https://www.baidu.com/',headers=headers,cookies=cookies)

让你的selenium带上pyquery功能

让driver访问的网址得到的网页直接变为PyQuery对象,更方便提取数据

from pyquery import PyQuery
from selenium.webdriver import PhantomJS
class Browser(PhantomJS):
 @property 
 def dom(self):
  return PyQuery(self.page_source)"""
这部分property是装饰器,需要知道@property下面紧跟的函数,实现了类的属性功能。
这里browser.dom,就是browser的dom属性。
"""
browser = Browser(executable_path='phantomjs的路径')
browser.get(url='https://www.baidu.com/')
print(type(browser.dom))

返回

<class 'pyquery.pyquery.PyQuery'>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python生成不重复随机值的方法
May 11 Python
详解Python的Twisted框架中reactor事件管理器的用法
May 25 Python
Python实现的堆排序算法原理与用法实例分析
Nov 22 Python
深入浅析Python传值与传址
Jul 10 Python
通过python顺序修改文件名字的方法
Jul 11 Python
Python发送邮件功能示例【使用QQ邮箱】
Dec 04 Python
python 定时任务去检测服务器端口是否通的实例
Jan 26 Python
Python适配器模式代码实现解析
Aug 02 Python
python 发送json数据操作实例分析
Oct 15 Python
python中round函数如何使用
Jun 19 Python
Django数据统计功能count()的使用
Nov 30 Python
详解分布式系统中如何用python实现Paxos
May 18 Python
numpy.random.seed()的使用实例解析
Feb 03 #Python
Python网络爬虫中的同步与异步示例详解
Feb 03 #Python
Python模块文件结构代码详解
Feb 03 #Python
Python处理文本换行符实例代码
Feb 03 #Python
Python断言assert的用法代码解析
Feb 03 #Python
Python下载网络小说实例代码
Feb 03 #Python
JS设计模式之责任链模式实例详解
Feb 03 #Python
You might like
二次元帅气男生排行榜,只想悄悄收藏系列
2020/03/04 日漫
Terran魔法科技
2020/03/14 星际争霸
php 归并排序 数组交集
2011/05/10 PHP
php学习笔记 php中面向对象三大特性之一[封装性]的应用
2011/06/13 PHP
php 删除一维数组中某一个值元素的操作方法
2018/02/01 PHP
js null undefined 空区别说明
2010/06/13 Javascript
JQuery自定义事件的应用 JQuery最佳实践
2010/08/01 Javascript
window.open不被拦截的实现代码
2012/08/22 Javascript
Jquery插件写法笔记整理
2012/09/06 Javascript
控制页面按钮在后台执行期间不重复提交的JS方法
2013/06/24 Javascript
js统计页面的来访次数实现代码
2014/05/09 Javascript
JavaScript显示表单内元素数量的方法
2015/04/02 Javascript
Nodejs Stream 数据流使用手册
2016/04/17 NodeJs
原生js实现查询天气小应用
2016/12/09 Javascript
原生Javascript插件开发实践
2017/01/09 Javascript
angular bootstrap timepicker TypeError提示怎么办
2017/06/13 Javascript
react native 获取地理位置的方法示例
2018/08/28 Javascript
Vue中的$set的使用实例代码
2018/10/08 Javascript
createObjectURL方法实现本地图片预览
2019/09/30 Javascript
Vue列表如何实现滚动到指定位置样式改变效果
2020/05/09 Javascript
VueCli4项目配置反向代理proxy的方法步骤
2020/05/17 Javascript
python 读取目录下csv文件并绘制曲线v111的方法
2018/07/06 Python
django主动抛出403异常的方法详解
2019/01/04 Python
Python实现子类调用父类的初始化实例
2020/03/12 Python
python2和python3哪个使用率高
2020/06/23 Python
python 用Matplotlib作图中有多个Y轴
2020/11/28 Python
谷歌浏览器小字体处理方案即12px以下字体
2013/12/17 HTML / CSS
罗兰·穆雷官网:Roland Mouret
2018/09/28 全球购物
德国婴儿服装和婴儿用品购买网站:Baby Sweets
2019/12/08 全球购物
linux面试题参考答案(4)
2014/09/21 面试题
自荐信格式范文
2013/10/07 职场文书
领导班子个人查摆问题对照检查材料
2014/10/02 职场文书
2014年学校团委工作总结
2014/12/20 职场文书
解决Pytorch dataloader时报错每个tensor维度不一样的问题
2021/05/28 Python
Mysql数据库表中为什么有索引却没有提高查询速度
2022/02/24 MySQL
mysql 体系结构和存储引擎介绍
2022/05/06 MySQL