python使用xpath中遇到:到底是什么?


Posted in Python onJanuary 04, 2018

前言

大家在学习python爬虫的过程中,会发现一个问题,语法我看完了,说的也很详细,我也认真看了,爬虫还是不会写,或者没有思路,所以我的所有文章都会从实例的角度来解析一些常见的问题和报错。下面话不多说了,来一起看看详细的介绍吧。

Element是什么

回归正题,大家晕头转脑的看完繁杂的语法之后,已经迫不及待写点什么东西了,然后部分同学可能遇到了这个

<Element a at 0x39a9a80>

或者类似 Element a at 0x???????,这样的一个值,然后大家带着问题去搜,然后全是英文啊,什么一大堆乱七八糟的啊,英文不好的同学就崩溃了,在这里,我会重点解析一下

某种意义上来说,当你打印变量的时候得到的这个值,其实它是一个列表,然后列表中的每一个值都是一个字典

如何使用理解请看半成品开车实例,证明了本人非常擅长把学习和乐趣结合起来并且切身解决日常需求,滑稽脸.jpg

from bs4 import BeautifulSoup
from lxml import etree
import requests
gjc='SHKD-700'
#定义URL
html = "http://www.btanv.com/search/"+gjc+"-hot-desc-1"
#解码URL
html = requests.get(html).content.decode('utf-8')
#解析成xml
dom_tree = etree.HTML(html)
#在xml中定位节点,返回的是一个列表
links = dom_tree.xpath("//a[@class='download']")
for index in range(len(links)):
 # links[index]返回的是一个字典
 if (index % 2) == 0:
  print(links[index].tag)
  print(links[index].attrib)
  print(links[index].text)

实例解析

下面重点看看这个代码,

print(links[index])
  print(type(links[index]))
  print(links[index].tag)#获取<a>标签名a
  print(links[index].attrib)#获取<a>标签的属性href和class
  print(links[index].text)#获取<a>标签的文字部分

打印出来的是

<Element a at 0x3866a58>
<class 'lxml.etree._Element'>
a
{'href': 'magnet:?xt=urn:btih:7502edea0dfe9c2774f95118db3208a108fe10ca', 'class': 'download'}
磁力链接

该节点的html代码为

<a href="magnet:xt=urn:btih:7502edea0dfe9c2774f95118db3208a108fe10ca" rel="external nofollow" class="download">磁力链接</a>

看到这里大家应该就非常兽血沸腾的了解了三个属性的用法了。

总结

  • Element类型是'lxml.etree._Element',某种意义来说同时是一个列表
  • 列表的需要使用tag\attrib\text三个不同的属性来获取我们需要的东西
  • 变量.tag获取到的是标签名是---字符串
  • 变量.attrib获取到的是节点标签a的属性---字典
  • 变量.text获取到的是标签文本--字符串

欢迎收藏点赞,拒绝转载,因为目前我也是自学向前摸索,这些都是我目前认知到的东西,肯定有讲的不准确的地方,不希望会误导到他人

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python根据日期返回星期几的方法
Jul 06 Python
Python的Django框架中的URL配置与松耦合
Jul 15 Python
qpython3 读取安卓lastpass Cookies
Jun 19 Python
Python实现的异步代理爬虫及代理池
Mar 17 Python
numpy.ndarray 交换多维数组(矩阵)的行/列方法
Aug 02 Python
Python JSON格式数据的提取和保存的实现
Mar 22 Python
python占位符输入方式实例
May 27 Python
pyqt5实现绘制ui,列表窗口,滚动窗口显示图片的方法
Jun 20 Python
基于sklearn实现Bagging算法(python)
Jul 11 Python
Python 创建守护进程的示例
Sep 29 Python
用python对oracle进行简单性能测试
Dec 05 Python
Matplotlib可视化之添加让统计图变得简单易懂的注释
Jun 11 Python
python使用itchat库实现微信机器人(好友聊天、群聊天)
Jan 04 #Python
python实现微信跳一跳辅助工具步骤详解
Jan 04 #Python
Python中实现最小二乘法思路及实现代码
Jan 04 #Python
Python找出最小的K个数实例代码
Jan 04 #Python
Python编程把二叉树打印成多行代码
Jan 04 #Python
2018年Python值得关注的开源库、工具和开发者(总结篇)
Jan 04 #Python
Win7下Python与Tensorflow-CPU版开发环境的安装与配置过程
Jan 04 #Python
You might like
PHP 增加了对 .ZIP 文件的读取功能
2006/10/09 PHP
缓存技术详谈―php
2006/12/14 PHP
基于PHP常用函数的用法详解
2013/05/10 PHP
PHP与MongoDB简介|安全|M+PHP应用实例详解
2013/06/17 PHP
php+mysqli预处理技术实现添加、修改及删除多条数据的方法
2015/01/30 PHP
PHP数组的定义、初始化和数组元素的显示实现代码
2016/11/05 PHP
PHP观察者模式示例【Laravel框架中有用到】
2018/06/15 PHP
Laravel关联模型中过滤结果为空的结果集(has和with区别)
2018/10/18 PHP
php实现图片压缩处理
2020/09/09 PHP
javascript一元操作符(递增、递减)使用示例
2013/08/07 Javascript
javascript常用函数归纳整理
2014/10/31 Javascript
javascript实现禁止右键和F12查看源代码
2014/12/26 Javascript
js随机生成网页背景颜色的方法
2015/02/26 Javascript
AngularJs ng-route路由详解及实例代码
2016/09/14 Javascript
微信小程序 连续旋转动画(this.animation.rotate)详解
2017/04/07 Javascript
详解Node.js中exports和module.exports的区别
2017/04/19 Javascript
vuejs使用FormData实现ajax上传图片文件
2017/08/08 Javascript
js实现QQ邮箱邮件拖拽删除功能
2020/08/27 Javascript
[02:43]2018DOTA2亚洲邀请赛主赛事首日TOP5
2018/04/04 DOTA
python启动办公软件进程(word、excel、ppt、以及wps的et、wps、wpp)
2009/04/09 Python
Python编程使用NLTK进行自然语言处理详解
2017/11/16 Python
在Django中输出matplotlib生成的图片方法
2018/05/24 Python
python实现决策树ID3算法的示例代码
2018/05/30 Python
深入浅析Python 中 is 语法带来的误解
2019/05/07 Python
Python+numpy实现矩阵的行列扩展方式
2019/11/29 Python
基于Python的身份证验证识别和数据处理详解
2020/11/14 Python
米兰必去买手店排行榜首位:Antonioli
2016/09/11 全球购物
婚鞋、新娘鞋、礼服鞋、童鞋:Nina Shoes
2019/09/04 全球购物
捷克家具销售网站:SCONTO Nábytek
2020/01/02 全球购物
Linux如何压缩可执行文件
2014/03/27 面试题
五一家具促销方案
2014/01/10 职场文书
个人师德师风自我剖析材料
2014/09/29 职场文书
无财产离婚协议书范本
2014/10/28 职场文书
2015年元旦标语大全
2014/12/09 职场文书
2016入党心得体会范文
2016/01/06 职场文书
Java 在线考试云平台的实现
2021/11/23 Java/Android