编程 Python

Python常用爬虫代码总结方便查询

Posted in Python onFebruary 25, 2019

beautifulsoup解析页面

from bs4 import BeautifulSoup
soup = BeautifulSoup(htmltxt, "lxml")
# 三种装载器
soup = BeautifulSoup("<a></p>", "html.parser")
### 只有起始标签的会自动补全，只有结束标签的会自动忽略
### 结果为：<a></a>
soup = BeautifulSoup("<a></p>", "lxml")
### 结果为：<html><body><a></a></body></html>
soup = BeautifulSoup("<a></p>", "html5lib")
### html5lib则出现一般的标签都会自动补全
### 结果为：<html><head></head><body><a><p></p></a></body></html>
# 根据标签名、id、class、属性等查找标签
### 根据class、id、以及属性alog-action的值和标签类别查询
soup.find("a",class_="title",id="t1",attrs={"alog-action": "qb-ask-uname"}))
### 查询标签内某属性的值
pubtime = soup.find("meta",attrs={"itemprop":"datePublished"}).attrs['content']
### 获取所有class为title的标签
for i in soup.find_all(class_="title"):
  print(i.get_text())
### 获取特定数量的class为title的标签
for i in soup.find_all(class_="title",limit = 2):
  print(i.get_text())
### 获取文本内容时可以指定不同标签之间的分隔符，也可以选择是否去掉前后的空白。
soup = BeautifulSoup('<p class="title" id="p1"><b> The Dormouses story </b></p><p class="title" id="p1"><b>The Dormouses story</b></p>', "html5lib")
soup.find(class_="title").get_text("|", strip=True)
#结果为：The Dormouses story|The Dormouses story
### 获取class为title的p标签的id
soup.find(class_="title").get("id")
### 对class名称正则：
soup.find_all(class_=re.compile("tit"))
### recursive参数，recursive=False时，只find当前标签的第一级子标签的数据
soup = BeautifulSoup('<html><head><title>abc','lxml')
soup.html.find_all("title", recursive=False)

unicode编码转中文

content = "\u65f6\u75c7\u5b85"
content = content.encode("utf8","ignore").decode('unicode_escape')

url encode的解码与解码

from urllib import parse
# 编码
x = "中国你好"
y = parse.quote(x)
print(y)
# 解码
x = parse.unquote(y)
print(x)

html转义字符的解码

from html.parser import HTMLParser
htmls = "<div><p>"
txt = HTMLParser().unescape(htmls)
print(txt)  . # 输出<div><p>

base64的编码与解码

import base64
# 编码
content = "测试转码文本123"
contents_base64 = base64.b64encode(content.encode('utf-8','ignore')).decode("utf-8")
# 解码
contents = base64.b64decode(contents_base64)

过滤emoji表情

def filter_emoji(desstr,restr=''):
    try:
      co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
      co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

完全过滤script和style标签

import requests
from bs4 import BeautifulSoup
soup = BeautifulSoup(htmls, "lxml")
for script in soup(["script", "style"]):  
  script.extract()
print(soup)

过滤html的标签，但保留标签里的内容

import re
htmls = "<p>abc</p>"
dr = re.compile(r'<[^>]+>',re.S)
htmls2 = dr.sub('',htmls)
print(htmls2)  #abc
正则提取内容（一般处理json）
rollback({
 "response": {
 "code": "0",
 "msg": "Success",
 "dext": ""
 },
 "data": {
 "count": 3,
 "page": 1,
 "article_info": [{
  "title": "“小库里”：适应比赛是首要任务 投篮终会找到节奏",
  "url": "http:\/\/sports.qq.com\/a\/20180704\/035378.htm",
  "time": "2018-07-04 16:58:36",
  "column": "NBA",
  "img": "",
  "desc": ""
 }, {
  "title": "首钢体育助力国家冰球集训队 中国冰球联赛年底启动",
  "url": "http:\/\/sports.qq.com\/a\/20180704\/034698.htm",
  "time": "2018-07-04 16:34:44",
  "column": "综合体育",
  "img": "",
  "desc": ""
 }...]
 }
})
import re
# 提取这个json中的每条新闻的title、url
# (.*?)为要提取的内容，可以在正则字符串中加入.*？表示中间省略若干字符
reg_str = r'"title":"(.*?)",.*?"url":"(.*?)"'
pattern = re.compile(reg_str,re.DOTALL)
items = re.findall(pattern,htmls)
for i in items:
  tilte = i[0]
  url = i[1]

时间操作

# 获取当前日期
today = datetime.date.today()
print(today)   #2018-07-05
# 获取当前时间并格式化
time_now = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
print(time_now)   #2018-07-05 14:20:55
# 对时间戳格式化
a = 1502691655
time_a = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(int(a))) 
print(time_a)    #2017-08-14 14:20:55
# 字符串转为datetime类型
str = "2018-07-01 00:00:00"
datetime.datetime.strptime(st, "%Y-%m-%d %H:%M:%S")
# 将时间转化为时间戳
time_line = "2018-07-16 10:38:50"
time_tuple = time.strptime(time_line, "%Y-%m-%d %H:%M:%S")
time_line2 = int(time.mktime(time_tuple))
# 明天的日期
today = datetime.date.today()
tomorrow = today + datetime.timedelta(days=1)
print(tomorrow)   #2018-07-06
# 三天前的时间
today = datetime.datetime.today()
tomorrow = today + datetime.timedelta(days=-3)
print(tomorrow)   #2018-07-02 13:37:00.107703
# 计算时间差
start = "2018-07-03 00:00:00"
time_now = datetime.datetime.now()
b = datetime.datetime.strptime(start,'%Y-%m-%d %H:%M:%S')
minutes = (time_now-b).seconds/60
days = (time_now-b).days
all_minutes = days*24*60+minutes
print(minutes)   #821.7666666666667
print(days)   #2
print(all_minutes)   #3701.7666666666664

数据库操作

import pymysql
conn = pymysql.connect(host='10.0.8.81', port=3306, user='root', passwd='root',db='xxx', charset='utf8')
cur = conn.cursor()
insert_sql = "insert into tbl_name(id,name,age) values(%s,%s,%s)
id = 1
name = "like"
age = 26
data_list = []
data = (id,name,age)
# 单条插入
cur.execute(insert_sql,data)
conn.commit()
# 批量插入
data_list.append(data)
cur.executemany(insert_sql,data_list)
conn.commit()
#特殊字符处理(name中含有特殊字符)
data = (id,pymysql.escape_string(name),age)
#更新
update_sql = "update tbl_name set content = '%s' where id = "+str(id)
cur.execute(update_sql%(pymysql.escape_string(content)))
conn.commit()
#批量更新
update_sql = "UPDATE tbl_recieve SET content = %s ,title = %s , is_spider = %s WHERE id = %s"
update_data = (contents,title,is_spider,one_new[0])
update_data_list.append(update_data)
if len(update_data_list) > 500:
try:
  cur.executemany(update_sql,update_data_list) 
  conn.commit()

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python常用爬虫代码总结方便查询

- Author -

Lee_Tech

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中使用序列的方法

Aug 03 Python

Python实现的下载网页源码功能示例

Jun 13 Python

轻量级的Web框架Flask 中模块化应用的实现

Sep 11 Python

Pandas探索之高性能函数eval和query解析

Oct 28 Python

python 列表,数组,矩阵两两转换tolist()的实例

Apr 04 Python

python 读取DICOM头文件的实例

May 07 Python

python中plot实现即时数据动态显示方法

Jun 22 Python

浅析python的优势和不足之处

Nov 20 Python

Python高斯消除矩阵

Jan 02 Python

Python实现KNN（K-近邻）算法的示例代码

Mar 05 Python

Django实现跨域的2种方法

Jul 31 Python

python 数据类型强制转换的总结

Jan 25 Python

Python使用paramiko操作linux的方法讲解

Feb 25 #Python

详解Django中CBV(Class Base Views)模型源码分析

Feb 25 #Python

Python判断对象是否相等及eq函数的讲解

Feb 25 #Python

详解django中url路由配置及渲染方式

Feb 25 #Python

利用python脚本如何简化jar操作命令

Feb 24 #Python

Python中如何使用if语句处理列表实例代码

Feb 24 #Python

python实现两张图片的像素融合

Feb 23 #Python

You might like

第八节--访问方式

2006/11/16 PHP

PHP对MongoDB[NoSQL]数据库的操作

2013/03/01 PHP

php求斐波那契数的两种实现方式【递归与递推】

2019/09/09 PHP

jQuery的运行机制和设计理念分析

2011/04/05 Javascript

javascript中直接引用Microsoft的COM生成Word

2014/01/20 Javascript

javascript教程:关于if简写语句优化的方法

2014/05/17 Javascript

基于jquery实现等比缩放图片

2014/12/03 Javascript

jQuery实现折线图的方法

2015/02/28 Javascript

JavaScript使用concat连接数组的方法

2015/04/06 Javascript

用JavaScript动态建立或增加CSS样式表的实现方法

2016/05/20 Javascript

Jquery实现select multiple左右添加和删除功能的简单实例

2016/05/26 Javascript

Node.js的npm包管理器基础使用教程

2016/05/26 Javascript

BootStrap3中模态对话框的使用

2017/01/06 Javascript

从零学习node.js之详解异步控制工具async（八）

2017/02/27 Javascript

JavaScript自定义文本框光标

2017/03/05 Javascript

快速理解 JavaScript 中的 LHS 和 RHS 查询的用法

2017/08/24 Javascript

详解给Vue2路由导航钩子和axios拦截器做个封装

2018/04/10 Javascript

Python lambda和Python def区别分析

2014/11/30 Python

Python下的Softmax回归函数的实现方法(推荐)

2017/01/26 Python

Python操作Oracle数据库的简单方法和封装类实例

2018/05/07 Python

更换Django默认的模板引擎为jinja2的实现方法

2018/05/28 Python

python实现自主查询实时天气

2018/06/22 Python

解决Django后台ManyToManyField显示成Object的问题

2019/08/09 Python

实例讲解CSS3中Transform的perspective属性的用法

2016/04/22 HTML / CSS

HTML5实现获取地理位置信息并定位功能

2015/04/25 HTML / CSS

three.js模拟实现太阳系行星体系功能

2019/09/03 HTML / CSS

amazeui时间组件的实现示例

2020/08/18 HTML / CSS

波兰最大的宠物用品网上商店：FERA.PL

2019/08/11 全球购物

大学生军训自我评价分享

2013/11/09 职场文书

学生个人自我鉴定

2014/03/26 职场文书

公司离职证明标准范本

2014/10/05 职场文书

销售经理工作失职检讨书

2014/10/24 职场文书

用Python监控你的朋友都在浏览哪些网站？

2021/05/27 Python

德生TECSUN S-2000使用手册文字版

2022/05/10 无线电

错误码NET::ERR_CERT_DATE_INVALID证书已过期解决方法?

2022/07/07 数码科技

MySQL性能指标TPS+QPS+IOPS压测

2022/08/05 MySQL