编程 Python

python抓取需要扫微信登陆页面

Posted in Python onApril 29, 2019

一，抓取情况描述

1.抓取的页面需要登陆，以公司网页为例，登陆网址https://app-ticketsys.hezongyun.com/index.php ,(该网页登陆方式微信扫码登陆）

2.需要抓取的内容如下图所示：

需要提取

工单对应编号，如TK-2960

工单发起时间，如2018-08-17 11:12:13

工单标题内容，如设备故障

工单正文内容，如最红框所示

python抓取需要扫微信登陆页面

二，网页分析

1.按按Ctrl + Shift + I或者鼠标右键点击检查进入开发人员工具。

可以看到页面显示如下：

python抓取需要扫微信登陆页面

主要关注点如上图框住和划线处

首先点击网络，记住以下信息将用于代码修改处。

Resquest URL：https： //app-ticketsys.hezongyun.com/index.php/ticket/ticket_list/init这个是需要爬取页面的信息请求Menthod：GET饼干：用于需要登陆页面User-Agent：Mozilla / 5.0（Windows NT 10.0; Win64; x64）AppleWebKit / 537.36（KHTML，类似Gecko）Chrome / 67.0.3396.62 Safari / 537.36

记住以上信息后粗略了解网页树形结构用BeatifulSoup中SELEC怎么取出内容

示例：的H1M1一段代码如下：

html =“”“
<html> <head> <title>睡鼠的故事</ title> </ head>
<body>
<p class =”title“name =”dromouse“> <b>睡鼠的故事</ b > </ p>
<p class =“story”>从前有三个小姐妹;他们的名字是
<a href =“http://example.com/elsie”class =“sister”id =“ link1“> <！ - Elsie - > </a>，
<a href="http://example.com/lacie" rel="external nofollow" class="sister" id="link2"> Lacie </a>和
<a href =“http://example.com/tillie”class =“sister”id =“link3”> Tillie </a>;
他们住在井底。</ p>
<p class =“story”> ... </ p>
“”“

如果我们喝汤得到了上面那段HTML的结构提取内容方法如下

1.通过标签名查找soup.select（ '标题'），如需要取出含有一个标签的内容则soup.select（ 'a'）的

2.通过类名查找soup.select（ 'CLASS_NAME '）如取出标题的内容则soup.select（'。标题'）

3.通过ID名字查找soup.select（ '＃ID_NAME'）如取出ID = LINK2的内容则soup.select（ '＃LINK2'）

上述元素名字可以利用左上角箭头取出，如下图

python抓取需要扫微信登陆页面

三，程序编写

# -*- coding:utf-8 -*-
import requests
import sys
import io
from bs4 import BeautifulSoup
import sys
import xlwt
import urllib,urllib2
import re
def get_text():
  #登录后才能访问的网页，这个就是我们在network里查看到的Request URL
  url = 'https://app-ticketsys.hezongyun.com/index.php/ticket/ticket_iframe/'
  #浏览器登录后得到的cookie,这个就是我们在network里查看到的Coockie
  cookie_str = r'ci_ticketsys_session=‘***********************************'
  #把cookie字符串处理成字典
  cookies = {}
  for line in cookie_str.split(';'):
    key, value = line.split('=', 1)
    cookies[key] = value
  #设置请求头
  headers = {'User-Agent':'Mozilla/5.0(Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/67.0.3396.62 Safari/537.36'}
  #在发送get请求时带上请求头和cookies
  resp = requests.get(url, cookies = cookies,headers = headers)
  soup = BeautifulSoup(resp.text,"html.parser")
  print soup

上述代码就能得到登陆网页的HTML源码，这个源码呈一个树形结构，接下来针对需求我们提取需要的内容进行提取

我们需要工单号，对应时间，对应标题

python抓取需要扫微信登陆页面

按箭头点击到对应工单大块，可以查询到，所有的工单号，工单发起时间，工单标题均在<ul id =“ticket-list”>这个id下面

python抓取需要扫微信登陆页面

那么点开一个工单结构，例如工单号ID = “4427” 下面我们需要知道工单号，工单发起时间，工单内容可以看到

1.工单内容在H3标签下面

2.工单编号在类=“NUM”下面

3.工单发起时间在类= “时间” 下面

for soups in soup.select('#ticket-list'):
  if len(soups.select('h3'))>0:
    id_num = soups.select('.num')
    star_time = soups.select('.time')
    h3 = soups.select('h3')
    print id_num,start_time,h3

总结

以上所述是小编给大家介绍的python抓取需要扫微信登陆页面,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

python抓取需要扫微信登陆页面

- Author -

lai_cheng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python datetime时间格式化去掉前导0

Jul 31 Python

为Python的web框架编写前端模版的教程

Apr 30 Python

python通过函数属性实现全局变量的方法

May 16 Python

Python 模块EasyGui详细介绍

Feb 19 Python

python自定义函数实现一个数的三次方计算方法

Jan 20 Python

Python3.5实现的三级菜单功能示例

Mar 25 Python

python中metaclass原理与用法详解

Jun 25 Python

django 类视图的使用方法详解

Jul 24 Python

Python中生成一个指定长度的随机字符串实现示例

Nov 06 Python

python中的线程threading.Thread()使用详解

Dec 17 Python

Python中求对数方法总结

Mar 10 Python

Python借助with语句实现代码段只执行有限次

Mar 23 Python

python基于itchat模块实现微信防撤回

Apr 29 #Python

手把手教你使用Python创建微信机器人

Apr 29 #Python

python实现微信防撤回神器

Apr 29 #Python

python实现文件助手中查看微信撤回消息

Apr 29 #Python

Python实现微信消息防撤回功能的实例代码

Apr 29 #Python

python控制nao机器人身体动作实例详解

Apr 29 #Python

python实现nao机器人身体躯干和腿部动作操作

Apr 29 #Python

You might like

生成静态页面的php函数,php爱好者站推荐

2007/03/19 PHP

用sql命令修改数据表中的一个字段为非空(not null)的语句

2010/06/04 PHP

centos 5.6 升级php到5.3的方法

2011/05/14 PHP

zf框架的数据库追踪器使用示例

2014/03/13 PHP

PHP模拟post提交数据方法汇总

2016/02/16 PHP

javascript生成/解析dom的CDATA类型的字段的代码

2007/04/22 Javascript

Javascript学习笔记8 用JSON做原型

2010/01/11 Javascript

理解Javascript_01_理解内存分配原理分析

2010/10/11 Javascript

jquery next nextAll nextUntil siblings的区别介绍

2013/10/05 Javascript

jquery dialog open后,服务器端控件失效的快速解决方法

2013/12/19 Javascript

javascript中match函数的用法小结

2014/02/08 Javascript

jQuery实现文件上传进度条特效

2015/08/12 Javascript

jQuery左右滚动支持图片放大缩略图图片轮播代码分享

2015/08/26 Javascript

jquery实现九宫格大转盘抽奖

2015/11/13 Javascript

BootstrapTable+KnockoutJS自定义T4模板快速生成增删改查页面

2016/08/01 Javascript

javaScript中的空值和假值

2017/12/18 Javascript

JavaScript继承与聚合实例详解

2019/01/22 Javascript

vue+iview实现文件上传

2020/11/17 Vue.js

[47:43]完美世界DOTA2联赛PWL S3 Magama vs GXR 第二场 12.19

2020/12/24 DOTA

在阿里云服务器上配置CentOS+Nginx+Python+Flask环境

2016/06/18 Python

python正则表达式的使用

2017/06/12 Python

Python爬虫天气预报实例详解（小白入门）

2018/01/24 Python

Python随机函数库random的使用方法详解

2019/08/21 Python

WxPython实现无边框界面

2019/11/18 Python

python列表推导式入门学习解析

2019/12/02 Python

Python 程序报错崩溃后如何倒回到崩溃的位置(推荐)

2020/06/23 Python

python3列表删除大量重复元素remove()方法的问题详解

2021/01/04 Python

anaconda安装pytorch1.7.1和torchvision0.8.2的方法(亲测可用)

2021/02/01 Python

Canon佳能美国官方商店：购买数码相机、数码单反相机、镜头和打印机

2016/11/15 全球购物

项目投资意向书

2014/04/01 职场文书

人力资源管理毕业生自荐信

2014/06/26 职场文书

2014年最新个人对照检查材料范文

2014/09/25 职场文书

群众路线查摆问题整改措施思想汇报

2014/10/10 职场文书

先进教育工作者事迹材料

2014/12/23 职场文书

优秀教师个人总结

2015/02/11 职场文书

介绍信范文大全

2015/05/07 职场文书