编程 Python

Python微医挂号网医生数据抓取

Posted in Python onJanuary 24, 2019

1. 写在前面

今天要抓取的一个网站叫做微医网站，地址为 https://www.guahao.com ，我们将通过python3爬虫抓取这个网址，然后数据存储到CSV里面，为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteer 和 pyquery

首先找到医生列表页

https://www.guahao.com/expert/all/全国/all/不限/p5

这个页面显示有 75952 条数据，实际测试中，翻页到第38页，数据就加载不出来了，目测后台程序猿没有把数据返回，不过为了学习，我们忍了。

Python微医挂号网医生数据抓取

2. 页面URL

https://www.guahao.com/expert/all/全国/all/不限/p1
https://www.guahao.com/expert/all/全国/all/不限/p2
...
https://www.guahao.com/expert/all/全国/all/不限/p38

数据总过38页，量不是很大，咱只需要随便选择一个库抓取就行，这篇博客，我找了一个冷门的库
pyppeteer 在使用过程中，发现资料好少，很尴尬。而且官方的文档写的也不好，有兴趣的可以自行去看看。关于这个库的安装也在下面的网址中。

https://miyakogi.github.io/pyppeteer/index.html

最简单的使用方法，在官方文档中也简单的写了一下，如下，可以把一个网页直接保存为一张图片。

import asyncio
from pyppeteer import launch
async def main():
  browser = await launch() # 运行一个无头的浏览器
  page = await browser.newPage() # 打开一个选项卡
  await page.goto('http://www.baidu.com') # 加载一个页面
  await page.screenshot({'path': 'baidu.png'}) # 把网页生成截图
  await browser.close()
asyncio.get_event_loop().run_until_complete(main()) # 异步

我整理了下面的一些参考代码，你可以做一些参考。

browser = await launch(headless=False) # 可以打开浏览器
await page.click('#login_user') # 点击一个按钮
await page.type('#login_user', 'admin') # 输入内容
await page.click('#password') 
await page.type('#password', '123456')
await page.click('#login-submit')
await page.waitForNavigation() 
# 设置浏览器窗口大小
await page.setViewport({
  'width': 1350,
  'height': 850
})
content = await page.content() # 获取网页内容
cookies = await page.cookies() # 获取网页cookies

3. 爬取页面

运行下面的代码，你就可以看到控制台不断的打印网页的源码，只要获取到源码，就可以进行后面的解析与保存数据了。如果出现控制不输出任何东西的情况，那么请把下面的

await launch(headless=True) 修改为 await launch(headless=False)

import asyncio
from pyppeteer import launch
class DoctorSpider(object):
  async def main(self, num):
    try:
      browser = await launch(headless=True)
      page = await browser.newPage()
      print(f"正在爬取第 {num} 页面")
      await page.goto("https://www.guahao.com/expert/all/全国/all/不限/p{}".format(num))
      content = await page.content()
      print(content)
    except Exception as e:
      print(e.args)
    finally:
      num += 1
      await browser.close()
      await self.main(num)
  def run(self):
    loop = asyncio.get_event_loop()
    asyncio.get_event_loop().run_until_complete(self.main(1))
if __name__ == '__main__':
  doctor = DoctorSpider()
  doctor.run()

4. 解析数据

解析数据采用的是pyquery ，这个库在之前的博客中有过使用，直接应用到案例中即可。最终产生的数据通过pandas保存到CSV文件中。

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
import pandas as pd # 保存csv文件
class DoctorSpider(object):
  def __init__(self):
    self._data = list()
  async def main(self,num):
    try:
      browser = await launch(headless=True)
      page = await browser.newPage()
      print(f"正在爬取第 {num} 页面")
      await page.goto("https://www.guahao.com/expert/all/全国/all/不限/p{}".format(num))
      content = await page.content()
      self.parse_html(content)
      print("正在存储数据....")
      data = pd.DataFrame(self._data)
      data.to_csv("微医数据.csv", encoding='utf_8_sig')
    except Exception as e:
      print(e.args)
    finally:
      num+=1
      await browser.close()
      await self.main(num)
  def parse_html(self,content):
    doc = pq(content)
    items = doc(".g-doctor-item").items()
    for item in items:
      #doctor_name = item.find(".seo-anchor-text").text()
      name_level = item.find(".g-doc-baseinfo>dl>dt").text() # 姓名和级别
      department = item.find(".g-doc-baseinfo>dl>dd>p:eq(0)").text() # 科室
      address = item.find(".g-doc-baseinfo>dl>dd>p:eq(1)").text() # 医院地址
      star = item.find(".star-count em").text() # 评分
      inquisition = item.find(".star-count i").text() # 问诊量
      expert_team = item.find(".expert-team").text() # 专家团队
      service_price_img = item.find(".service-name:eq(0)>.fee").text()
      service_price_video = item.find(".service-name:eq(1)>.fee").text()
      one_data = {
        "name": name_level.split(" ")[0],
        "level": name_level.split(" ")[1],
        "department": department,
        "address": address,
        "star": star,
        "inquisition": inquisition,
        "expert_team": expert_team,
        "service_price_img": service_price_img,
        "service_price_video": service_price_video
      }
      self._data.append(one_data)
  def run(self):
    loop = asyncio.get_event_loop()
    asyncio.get_event_loop().run_until_complete(self.main(1))
if __name__ == '__main__':
  doctor = DoctorSpider()
  doctor.run()

总结一下，这个库不怎么好用，可能之前没有细细的研究过，感觉一般，你可以在多尝试一下，看一下是否可以把整体的效率提高上去。

数据清单：

Python微医挂号网医生数据抓取

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python微医挂号网医生数据抓取

- Author -

Python新世界

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python列表操作使用示例分享

Feb 21 Python

python类的继承实例详解

Mar 30 Python

Numpy掩码式数组详解

Apr 17 Python

使用pycharm设置控制台不换行的操作方法

Jan 19 Python

在python tkinter中Canvas实现进度条显示的方法

Jun 14 Python

pyqt5 获取显示器的分辨率的方法

Jun 18 Python

python实现两张图片拼接为一张图片并保存

Jul 16 Python

Python将string转换到float的实例方法

Jul 29 Python

Python中__repr__和__str__区别详解

Nov 07 Python

python实现从wind导入数据

Dec 03 Python

windows上彻底删除jupyter notebook的实现

Apr 13 Python

深度学习详解之初试机器学习

Apr 14 Python

Python实现查找二叉搜索树第k大的节点功能示例

Jan 24 #Python

几行Python代码爬取3000+上市公司的信息

Jan 24 #Python

python安装pywin32clipboard的操作方法

Jan 24 #Python

Python中extend和append的区别讲解

Jan 24 #Python

对python pandas读取剪贴板内容的方法详解

Jan 24 #Python

Python3按一定数据位数格式处理bin文件的方法

Jan 24 #Python

Python使用post及get方式提交数据的实例

Jan 24 #Python

You might like

PHP简单实现文本计数器的方法

2016/04/28 PHP

php简单统计中文个数的方法

2016/09/30 PHP

php实现微信发红包功能

2018/07/13 PHP

php和html的区别点详细总结

2019/09/24 PHP

php 的多进程操作实践案例分析

2020/02/28 PHP

Javascript this关键字使用分析

2008/10/21 Javascript

Javascript 网页黑白效果实现代码(兼容IE/FF等)

2010/04/23 Javascript

NODE.JS加密模块CRYPTO常用方法介绍

2014/06/05 Javascript

QQ空间顶部折页撕开效果示例代码

2014/06/15 Javascript

node.js中实现同步操作的3种实现方法

2014/12/05 Javascript

javascript截取字符串小结

2015/04/28 Javascript

jQuery的css() 方法使用指南

2015/05/03 Javascript

高性能JavaScript DOM编程（1）

2015/08/11 Javascript

jquery实现叠层3D文字特效代码分享

2015/08/21 Javascript

第二章之Bootstrap 页面排版样式

2016/04/25 Javascript

js方法数据验证的简单实例

2016/09/17 Javascript

3种不同的ContextMenu右键菜单实现代码

2016/11/03 Javascript

clipboard.js在移动端复制失败的解决方法

2018/06/13 Javascript

Vue+penlayers实现多边形绘制及展示

2020/12/24 Vue.js

[02:41]DOTA2英雄基础教程亚巴顿

2014/01/02 DOTA

python实现比较两段文本不同之处的方法

2015/05/30 Python

Python+tkinter模拟“记住我”自动登录实例代码

2018/01/16 Python

python 用opencv调用训练好的模型进行识别的方法

2018/12/07 Python

对Python函数设计规范详解

2019/07/19 Python

使用Python求解带约束的最优化问题详解

2020/02/11 Python

pyCharm 设置调试输出窗口中文显示方式(字符码转换)

2020/06/09 Python

HTML5中5个简单实用的API

2014/04/28 HTML / CSS

HTML5 weui使用笔记

2019/11/21 HTML / CSS

Spartoo荷兰：鞋子、包包和服装

2018/07/12 全球购物

机电专业毕业生求职信

2013/10/27 职场文书

竞选班委演讲稿

2014/04/28 职场文书

运动会跳远广播稿5篇

2014/09/17 职场文书

政府班子四风问题整改措施

2014/10/04 职场文书

工伤私了协议书范本

2014/11/24 职场文书

庆七一主持词

2015/06/29 职场文书

Python软件包安装的三种常见方法

2022/07/07 Python