Python selenium爬取微博数据代码实例


Posted in Python onMay 22, 2020

爬取某人的微博数据,把某人所有时间段的微博数据都爬下来。

具体思路:

创建driver-----get网页----找到并提取信息-----保存csv----翻页----get网页(开始循环)----...----没有“下一页”就结束,

用了while True,没用自我调用函数

嘟大海的微博:https://weibo.com/u/1623915527

办公室小野的微博:https://weibo.com/bgsxy

代码如下

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import csv
import os
import time
 
#只有这2个参数设置,想爬谁的微博数据就在这里改地址和目标csv名称就行
weibo_url = 'https://weibo.com/bgsxy?profile_ftype=1&is_all=1#_0'
csv_name = 'bgsxy_allweibo.csv'
 
def start_chrome():
  print('开始创建浏览器')
  driver = webdriver.Chrome(executable_path='C:/Users/lori/Desktop/python52project/chromedriver_win32/chromedriver.exe')
  driver.start_client()
  return driver
 
def get_web(url):   #获取网页,并下拉到最底部
  print('开始打开指定网页')
  driver.get(url)
  time.sleep(7)
  scoll_down()
  time.sleep(5)
 
def scoll_down():  # 滚轮下拉到最底部
  html_page = driver.find_element_by_tag_name('html')
  for i in range(7):
    print(i)
    html_page.send_keys(Keys.END)
    time.sleep(1)
 
def get_data():
  print('开始查找并提取数据')
  card_sel = 'div.WB_cardwrap.WB_feed_type'
  time_sel = 'a.S_txt2[node-type="feed_list_item_date"]'
  source_sel = 'a.S_txt2[suda-uatrack="key=profile_feed&value=pubfrom_guest"]'
  content_sel = 'div.WB_text.W_f14'
  interact_sel = 'span.line.S_line1>span>em:nth-child(2)'
 
  cards = driver.find_elements_by_css_selector(card_sel)
  info_list = []
 
  for card in cards:
    time = card.find_elements_by_css_selector(time_sel)[0].text #虽然有可能在一个card中有2个time元素,我们取第一个就对
    if card.find_elements_by_css_selector(source_sel):
      source = card.find_elements_by_css_selector(source_sel)[0].text
    else:
      source = ''
    content = card.find_elements_by_css_selector(content_sel)[0].text
    link = card.find_elements_by_css_selector(time_sel)[0].get_attribute('href')
    trans = card.find_elements_by_css_selector(interact_sel)[1].text
    comment = card.find_elements_by_css_selector(interact_sel)[2].text
    like = card.find_elements_by_css_selector(interact_sel)[3].text
    info_list.append([time,source,content,link,trans,comment,like])
 
  return info_list
 
def save_csv(info_list,csv_name):
  csv_path = './' + csv_name
  print('开始写入csv文件')
  if os.path.exists(csv_path):
    with open(csv_path,'a',newline='',encoding='utf-8-sig') as f: #newline=''避免空行;encoding='utf-8-sig'比utf8牛,保存中文没问题
      writer = csv.writer(f)
      writer.writerows(info_list)
  else:
    with open(csv_path,'w+',newline='',encoding='utf-8-sig') as f:
      writer = csv.writer(f)
      writer.writerow(['发布时间','来源','内容','链接','转发数','评论数','点赞数'])
      writer.writerows(info_list)
  time.sleep(5)
 
def next_page_url():
  next_page_sel = 'a.page.next'
  next_page_ele = driver.find_elements_by_css_selector(next_page_sel)
  if next_page_ele:
    return next_page_ele[0].get_attribute('href')
  else:
    return None
 
 
driver = start_chrome()
input('请在chrome中登录weibo.com')   # 暂停程序,手动登录weibo.com
 
while True:
  get_web(weibo_url)
  info_list = get_data()
  save_csv(info_list,csv_name)
  if next_page_url():
    weibo_url = next_page_url()
  else:
    print('爬取结束')
    break

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
测试、预发布后用python检测网页是否有日常链接
Jun 03 Python
python实现通过pil模块对图片格式进行转换的方法
Mar 24 Python
将Django使用的数据库从MySQL迁移到PostgreSQL的教程
Apr 11 Python
Python实现栈的方法
May 26 Python
Python subprocess模块详细解读
Jan 29 Python
python3.4.3下逐行读入txt文本并去重的方法
Apr 29 Python
DataFrame.to_excel多次写入不同Sheet的实例
Dec 02 Python
基于Tensorflow:CPU性能分析
Feb 10 Python
Django+RestFramework API接口及接口文档并返回json数据操作
Jul 12 Python
django前端页面下拉选择框默认值设置方式
Aug 09 Python
如何将json数据转换为python数据
Sep 04 Python
python 从list中随机取值的方法
Nov 16 Python
python实现文法左递归的消除方法
May 22 #Python
使用Django搭建网站实现商品分页功能
May 22 #Python
Tensorflow卷积实现原理+手写python代码实现卷积教程
May 22 #Python
Python实现发票自动校核微信机器人的方法
May 22 #Python
基于django micro搭建网站实现加水印功能
May 22 #Python
基于Tensorflow一维卷积用法详解
May 22 #Python
Python参数传递机制传值和传引用原理详解
May 22 #Python
You might like
PHP之APC缓存详细介绍 apc模块安装
2014/01/13 PHP
php禁用cookie后session设置方法分析
2016/10/19 PHP
PHP hebrev()函数用法讲解
2019/02/21 PHP
javascript div 弹出可拖动窗口
2009/02/26 Javascript
基于jquery的放大镜效果
2012/05/30 Javascript
利用JQuery和JS实现奇偶行背景颜色自定义效果
2012/11/19 Javascript
jQuery分组选择器用法实例
2014/12/23 Javascript
jQuery中:contains选择器用法实例
2014/12/30 Javascript
jquery分页插件jquery.pagination.js使用方法解析
2016/04/01 Javascript
jQuery电话号码验证实例
2017/01/05 Javascript
jQuery.cookie.js使用方法及相关参数解释
2017/03/06 Javascript
从parcel.js打包出错到选择nvm的全部过程
2018/01/23 Javascript
webuploader实现上传图片到服务器功能
2018/08/16 Javascript
JSON基本语法及与JavaScript的异同实例分析
2019/01/04 Javascript
layui的select联动实现代码
2019/09/28 Javascript
js实现从右往左匀速显示图片(无缝轮播)
2020/06/29 Javascript
浅谈vue生命周期共有几个阶段?分别是什么?
2020/08/07 Javascript
学习 Vue.js 遇到的那些坑
2021/02/02 Vue.js
python中的装饰器详解
2015/04/13 Python
python入门教程 python入门神图一张
2018/03/05 Python
配置 Pycharm 默认 Test runner 的图文教程
2018/11/30 Python
Python性能分析工具py-spy原理用法解析
2020/07/27 Python
python中Pexpect的工作流程实例讲解
2021/03/02 Python
html5实现多文件的上传示例代码
2014/02/13 HTML / CSS
澳大利亚女士时装在线:Rockmans
2018/09/26 全球购物
阿里巴巴英国:Alibaba英国
2019/12/11 全球购物
LUISAVIAROMA中国官网:时尚奢侈品牌购物网站
2020/11/01 全球购物
怎样在程序里获得一个空指针
2015/01/24 面试题
.net软件工程师应聘上机试题
2015/03/10 面试题
庆中秋节主题活动方案
2014/02/03 职场文书
教师自我反思材料
2014/02/14 职场文书
经典公益广告词
2014/03/13 职场文书
县政府办公室领导班子对照检查材料思想汇报
2014/09/28 职场文书
乡镇务虚会发言材料
2014/10/20 职场文书
教师听课学习心得体会
2016/01/15 职场文书
人民调解协议书
2016/03/21 职场文书