编程 Python

python爬取微博评论的实例讲解

Posted in Python onJanuary 15, 2021

python爬虫是程序员们一定会掌握的知识，练习python爬虫时，很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上，所爬取的难度有差异，无论是python新入手的小白，还是已经熟练掌握的程序员，可以拿来练手。本文介绍python爬取微博评论的代码实例。

一、爬虫微博

与QQ空间爬虫类似，可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。

爬虫抓取微博的速度可以达到 1300万/天以上，具体要视网络情况。

难度程度排序：网页端>手机端>移动端。微博端就是最好爬的微博端。

二、python爬虫爬取微博评论

第一步：确定评论用户的id

# -*- coding:utf-8 -*-
import requests
import re
import time
import pandas as pd
urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'
headers = {'Cookies':'Your cookies',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

第二步：找到html标签

tags = re.compile('</?\w+[^>]*>')

第三步：设置提取评论function

def get_comment(url):
j = requests.get(url, headers=headers).json()
comment_data = j['data']['data']
for data in comment_data:
try:

第四步：利用正则表达式去除文本中的html标签

comment = tags.sub('', data['text']) # 去掉html标签
reply = tags.sub('', data['reply_text'])
weibo_id = data['id']
reply_id = data['reply_id']
comments.append(comment)
comments.append(reply)
ids.append(weibo_id)
ids.append(reply_id)

第五步：爬取评论

df = pd.DataFrame({'ID': ids, '评论': comments})
df = df.drop_duplicates()
df.to_csv('观察者网.csv', index=False, encoding='gb18030')

实例扩展：

# -*- coding: utf-8 -*-
# Created : 2018/8/26 18:33
# author ：GuoLi
 
import requests
import json
import time
from lxml import etree
import html
import re
from bs4 import BeautifulSoup
 
 
class Weibospider:
 def __init__(self):
  # 获取首页的相关信息：
  self.start_url = 'https://weibo.com/u/5644764907?page=1&is_all=1'
 
  self.headers = {
   "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
   "accept-encoding": "gzip, deflate, br",
   "accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
   "cache-control": "max-age=0",
   "cookie": 使用自己本机的cookie,
   "referer": "https://www.weibo.com/u/5644764907?topnav=1&wvr=6&topsug=1",
   "upgrade-insecure-requests": "1",
   "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36",
  }
  self.proxy = {
   'HTTP': 'HTTP://180.125.70.78:9999',
   'HTTP': 'HTTP://117.90.4.230:9999',
   'HTTP': 'HTTP://111.77.196.229:9999',
   'HTTP': 'HTTP://111.177.183.57:9999',
   'HTTP': 'HTTP://123.55.98.146:9999',
  }
 
 def parse_home_url(self, url): # 处理解析首页面的详细信息（不包括两个通过ajax获取到的页面）
  res = requests.get(url, headers=self.headers)
  response = res.content.decode().replace("\\", "")
  # every_url = re.compile('target="_blank" href="(/\d+/\w+\?from=\w+&wvr=6&mod=weibotime)" rel="external nofollow"  ', re.S).findall(response)
  every_id = re.compile('name=(\d+)', re.S).findall(response) # 获取次级页面需要的id
  home_url = []
  for id in every_id:
   base_url = 'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={}&from=singleWeiBo'
   url = base_url.format(id)
   home_url.append(url)
  return home_url
 
 def parse_comment_info(self, url): # 爬取直接发表评论的人的相关信息(name,info,time,info_url)
  res = requests.get(url, headers=self.headers)
  response = res.json()
  count = response['data']['count']
  html = etree.HTML(response['data']['html'])
  name = html.xpath("//div[@class='list_li S_line1 clearfix']/div[@class='WB_face W_fl']/a/img/@alt") # 评论人的姓名
  info = html.xpath("//div[@node-type='replywrap']/div[@class='WB_text']/text()") # 评论信息
  info = "".join(info).replace(" ", "").split("\n")
  info.pop(0)
  comment_time = html.xpath("//div[@class='WB_from S_txt2']/text()") # 评论时间
  name_url = html.xpath("//div[@class='WB_face W_fl']/a/@href") # 评论人的url
  name_url = ["https:" + i for i in name_url]
  comment_info_list = []
  for i in range(len(name)):
   item = {}
   item["name"] = name[i] # 存储评论人的网名
   item["comment_info"] = info[i] # 存储评论的信息
   item["comment_time"] = comment_time[i] # 存储评论时间
   item["comment_url"] = name_url[i] # 存储评论人的相关主页
   comment_info_list.append(item)
  return count, comment_info_list
 
 def write_file(self, path_name, content_list):
  for content in content_list:
   with open(path_name, "a", encoding="UTF-8") as f:
    f.write(json.dumps(content, ensure_ascii=False))
    f.write("\n")
 
 def run(self):
  start_url = 'https://weibo.com/u/5644764907?page={}&is_all=1'
  start_ajax_url1 = 'https://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=100406&is_all=1&page={0}&pagebar=0&pl_name=Pl_Official_MyProfileFeed__20&id=1004065644764907&script_uri=/u/5644764907&pre_page={0}'
  start_ajax_url2 = 'https://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=100406&is_all=1&page={0}&pagebar=1&pl_name=Pl_Official_MyProfileFeed__20&id=1004065644764907&script_uri=/u/5644764907&pre_page={0}'
  for i in range(12): # 微博共有12页
   home_url = self.parse_home_url(start_url.format(i + 1)) # 获取每一页的微博
   ajax_url1 = self.parse_home_url(start_ajax_url1.format(i + 1)) # ajax加载页面的微博
   ajax_url2 = self.parse_home_url(start_ajax_url2.format(i + 1)) # ajax第二页加载页面的微博
   all_url = home_url + ajax_url1 + ajax_url2
   for j in range(len(all_url)):
    print(all_url[j])
    path_name = "第{}条微博相关评论.txt".format(i * 45 + j + 1)
    all_count, comment_info_list = self.parse_comment_info(all_url[j])
    self.write_file(path_name, comment_info_list)
    for num in range(1, 10000):
     if num * 15 < int(all_count) + 15:
      comment_url = all_url[j] + "&page={}".format(num + 1)
      print(comment_url)
      try:
       count, comment_info_list = self.parse_comment_info(comment_url)
       self.write_file(path_name, comment_info_list)
      except Exception as e:
       print("Error:", e)
       time.sleep(60)
       count, comment_info_list = self.parse_comment_info(comment_url)
       self.write_file(path_name, comment_info_list)
      del count
      time.sleep(0.2)
 
    print("第{}微博信息获取完成！".format(i * 45 + j + 1))
 
 
if __name__ == '__main__':
 weibo = Weibospider()
 weibo.run()

到此这篇关于python爬取微博评论的实例讲解的文章就介绍到这了,更多相关python爬虫爬取微博评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬取微博评论的实例讲解

- Author -

宋宋大人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python批量下载图片的三种方法

Apr 22 Python

用Python的Django框架完成视频处理任务的教程

Apr 02 Python

python使用Pycharm创建一个Django项目

Mar 05 Python

解决python3爬虫无法显示中文的问题

Apr 12 Python

Pyspider中给爬虫伪造随机请求头的实例

May 07 Python

对Python实现简单的API接口实例讲解

Dec 10 Python

浅谈python3.6的tkinter运行问题

Feb 22 Python

python+logging+yaml实现日志分割

Jul 22 Python

pygame实现贪吃蛇游戏（上）

Oct 29 Python

python实现密度聚类(模板代码+sklearn代码)

Apr 27 Python

使用Keras加载含有自定义层或函数的模型操作

Jun 10 Python

Python通用唯一标识符uuid模块使用案例

Sep 10 Python

pycharm 复制代码出现空格的解决方式

Jan 15 #Python

pycharm 实现复制一行的快捷键

Jan 15 #Python

pycharm 快速解决python代码冲突的问题

Jan 15 #Python

使用OpenCV实现人脸图像卡通化的示例代码

Jan 15 #Python

Pycharm 解决自动格式化冲突的设置操作

Jan 15 #Python

pycharm 配置svn的图文教程(手把手教你)

Jan 15 #Python

PyCharm Ctrl+Shift+F 失灵的简单有效解决操作

Jan 15 #Python

You might like

虹吸式咖啡探讨–研磨

2021/03/03 冲泡冲煮

php 引用(&)详解

2009/11/20 PHP

[原创]php实现 data url的图片生成与保存

2016/12/04 PHP

Windows服务器中PHP如何安装redis扩展

2019/09/27 PHP

[原创]保存的js无法执行的解决办法

2007/02/25 Javascript

javascript 贪吃蛇实现代码

2008/11/22 Javascript

一个javascript图片阅览组件

2010/11/09 Javascript

HTML DOM的nodeType值介绍

2011/03/31 Javascript

探讨JQUERY JSON的反序列化类 using问题的解决方法

2013/12/19 Javascript

javascript搜索框点击文字消失失焦时文本出现

2014/09/18 Javascript

JavaScript获取网页表单action属性的方法

2015/04/02 Javascript

jQuery基础知识点总结(DOM操作)

2016/06/01 Javascript

JavaScript之Date_动力节点Java学院整理

2017/06/28 Javascript

Vue组件之全局组件与局部组件的使用详解

2017/10/09 Javascript

解析Vue.js中的组件

2018/02/02 Javascript

Vue.js实现可配置的登录表单代码详解

2018/03/29 Javascript

从零开始搭建webpack+react开发环境的详细步骤

2018/05/18 Javascript

使用Javascript简单计算器

2018/11/17 Javascript

javascript+HTML5 canvas绘制时钟功能示例

2019/05/15 Javascript

小程序简单两栏瀑布流效果的实现

2019/12/18 Javascript

flexible.js实现移动端rem适配方案

2020/04/07 Javascript

[34:47]完美世界DOTA2联赛PWL S2 Magma vs LBZS 第一场 11.18

2020/11/18 DOTA

Python中的日期时间处理详解

2016/11/17 Python

5款Python程序员高频使用开发工具推荐

2019/04/10 Python

python函数参数(必须参数、可变参数、关键字参数)

2019/08/16 Python

python中HTMLParser模块知识点总结

2021/01/25 Python

Perricone MD裴礼康美国官网：抗衰老护肤品

2016/09/26 全球购物

美国最大的城市服装和运动鞋零售商：Jimmy Jazz

2016/11/19 全球购物

说一下Linux下有关用户和组管理的命令

2014/08/18 面试题

学生评语大全

2014/04/18 职场文书

公司行政专员岗位职责

2014/08/24 职场文书

离职证明范本（5篇）

2014/09/19 职场文书

病假条格式范文

2015/08/17 职场文书

党员干部学习三严三实心得体会

2016/01/05 职场文书

2016年少先队活动总结

2016/04/06 职场文书

七年级作文之秋游

2019/10/21 职场文书