python爬取微博评论的实例讲解


Posted in Python onJanuary 15, 2021

python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手。python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无论是python新入手的小白,还是已经熟练掌握的程序员,可以拿来练手。本文介绍python爬取微博评论的代码实例。

一、爬虫微博

与QQ空间爬虫类似,可以爬取新浪微博用户的个人信息、微博信息、粉丝、关注和评论等。

爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况。

难度程度排序:网页端>手机端>移动端。微博端就是最好爬的微博端。

二、python爬虫爬取微博评论

第一步:确定评论用户的id

# -*- coding:utf-8 -*-
import requests
import re
import time
import pandas as pd
urls = 'https://m.weibo.cn/api/comments/show?id=4073157046629802&page={}'
headers = {'Cookies':'Your cookies',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}

第二步:找到html标签

tags = re.compile('</?\w+[^>]*>')

第三步:设置提取评论function

def get_comment(url):
j = requests.get(url, headers=headers).json()
comment_data = j['data']['data']
for data in comment_data:
try:

第四步:利用正则表达式去除文本中的html标签

comment = tags.sub('', data['text']) # 去掉html标签
reply = tags.sub('', data['reply_text'])
weibo_id = data['id']
reply_id = data['reply_id']
comments.append(comment)
comments.append(reply)
ids.append(weibo_id)
ids.append(reply_id)

第五步:爬取评论

df = pd.DataFrame({'ID': ids, '评论': comments})
df = df.drop_duplicates()
df.to_csv('观察者网.csv', index=False, encoding='gb18030')

实例扩展:

# -*- coding: utf-8 -*-
# Created : 2018/8/26 18:33
# author :GuoLi
 
import requests
import json
import time
from lxml import etree
import html
import re
from bs4 import BeautifulSoup
 
 
class Weibospider:
 def __init__(self):
  # 获取首页的相关信息:
  self.start_url = 'https://weibo.com/u/5644764907?page=1&is_all=1'
 
  self.headers = {
   "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
   "accept-encoding": "gzip, deflate, br",
   "accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
   "cache-control": "max-age=0",
   "cookie": 使用自己本机的cookie,
   "referer": "https://www.weibo.com/u/5644764907?topnav=1&wvr=6&topsug=1",
   "upgrade-insecure-requests": "1",
   "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36",
  }
  self.proxy = {
   'HTTP': 'HTTP://180.125.70.78:9999',
   'HTTP': 'HTTP://117.90.4.230:9999',
   'HTTP': 'HTTP://111.77.196.229:9999',
   'HTTP': 'HTTP://111.177.183.57:9999',
   'HTTP': 'HTTP://123.55.98.146:9999',
  }
 
 def parse_home_url(self, url): # 处理解析首页面的详细信息(不包括两个通过ajax获取到的页面)
  res = requests.get(url, headers=self.headers)
  response = res.content.decode().replace("\\", "")
  # every_url = re.compile('target="_blank" href="(/\d+/\w+\?from=\w+&wvr=6&mod=weibotime)" rel="external nofollow"  ', re.S).findall(response)
  every_id = re.compile('name=(\d+)', re.S).findall(response) # 获取次级页面需要的id
  home_url = []
  for id in every_id:
   base_url = 'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={}&from=singleWeiBo'
   url = base_url.format(id)
   home_url.append(url)
  return home_url
 
 def parse_comment_info(self, url): # 爬取直接发表评论的人的相关信息(name,info,time,info_url)
  res = requests.get(url, headers=self.headers)
  response = res.json()
  count = response['data']['count']
  html = etree.HTML(response['data']['html'])
  name = html.xpath("//div[@class='list_li S_line1 clearfix']/div[@class='WB_face W_fl']/a/img/@alt") # 评论人的姓名
  info = html.xpath("//div[@node-type='replywrap']/div[@class='WB_text']/text()") # 评论信息
  info = "".join(info).replace(" ", "").split("\n")
  info.pop(0)
  comment_time = html.xpath("//div[@class='WB_from S_txt2']/text()") # 评论时间
  name_url = html.xpath("//div[@class='WB_face W_fl']/a/@href") # 评论人的url
  name_url = ["https:" + i for i in name_url]
  comment_info_list = []
  for i in range(len(name)):
   item = {}
   item["name"] = name[i] # 存储评论人的网名
   item["comment_info"] = info[i] # 存储评论的信息
   item["comment_time"] = comment_time[i] # 存储评论时间
   item["comment_url"] = name_url[i] # 存储评论人的相关主页
   comment_info_list.append(item)
  return count, comment_info_list
 
 def write_file(self, path_name, content_list):
  for content in content_list:
   with open(path_name, "a", encoding="UTF-8") as f:
    f.write(json.dumps(content, ensure_ascii=False))
    f.write("\n")
 
 def run(self):
  start_url = 'https://weibo.com/u/5644764907?page={}&is_all=1'
  start_ajax_url1 = 'https://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=100406&is_all=1&page={0}&pagebar=0&pl_name=Pl_Official_MyProfileFeed__20&id=1004065644764907&script_uri=/u/5644764907&pre_page={0}'
  start_ajax_url2 = 'https://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=100406&is_all=1&page={0}&pagebar=1&pl_name=Pl_Official_MyProfileFeed__20&id=1004065644764907&script_uri=/u/5644764907&pre_page={0}'
  for i in range(12): # 微博共有12页
   home_url = self.parse_home_url(start_url.format(i + 1)) # 获取每一页的微博
   ajax_url1 = self.parse_home_url(start_ajax_url1.format(i + 1)) # ajax加载页面的微博
   ajax_url2 = self.parse_home_url(start_ajax_url2.format(i + 1)) # ajax第二页加载页面的微博
   all_url = home_url + ajax_url1 + ajax_url2
   for j in range(len(all_url)):
    print(all_url[j])
    path_name = "第{}条微博相关评论.txt".format(i * 45 + j + 1)
    all_count, comment_info_list = self.parse_comment_info(all_url[j])
    self.write_file(path_name, comment_info_list)
    for num in range(1, 10000):
     if num * 15 < int(all_count) + 15:
      comment_url = all_url[j] + "&page={}".format(num + 1)
      print(comment_url)
      try:
       count, comment_info_list = self.parse_comment_info(comment_url)
       self.write_file(path_name, comment_info_list)
      except Exception as e:
       print("Error:", e)
       time.sleep(60)
       count, comment_info_list = self.parse_comment_info(comment_url)
       self.write_file(path_name, comment_info_list)
      del count
      time.sleep(0.2)
 
    print("第{}微博信息获取完成!".format(i * 45 + j + 1))
 
 
if __name__ == '__main__':
 weibo = Weibospider()
 weibo.run()
 

到此这篇关于python爬取微博评论的实例讲解的文章就介绍到这了,更多相关python爬虫爬取微博评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
初步认识Python中的列表与位运算符
Oct 12 Python
Python实现查找匹配项作处理后再替换回去的方法
Jun 10 Python
Python处理命令行参数模块optpars用法实例分析
May 31 Python
python读取excel指定列数据并写入到新的excel方法
Jul 10 Python
pycharm 安装JPype的教程
Aug 08 Python
Python 中的 import 机制之实现远程导入模块
Oct 29 Python
python 普通克里金(Kriging)法的实现
Dec 19 Python
Django 实现 Websocket 广播、点对点发送消息的代码
Jun 03 Python
Python基于yaml文件配置logging日志过程解析
Jun 23 Python
python 使用建议与技巧分享(四)
Aug 18 Python
python 中的jieba分词库
Nov 23 Python
宝塔更新Python及Flask项目的部署
Apr 11 Python
pycharm 复制代码出现空格的解决方式
Jan 15 #Python
pycharm 实现复制一行的快捷键
Jan 15 #Python
pycharm 快速解决python代码冲突的问题
Jan 15 #Python
使用OpenCV实现人脸图像卡通化的示例代码
Jan 15 #Python
Pycharm 解决自动格式化冲突的设置操作
Jan 15 #Python
pycharm 配置svn的图文教程(手把手教你)
Jan 15 #Python
PyCharm Ctrl+Shift+F 失灵的简单有效解决操作
Jan 15 #Python
You might like
php class中self,parent,this的区别以及实例介绍
2013/04/24 PHP
基于ThinkPHP5.0实现图片上传插件
2017/09/25 PHP
如何在centos8自定义目录安装php7.3
2019/11/28 PHP
LazyForm jQuery plugin 定制您的CheckBox Radio和Select
2009/10/24 Javascript
JS定时关闭窗口的实例
2013/05/22 Javascript
使用JavaScript修改浏览器URL地址栏的实现代码
2013/10/21 Javascript
JavaScript判断变量是否为undefined的两种写法区别
2013/12/04 Javascript
js实现可拖动DIV的方法
2013/12/17 Javascript
jQuery针对各类元素操作基础教程
2014/08/29 Javascript
Javascript数组操作函数总结
2015/02/05 Javascript
js确认框confirm()用法实例详解
2016/01/07 Javascript
JavaScript下的时间格式处理函数Date.prototype.format
2016/01/27 Javascript
JavaScript Date 知识浅析
2017/01/29 Javascript
JavaScript实现的贝塞尔曲线算法简单示例
2018/01/30 Javascript
angularJs 表格添加删除修改查询方法
2018/02/27 Javascript
移动端图片上传旋转、压缩问题的方法
2018/10/16 Javascript
JS中比Switch...Case更优雅的多条件判断写法
2019/09/05 Javascript
Vue循环中多个input绑定指定v-model实例
2020/08/31 Javascript
[16:43]Heroes19_剃刀(完美)
2014/10/31 DOTA
python中sets模块的用法实例
2014/09/30 Python
两个使用Python脚本操作文件的小示例分享
2015/08/27 Python
Python网络编程使用select实现socket全双工异步通信功能示例
2018/04/09 Python
opencv调整图像亮度对比度的示例代码
2019/09/27 Python
django中嵌套的try-except实例
2020/05/21 Python
详解用Python爬虫获取百度企业信用中企业基本信息
2020/07/02 Python
八一建军节部队活动方案
2014/02/04 职场文书
工厂总经理岗位职责
2014/02/07 职场文书
治庸问责心得体会
2014/09/12 职场文书
2014高三学生考试作弊检讨书
2014/12/14 职场文书
2014年团支部年度工作总结
2014/12/24 职场文书
初三语文教学计划
2015/01/22 职场文书
党支部工作总结2015
2015/04/01 职场文书
2015学校图书管理员工作总结
2015/05/11 职场文书
正规借条模板
2015/05/26 职场文书
小学校本教研总结
2015/08/13 职场文书
Python必备技巧之字符数据操作详解
2022/03/23 Python