python抓取搜狗微信公众号文章


Posted in Python onApril 01, 2019

初学python,抓取搜狗微信公众号文章存入mysql

mysql表:

python抓取搜狗微信公众号文章

python抓取搜狗微信公众号文章

代码:

import requests
import json
import re
import pymysql
 
# 创建连接
conn = pymysql.connect(host='你的数据库地址', port=端口, user='用户名', passwd='密码', db='数据库名称', charset='utf8')
# 创建游标
cursor = conn.cursor()

cursor.execute("select * from hd_gzh")
effect_row = cursor.fetchall()
from bs4 import BeautifulSoup

socket.setdefaulttimeout(60)
count = 1
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0'}
#阿布云ip代理暂时不用
# proxyHost = "http-cla.abuyun.com"
# proxyPort = "9030"
# # 代理隧道验证信息
# proxyUser = "H56761606429T7UC"
# proxyPass = "9168EB00C4167176"

# proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
#  "host" : proxyHost,
#  "port" : proxyPort,
#  "user" : proxyUser,
#  "pass" : proxyPass,
# }

# proxies = {
#   "http" : proxyMeta,
#   "https" : proxyMeta,
# }

#查看是否已存在数据
def checkData(name):
  sql = "select * from gzh_article where title = '%s'"
  data = (name,)
  count = cursor.execute(sql % data)
  conn.commit()
  if(count!=0):
    return False
  else:
    return True
#插入数据
def insertData(title,picture,author,content):
  sql = "insert into gzh_article (title,picture,author,content) values ('%s', '%s','%s', '%s')"
  data = (title,picture,author,content)
  cursor.execute(sql % data)
  conn.commit()
  print("插入一条数据")
  return
  
for row in effect_row:
  newsurl = 'https://weixin.sogou.com/weixin?type=1&s_from=input&query=' + row[1] + '&ie=utf8&_sug_=n&_sug_type_='
  res = requests.get(newsurl,headers=headers)
  res.encoding = 'utf-8'
  soup = BeautifulSoup(res.text,'html.parser')
  url = 'https://weixin.sogou.com' + soup.select('.tit a')[0]['href']
  res2 = requests.get(url,headers=headers)
  res2.encoding = 'utf-8'
  soup2 = BeautifulSoup(res2.text,'html.parser')
  pattern = re.compile(r"url \+= '(.*?)';", re.MULTILINE | re.DOTALL)
  script = soup2.find("script")
  url2 = pattern.search(script.text).group(1)
  res3 = requests.get(url2,headers=headers)
  res3.encoding = 'utf-8'
  soup3 = BeautifulSoup(res3.text,'html.parser')
  print()
  pattern2 = re.compile(r"var msgList = (.*?);$", re.MULTILINE | re.DOTALL)
  script2 = soup3.find("script", text=pattern2)
  s2 = json.loads(pattern2.search(script2.text).group(1))
  #等待10s
  time.sleep(10)
  
  for news in s2["list"]:
    articleurl = "https://mp.weixin.qq.com"+news["app_msg_ext_info"]["content_url"]
    articleurl = articleurl.replace('&','&')
    res4 = requests.get(articleurl,headers=headers)
    res4.encoding = 'utf-8'
    soup4 = BeautifulSoup(res4.text,'html.parser')
    if(checkData(news["app_msg_ext_info"]["title"])):
      insertData(news["app_msg_ext_info"]["title"],news["app_msg_ext_info"]["cover"],news["app_msg_ext_info"]["author"],pymysql.escape_string(str(soup4)))
    count += 1
    #等待5s
    time.sleep(10)
    for news2 in news["app_msg_ext_info"]["multi_app_msg_item_list"]:
      articleurl2 = "https://mp.weixin.qq.com"+news2["content_url"]
      articleurl2 = articleurl2.replace('&','&')
      res5 = requests.get(articleurl2,headers=headers)
      res5.encoding = 'utf-8'
      soup5 = BeautifulSoup(res5.text,'html.parser')
      if(checkData(news2["title"])):
        insertData(news2["title"],news2["cover"],news2["author"],pymysql.escape_string(str(soup5)))
      count += 1
      #等待10s
      time.sleep(10)
cursor.close()
conn.close()
print("操作完成")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的对象,方法,类,实例,函数用法分析
Jan 15 Python
利用Python脚本在Nginx和uwsgi上部署MoinMoin的教程
May 05 Python
玩转python爬虫之正则表达式
Feb 17 Python
Python实现一个转存纯真IP数据库的脚本分享
May 21 Python
Python网络爬虫神器PyQuery的基本使用教程
Feb 03 Python
Python matplotlib绘图可视化知识点整理(小结)
Mar 16 Python
Python实现从log日志中提取ip的方法【正则提取】
Mar 31 Python
使用 Python 实现文件递归遍历的三种方式
Jul 18 Python
Python调用百度根据经纬度查询地址的示例代码
Jul 07 Python
python 解决Fatal error in launcher:错误问题
May 21 Python
opencv 形态学变换(开运算,闭运算,梯度运算)
Jul 07 Python
python爬虫爬取某网站视频的示例代码
Feb 20 Python
Python使用os.listdir()和os.walk()获取文件路径与文件下所有目录的方法
Apr 01 #Python
python装饰器简介---这一篇也许就够了(推荐)
Apr 01 #Python
Python批量删除只保留最近几天table的代码实例
Apr 01 #Python
Python中的Socket 与 ScoketServer 通信及遇到问题解决方法
Apr 01 #Python
python assert的用处示例详解
Apr 01 #Python
使用Python操作FTP实现上传和下载的方法
Apr 01 #Python
Python提取特定时间段内数据的方法实例
Apr 01 #Python
You might like
PHP的FTP学习(四)
2006/10/09 PHP
php进行md5加密简单实例方法
2019/09/19 PHP
表单JS弹出填写提示效果代码
2011/04/16 Javascript
JQuery中form验证出错信息的查看方法
2013/10/08 Javascript
js 实现菜单上下显示附效果图
2013/11/21 Javascript
删除条目时弹出的确认对话框
2014/06/05 Javascript
JavaScript中switch判断容易犯错的一个细节
2014/08/27 Javascript
javascript文本框内输入文字倒计数的方法
2015/02/24 Javascript
JS实现超炫网页烟花动画效果的方法
2015/03/02 Javascript
JavaScript function函数种类详解
2016/02/22 Javascript
基于jQuery Ajax实现上传文件
2016/03/24 Javascript
Node.js的特点详解
2017/02/03 Javascript
vue-resource请求实现http登录拦截或者路由拦截的方法
2018/07/11 Javascript
jquery获取select选中值的文本,并赋值给另一个输入框的方法
2018/08/21 jQuery
React 组件中的 bind(this)示例代码
2018/09/16 Javascript
jQuery使用jsonp实现百度搜索的示例代码
2020/07/08 jQuery
浅谈JSON5解决了JSON的两大痛点
2020/12/14 Javascript
[47:03]完美世界DOTA2联赛PWL S3 Galaxy Racer vs Phoenix 第二场 12.10
2020/12/13 DOTA
python之PyMongo使用总结
2017/05/26 Python
python之virtualenv的简单使用方法(必看篇)
2017/11/25 Python
Python语言描述机器学习之Logistic回归算法
2017/12/21 Python
python实现简单登陆流程的方法
2018/04/22 Python
Ubuntu下升级 python3.7.1流程备忘(推荐)
2018/12/10 Python
python将txt文件读取为字典的示例
2018/12/22 Python
centos6.5安装python3.7.1之后无法使用pip的解决方案
2019/02/14 Python
python 执行终端/控制台命令的例子
2019/07/12 Python
Python3爬虫关于识别点触点选验证码的实例讲解
2020/07/30 Python
.net软件工程师面试题
2015/03/31 面试题
《藤野先生》教学反思
2014/02/19 职场文书
文明好少年事迹材料
2014/08/19 职场文书
乡领导班子四风问题对照检查材料
2014/09/25 职场文书
租车协议书范本2014
2014/11/17 职场文书
2015年秋季运动会加油稿
2015/07/22 职场文书
丧事酒宴答谢词
2015/09/30 职场文书
MySQL8.0.24版本Release Note的一些改进点
2021/04/22 MySQL
python numpy中multiply与*及matul 的区别说明
2021/05/26 Python