python+selenium爬取微博热搜存入Mysql的实现方法


Posted in Python onJanuary 27, 2021

最终的效果

废话不多少,直接上图

python+selenium爬取微博热搜存入Mysql的实现方法

这里可以清楚的看到,数据库里包含了日期,内容,和网站link
下面我们来分析怎么实现

使用的库

import requests
from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

目标分析

这是微博热搜的link:点我可以到目标网页

python+selenium爬取微博热搜存入Mysql的实现方法

首先我们使用selenium对目标网页进行请求
然后我们使用xpath对网页元素进行定位,遍历获得所有数据
然后使用pandas生成一个Dataframe对像,直接存入数据库

一:得到数据

python+selenium爬取微博热搜存入Mysql的实现方法

我们看到,使用xpath可以得到51条数据,这就是各热搜,从中我们可以拿到链接和标题内容

all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a') #得到所有数据
	context = [i.text for i in c] # 得到标题内容
  links = [i.get_attribute('href') for i in c] # 得到link

然后我们再使用zip函数,将date,context,links合并
zip函数是将几个列表合成一个列表,并且按index对分列表的数据合并成一个元组,这个可以生产pandas对象。

dc = zip(dates, context, links)
  pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])

其中date可以使用time模块获得

二:链接数据库

这个很容易

enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
pdf.to_sql(name='infromation', con=enging, if_exists="append")

总代码

from selenium.webdriver import Chrome, ChromeOptions
import time
from sqlalchemy import create_engine
import pandas as pd

def get_data():
  url = r"https://s.weibo.com/top/summary" # 微博的地址
  option = ChromeOptions()
  option.add_argument('--headless')
  option.add_argument("--no-sandbox")
  browser = Chrome(options=option)
  browser.get(url)
  all = browser.find_elements_by_xpath('//*[@id="pl_top_realtimehot"]/table/tbody/tr/td[2]/a')
  context = [i.text for i in all]
  links = [i.get_attribute('href') for i in all]
  date = time.strftime("%Y-%m-%d-%H_%M_%S", time.localtime())
  dates = []
  for i in range(len(context)):
    dates.append(date)
  # print(len(dates),len(context),dates,context)
  dc = zip(dates, context, links)
  pdf = pd.DataFrame(dc, columns=['date', 'hotsearch', 'link'])
  # pdf.to_sql(name=in, con=enging, if_exists="append")
  return pdf

def w_mysql(pdf):
  try:
    enging = create_engine("mysql+pymysql://root:123456@localhost:3306/webo?charset=utf8")
    pdf.to_sql(name='infromation', con=enging, if_exists="append")
  except:
    print('出错了')

if __name__ == '__main__':
  xx = get_data()
  w_mysql(xx)

到此这篇关于python+selenium爬取微博热搜存入Mysql的实现方法的文章就介绍到这了,更多相关python selenium爬取微博热搜存入Mysql内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python抓取网页图片并放到指定文件夹
Apr 24 Python
Python文档生成工具pydoc使用介绍
Jun 02 Python
Python简单实现自动删除目录下空文件夹的方法
Aug 29 Python
人脸识别经典算法一 特征脸方法(Eigenface)
Mar 13 Python
caffe binaryproto 与 npy相互转换的实例讲解
Jul 09 Python
python得到单词模式的示例
Oct 15 Python
Python爬虫之正则表达式的使用教程详解
Oct 25 Python
用Pycharm实现鼠标滚轮控制字体大小的方法
Jan 15 Python
centos+nginx+uwsgi+Django实现IP+port访问服务器
Nov 15 Python
Python中bisect的使用方法
Dec 31 Python
Python注释、分支结构、循环结构、伪“选择结构”用法实例分析
Jan 09 Python
详解Python requests模块
Jun 21 Python
Python实现网络聊天室的示例代码(支持多人聊天与私聊)
Jan 27 #Python
基于Python的接口自动化unittest测试框架和ddt数据驱动详解
Jan 27 #Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 #Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 #Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
Jan 27 #Python
python re.match()用法相关示例
Jan 27 #Python
selenium+python实现基本自动化测试的示例代码
Jan 27 #Python
You might like
php实现获取文件mime类型的方法
2015/02/11 PHP
基于PHP如何把汉字转化为拼音
2015/12/11 PHP
php动态读取数据清除最右边距的方法
2017/04/12 PHP
使用PHPWord生成word文档的方法详解
2019/06/06 PHP
jQueryPad 实用的jQuery测试工具(支持IE,chrome,FF)
2010/05/22 Javascript
jQuery 获取对象 基本选择与层级
2010/05/31 Javascript
基于jQuery的为attr添加id title等效果的实现代码
2011/04/20 Javascript
基于jquery的多彩百分比 动态进度条 投票效果显示效果实现代码
2011/08/28 Javascript
再谈javascript面向对象编程
2012/03/18 Javascript
js综合应用实例简单的表格统计
2013/09/03 Javascript
Jquery 点击按钮自动高亮实现原理及代码
2014/04/25 Javascript
用js通过url传参把数据从一个页面传到另一个页面
2014/09/01 Javascript
jQuery实现简易的天天爱消除小游戏
2015/10/16 Javascript
jQuery+CSS3折叠卡片式下拉列表框实现效果
2015/11/02 Javascript
拥有一个属于自己的javascript表单验证插件
2016/03/24 Javascript
原生js的RSA和AES加密解密算法
2016/10/08 Javascript
微信小程序 常见问题总结(4058,40013)及解决办法
2017/01/11 Javascript
提升node.js中使用redis的性能遇到的问题及解决方法
2018/10/30 Javascript
JavaScript实现鼠标经过表格某行时此行变色
2020/11/20 Javascript
初步解析Python中的yield函数的用法
2015/04/03 Python
Python安装lz4-0.10.1遇到的坑
2018/05/20 Python
python 将列表中的字符串连接成一个长路径的方法
2018/10/23 Python
Django多数据库的实现过程详解
2019/08/01 Python
Django url 路由匹配过程详解
2021/01/22 Python
临床医学大学生求职信
2013/09/28 职场文书
社团成立邀请函
2014/01/08 职场文书
致跳高运动员加油稿
2014/02/12 职场文书
解除财产保全担保书
2014/05/20 职场文书
2015初一年级组工作总结
2015/07/24 职场文书
2015年公司国庆放假通知
2015/07/30 职场文书
运动会广播稿200字
2015/08/19 职场文书
2016年学校综治宣传月活动总结
2016/03/16 职场文书
干货!开幕词的写作方法
2019/04/02 职场文书
你会写请假条吗?
2019/06/26 职场文书
python实现进度条的多种实现
2021/04/29 Python
Golang解析JSON对象
2022/04/30 Golang