Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析


Posted in Python onAugust 13, 2019

一:脚本需求

利用Python3查询网站权重并自动存储在本地数据库(Mysql数据库)中,同时导出一份网站权重查询结果的EXCEL表格

数据库类型:MySql

数据库表单名称:website_weight

表单内容及表头设置:表头包含有id、main_url(即要查询的网站)、website_weight(网站权重)

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

要查询的网站:EXCEL表格

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

二:需求实现

一:利用openpyxl模块解析excel文件,将查询的网站读取到一个列表中保存

# 解析excel文件,取出所有的url
def get_urls(file_path):
 wb = load_workbook(file_path)
 sheet = wb.active
 urls = []
 for cell in list(sheet.columns)[1]:
 if cell != sheet['B1']:
  urls.append(cell.value)
 return wb, urls

二:分析请求发送,伪造请求,取得HTML页面

# 伪造请求,取得html页面
def get_html(url):
 # 定义http的请求Header
 headers = {} 
 # random.randint(1,99) 为了生成1到99之间的随机数,让UserAgent变的不同。
 headers[
 'User-Agent'] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537." + str(
 random.randint(1, 99))
 # Referer地址使用待查询的网址
 headers['Referer'] = "http://seo.chinaz.com/" + url + "/"
 html = ''
 try:
 html = requests.get("http://seo.chinaz.com/" + url + "/", headers=headers, timeout=5).text
 except Exception:
 pass
 return html

三:分析HTML页面,利用BeautifulSoup模块提取数据

# 利用BeautifulSoup模块从html页面中提取数据
def get_data(html, url):
 if not html:
 return url, 0
 soup = bs(html, "lxml")
 p_tag = soup.select("p.ReLImgCenter")[0]
 src = p_tag.img.attrs["src"]
 regexp = re.compile(r'^http:.*?(\d).gif')
 br = regexp.findall(src)[0]
 return url, br

四:数据库连接配置,并获取游标

# 连接数据库
def get_connect():
 conn = pymysql.connect(
 host='127.0.0.1',
 port=3306,
 user='root',
 passwd='root',
 db='seotest',
 charset="utf8")
 # 获取游标对象
 cursor = conn.cursor()
 return conn, cursor

五:主程序逻辑编写

if __name__ == "__main__":
 #命令行执行脚本文件,获取excel文件路径
 file_path = sys.argv[1]
 #获取URL列表和excle工作簿
 wb, urls = get_urls(file_path)
 #获取数据库连接和游标
 conn, cursor = get_connect()
 #获取工作簿当前工作sheet
 sheet = wb.active
 #数据库插入语句
 sql_insert = '''insert into website_weight(main_url, website_weight) values (%s, %s)'''
 
 for row, url in enumerate(urls):
 if not url: continue
 html = get_html(url)
 data = get_data(html, url)
 # 插入数据到数据库
 cursor.execute(sql_insert, data)
 # 插入数据到Excel表中
 cell = sheet.cell(row=row + 2, column=3)
 cell.value = data[1]
 # 终端打印插入的数据
 print(data)
 conn.commit()
 conn.close()
 wb.save(file_path)
 wb.close()

# cmd命令:python3 F:\算法与结构\网站权重.py F:\website.xlsx

三:脚本运行及其实现结果

CMD执行

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

数据库:

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

excel文件写入:

Python Request爬取seo.chinaz.com百度权重网站的查询结果过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python去掉行尾的换行符方法
Jan 04 Python
Python决策树分类算法学习
Dec 22 Python
Python3 获取一大段文本之间两个关键字之间的内容方法
Oct 11 Python
Python+pyplot绘制带文本标注的柱状图方法
Jul 08 Python
python3 中的字符串(单引号、双引号、三引号)以及字符串与数字的运算
Jul 18 Python
python并发编程多进程 互斥锁原理解析
Aug 20 Python
Python3实现将一维数组按标准长度分隔为二维数组
Nov 29 Python
Pytorch 之修改Tensor部分值方式
Dec 27 Python
keras 两种训练模型方式详解fit和fit_generator(节省内存)
Jul 03 Python
python 列表推导和生成器表达式的使用
Feb 01 Python
Python中的套接字编程是什么?
Jun 21 Python
python生成可执行exe控制Microsip自动填写号码并拨打功能
Jun 21 Python
python实现对服务器脚本敏感信息的加密解密功能
Aug 13 #Python
python多线程+代理池爬取天天基金网、股票数据过程解析
Aug 13 #Python
Python字符串处理的8招秘籍(小结)
Aug 13 #Python
python实现批量修改服务器密码的方法
Aug 13 #Python
基于python分析你的上网行为 看看你平时上网都在干嘛
Aug 13 #Python
Python实现微信翻译机器人的方法
Aug 13 #Python
python读写csv文件的方法
Aug 13 #Python
You might like
PHP入门经历和学习过程分享
2014/04/11 PHP
php中strlen和mb_strlen用法实例分析
2016/11/12 PHP
Laravel程序架构设计思路之使用动作类
2018/06/07 PHP
PHP生成随机密码4种方法及性能对比
2020/12/11 PHP
验证用户是否修改过页面的数据的实现方法
2008/09/26 Javascript
jquery tools 系列 scrollable学习
2009/09/06 Javascript
js中if语句的几种优化代码写法
2011/03/12 Javascript
基于jQuery的图片左右无缝滚动插件
2012/05/23 Javascript
Jquery UI震动效果实现原理及步骤
2013/02/04 Javascript
网页禁用右键菜单和鼠标拖动选择方法小结
2015/02/25 Javascript
javascript中的作用域和闭包详解
2016/01/13 Javascript
JavaScript面试开发常用的知识点总结
2016/08/08 Javascript
学习vue.js条件渲染
2016/12/03 Javascript
js实现轮播图的两种方式(构造函数、面向对象)
2017/09/30 Javascript
实例学习JavaScript读取和写入cookie
2018/01/29 Javascript
10分钟上手vue-cli 3.0 入门介绍
2018/04/04 Javascript
JS实现的文件拖拽上传功能示例
2018/05/21 Javascript
Javascript中window.name属性详解
2020/11/19 Javascript
[52:32]完美世界DOTA2联赛PWL S2 Magma vs LBZS 第三场 11.18
2020/11/18 DOTA
Python中matplotlib中文乱码解决办法
2017/05/12 Python
解决Mac安装scrapy失败的问题
2018/06/13 Python
Python判断一个三位数是否为水仙花数的示例
2018/11/13 Python
python 实现交换两个列表元素的位置示例
2019/06/26 Python
Python面向对象之私有属性和私有方法应用案例分析
2019/12/31 Python
python中如何使用虚拟环境
2020/10/14 Python
意大利自行车商店:Cingolani Bike Shop
2019/09/03 全球购物
养殖行业的创业计划书
2014/01/05 职场文书
物流专业求职计划书
2014/01/10 职场文书
公司管理建议书范文
2014/03/12 职场文书
法律七进实施方案
2014/03/15 职场文书
三爱活动实施方案
2014/03/19 职场文书
2014年重阳节敬老活动方案
2014/09/16 职场文书
小学运动会加油词
2015/07/18 职场文书
同事欢送会致辞
2015/07/31 职场文书
初中语文教学随笔
2015/08/15 职场文书
创业计划书之DIY自助厨房
2019/09/06 职场文书