Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python时间整形转标准格式的示例分享
Feb 14 Python
python中使用urllib2伪造HTTP报头的2个方法
Jul 07 Python
python使用正则搜索字符串或文件中的浮点数代码实例
Jul 11 Python
Python 常用string函数详解
May 30 Python
使用Python的turtle模块画图的方法
Nov 15 Python
基于Python的文件类型和字符串详解
Dec 21 Python
pytorch 把MNIST数据集转换成图片和txt的方法
May 20 Python
python实现输出一个序列的所有子序列示例
Nov 18 Python
Python 解码Base64 得到码流格式文本实例
Jan 09 Python
Python使用os.listdir和os.walk获取文件路径
May 21 Python
使用tensorflow 实现反向传播求导
May 26 Python
Python 数据可视化之Bokeh详解
Nov 02 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
[转帖]PHP世纪万年历
2006/12/06 PHP
微博短链接算法php版本实现代码
2012/09/15 PHP
使用PHP实现蜘蛛访问日志统计
2013/07/05 PHP
PHP中两个float(浮点数)比较实例分析
2015/09/27 PHP
PHP Swoole异步Redis客户端实现方法示例
2019/10/24 PHP
onpropertypchange
2006/07/01 Javascript
网页图片延时加载的js代码
2010/04/22 Javascript
JavaScript中的排序算法代码
2011/02/22 Javascript
25个非常棒的jQuery滑块插件和教程小结
2011/09/02 Javascript
javascript window.confirm确认 取消对话框实现代码小结
2012/10/21 Javascript
jQuery基于ajax操作json数据简单示例
2017/01/05 Javascript
Jquery树插件zTree实现菜单树
2017/01/24 Javascript
jQuery选择器特殊字符与属性空格问题
2017/08/14 jQuery
在vue里面设置全局变量或数据的方法
2018/03/09 Javascript
基于axios 解决跨域cookie丢失的问题
2018/09/26 Javascript
浅谈监听单选框radio改变事件(和layui中单选按钮改变事件)
2019/09/10 Javascript
微信用户访问小程序的登录过程详解
2019/09/20 Javascript
解决vue 子组件修改父组件传来的props值报错问题
2019/11/09 Javascript
Python网络爬虫实例讲解
2016/04/28 Python
Python Socket传输文件示例
2017/01/16 Python
Python简单实现词云图代码及步骤解析
2020/06/04 Python
完美解决keras保存好的model不能成功加载问题
2020/06/11 Python
keras自定义损失函数并且模型加载的写法介绍
2020/06/15 Python
Python如何重新加载模块
2020/07/29 Python
总结html5自定义属性有哪些
2020/04/01 HTML / CSS
德国婴儿推车和儿童安全座椅商店:BABYSHOP
2016/09/01 全球购物
英国手工布艺沙发在线购买:Sofas & Stuff
2018/03/02 全球购物
意大利珠宝店:Luxury Zone
2019/01/05 全球购物
英国领先的维生素和营养补充剂直接供应商:Healthspan
2019/04/22 全球购物
IFCHIC台湾:欧美国际设计师品牌
2019/05/18 全球购物
求职自荐信
2013/12/14 职场文书
电气工程及自动化专业自荐书范文
2013/12/18 职场文书
大四自我鉴定
2014/02/08 职场文书
大学生党员学习焦裕禄精神思想汇报
2014/09/10 职场文书
社区母亲节活动总结
2015/02/10 职场文书
原料仓管员岗位职责
2015/04/01 职场文书