Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python使用7z解压apk包的方法
Apr 18 Python
粗略分析Python中的内存泄漏
Apr 23 Python
Python监控主机是否存活并以邮件报警
Sep 22 Python
Python3的urllib.parse常用函数小结(urlencode,quote,quote_plus,unquote,unquote_plus等)
Sep 18 Python
python用reduce和map把字符串转为数字的方法
Dec 19 Python
Django restframework 源码分析之认证详解
Feb 22 Python
Python 求数组局部最大值的实例
Nov 26 Python
TensorFlow2.0:张量的合并与分割实例
Jan 19 Python
Python 模拟生成动态产生验证码图片的方法
Feb 01 Python
django admin管理工具自定义时间区间筛选器DateRangeFilter介绍
May 19 Python
用Python selenium实现淘宝抢单机器人
Jun 18 Python
Python 如何利用ffmpeg 处理视频素材
Nov 27 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
手把手教你使用DedeCms V3的在线采集图文教程
2007/04/03 PHP
PHP IN_ARRAY 函数使用注意事项
2010/07/24 PHP
PHP CURL获取返回值的方法
2014/05/04 PHP
PHP用mb_string函数库处理与windows相关中文字符及Win环境下开启PHP Mb_String方法
2015/11/11 PHP
javascript之Partial Application学习
2013/01/10 Javascript
javascript自动给文本url地址增加链接的方法分享
2014/01/20 Javascript
JQuery简单实现锚点链接的平滑滚动
2015/05/03 Javascript
JS实现左右拖动改变内容显示区域大小的方法
2015/10/13 Javascript
JS实现的网页背景闪电闪烁效果代码
2015/10/17 Javascript
解析Node.js异常处理中domain模块的使用方法
2016/02/16 Javascript
AngularJS实践之使用ng-repeat中$index的注意点
2016/12/22 Javascript
详解weex默认webpack.config.js改造
2018/01/08 Javascript
vue项目中axios使用详解
2018/02/07 Javascript
微信小程序实现上传图片裁剪图片过程解析
2019/08/22 Javascript
Vue实现滑动拼图验证码功能
2019/09/15 Javascript
vue中对象数组去重的实现
2020/02/06 Javascript
如何使用three.js 制作一个三维的推箱子游戏
2020/07/29 Javascript
javascript实现多边形碰撞检测
2020/10/24 Javascript
[01:29]2017 DOTA2国际邀请赛官方英雄手办展示
2017/03/18 DOTA
Python实现发送email的几种常用方法
2014/08/18 Python
学习python之编写简单简单连接数据库并执行查询操作
2016/02/27 Python
react+django清除浏览器缓存的几种方法小结
2019/07/17 Python
利用python计算时间差(返回天数)
2019/09/07 Python
Python Django模板之模板过滤器与自定义模板过滤器示例
2019/10/18 Python
Python函数的返回值、匿名函数lambda、filter函数、map函数、reduce函数用法实例分析
2019/12/26 Python
Pycharm中切换pytorch的环境和配置的教程详解
2020/03/13 Python
澳大利亚墨水站Ink Station:墨水和碳粉打印机墨盒
2019/03/24 全球购物
土耳其玩具商店:Toyzz Shop
2019/08/02 全球购物
社区工作者先进事迹
2014/01/18 职场文书
运动会通讯稿50字
2014/01/30 职场文书
事业单位个人查摆问题及整改措施
2014/10/28 职场文书
企业介绍信范文
2015/01/30 职场文书
机修车间主任岗位职责
2015/04/08 职场文书
房地产公司工程部经理岗位职责
2015/04/09 职场文书
Python jiaba库的使用详解
2021/11/23 Python
vue实现列表拖拽排序的示例代码
2022/04/08 Vue.js