Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python函数式编程指南(四):生成器详解
Jun 24 Python
在Django框架中运行Python应用全攻略
Jul 17 Python
python如何在列表、字典中筛选数据
Mar 19 Python
Python格式化输出字符串方法小结【%与format】
Oct 29 Python
在Python中输入一个以空格为间隔的数组方法
Nov 13 Python
python将list转为matrix的方法
Dec 12 Python
详解python配置虚拟环境
Apr 08 Python
Python logging设置和logger解析
Aug 28 Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 Python
关于pytorch中全连接神经网络搭建两种模式详解
Jan 14 Python
Python如何将图像音视频等资源文件隐藏在代码中(小技巧)
Feb 16 Python
Python开发入门——迭代的基本使用
Sep 03 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
仿AS3实现PHP 事件机制实现代码
2011/01/27 PHP
php中转义mysql语句的实现代码
2011/06/24 PHP
Yii 使用intervention/image拓展实现图像处理功能
2019/06/22 PHP
JavaScript 学习笔记(五)
2009/12/31 Javascript
基于jquery实现控制经纬度显示地图与卫星
2013/05/20 Javascript
原生js实现移动开发轮播图、相册滑动特效
2015/04/17 Javascript
JS+CSS实现表格高亮的方法
2015/08/05 Javascript
js实现搜索框关键字智能匹配代码
2020/03/26 Javascript
JavaScript的React框架中的JSX语法学习入门教程
2016/03/05 Javascript
Jquery UI实现一次拖拽多个选中的元素操作
2020/12/01 Javascript
微信小程序实战之顶部导航栏(选项卡)(1)
2020/06/19 Javascript
vue translate peoject实现在线翻译功能【新手必看】
2018/06/07 Javascript
vue实现父子组件之间的通信以及兄弟组件的通信功能示例
2019/01/29 Javascript
webpack4实现不同的导出类型
2019/04/09 Javascript
jQuery位置选择器用法实例分析
2019/06/28 jQuery
vue实现简易图片左右旋转,上一张,下一张组件案例
2020/07/31 Javascript
[09:37]2018DOTA2国际邀请赛寻真——不懈追梦的Team Serenity
2018/08/13 DOTA
[37:03]完美世界DOTA2联赛PWL S3 INK ICE vs GXR 第二场 12.16
2020/12/18 DOTA
python将ip地址转换成整数的方法
2015/03/17 Python
Python Django 封装分页成通用的模块详解
2019/08/21 Python
python如果快速判断数字奇数偶数
2019/11/13 Python
Python3 虚拟开发环境搭建过程(图文详解)
2020/01/06 Python
Python实现遗传算法(二进制编码)求函数最优值方式
2020/02/11 Python
解决HTML5手机端页面缩放的问题
2017/10/27 HTML / CSS
中国领先的专业家电网购平台:国美在线
2016/12/25 全球购物
酒吧副总经理岗位职责
2013/12/10 职场文书
大学生学习党课思想汇报
2014/01/03 职场文书
项目考察欢迎辞
2014/01/17 职场文书
医学类个人求职信范文
2014/02/05 职场文书
教职工代表大会主持词
2014/04/01 职场文书
教师专业自荐信
2014/05/31 职场文书
爱的教育观后感
2015/06/17 职场文书
2016年小学党支部创先争优活动总结
2016/04/05 职场文书
Nginx反向代理多个服务器的实现方法
2021/03/31 Servers
嵌入式Redis服务器在Spring Boot测试中的使用教程
2021/07/21 Redis
如何更改Win11声音输出设备?Win11声音输出设备四种更改方法
2022/04/08 数码科技