Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
用Python编写一个简单的FUSE文件系统的教程
Apr 02 Python
利用Python自动监控网站并发送邮件告警的方法
Aug 24 Python
python监控进程脚本
Apr 12 Python
python3实现基于用户的协同过滤
May 31 Python
对Python中数组的几种使用方法总结
Jun 28 Python
Python Pandas 获取列匹配特定值的行的索引问题
Jul 01 Python
Django RBAC权限管理设计过程详解
Aug 06 Python
python如何保证输入键入数字的方法
Aug 23 Python
Python3 Tkinkter + SQLite实现登录和注册界面
Nov 19 Python
Python中实现输入超时及如何通过变量获取变量名
Jan 18 Python
Python3.7安装pyaudio教程解析
Jul 24 Python
Python如何批量生成和调用变量
Nov 21 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
ASP知识讲座四
2006/10/09 PHP
php 实现Hash表功能实例详解
2016/11/29 PHP
ASP.NET jQuery 实例7 通过jQuery来获取DropDownList的Text/Value属性值
2012/02/03 Javascript
js调用AJAX时Get和post的乱码解决方法
2013/06/04 Javascript
javascript闭包的高级使用方法实例
2013/07/04 Javascript
JQUERY dialog的用法详细解析
2013/12/19 Javascript
Javascript基础知识(三)BOM,DOM总结
2014/09/29 Javascript
详谈JavaScript 匿名函数及闭包
2014/11/14 Javascript
利用Vue.js实现求职在线之职位查询功能
2017/07/03 Javascript
weui框架实现上传、预览和删除图片功能代码
2017/08/24 Javascript
node.js用fs.rename强制重命名或移动文件夹的方法
2017/12/27 Javascript
iview table高度动态设置方法
2018/03/14 Javascript
vue组件开发props验证的实现
2019/02/12 Javascript
layui表格 列自动适应大小失效的解决方法
2019/09/06 Javascript
微信小程序实现拖拽功能
2019/09/26 Javascript
vue自定义组件(通过Vue.use()来使用)即install的用法说明
2020/08/11 Javascript
JavaScript 异步时序问题
2020/11/20 Javascript
[07:20]2018DOTA2国际邀请赛寻真——逐梦Mineski
2018/08/10 DOTA
Python数据结构与算法(几种排序)小结
2019/06/22 Python
Pycharm+django2.2+python3.6+MySQL实现简单的考试报名系统
2019/09/05 Python
浅谈python的elementtree模块处理中文注意事项
2020/03/06 Python
Julep官网:美容产品和指甲油
2017/02/25 全球购物
英国奢侈皮具品牌:Aspinal of London
2018/09/02 全球购物
团队精神演讲稿
2013/12/31 职场文书
语文教学感言
2014/02/06 职场文书
医药营销个人求职信范文
2014/02/07 职场文书
学校安全生产月活动总结
2014/07/05 职场文书
2015年幼儿园学前班工作总结
2015/05/18 职场文书
原告离婚代理词
2015/05/23 职场文书
食品卫生管理制度
2015/08/06 职场文书
《实心球》教学反思
2016/02/23 职场文书
利用python Pandas实现批量拆分Excel与合并Excel
2021/05/23 Python
Nginx反向代理学习实例教程
2021/10/24 Servers
草系十大最强宝可梦,纸片人上榜,榜首大家最熟悉
2022/03/18 日漫
拙作再改《我的收音机情缘》
2022/04/05 无线电
python语言中pandas字符串分割str.split()函数
2022/08/05 Python