Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python分割文件的常用方法
Nov 01 Python
使用SAE部署Python运行环境的教程
May 05 Python
python中文分词教程之前向最大正向匹配算法详解
Nov 02 Python
用Python登录好友QQ空间点赞的示例代码
Nov 04 Python
谈谈python中GUI的选择
Mar 01 Python
Python读写zip压缩文件的方法
Aug 29 Python
pandas 选取行和列数据的方法详解
Aug 08 Python
python创建与遍历List二维列表的方法
Aug 16 Python
Python实现多线程/多进程的TCP服务器
Sep 03 Python
python实现字符串和数字拼接
Mar 02 Python
python 抓取知乎指定回答下视频的方法
Jul 09 Python
django 模型字段设置默认值代码
Jul 15 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
php实现的发送带附件邮件类实例
2014/09/22 PHP
php编程每天必学之验证码
2016/03/03 PHP
passwordStrength 基于jquery的密码强度检测代码使用介绍
2011/10/08 Javascript
在javascript中对于DOM的加强
2013/04/11 Javascript
javascript写的异步加载js文件函数(支持数组传参)
2014/06/07 Javascript
JavaScript验证电子邮箱的函数
2014/08/22 Javascript
Javascript保存网页为图片借助于html2canvas库实现
2014/09/05 Javascript
jQuery中大家不太了解的几个方法
2015/03/04 Javascript
浅谈jquery点击label触发2次的问题
2016/06/12 Javascript
angularJS利用ng-repeat遍历二维数组的实例代码
2017/06/03 Javascript
vue封装第三方插件并发布到npm的方法
2017/09/25 Javascript
JsonProperty 的使用方法详解
2019/10/11 Javascript
JS实现基本的网页计算器功能示例
2020/01/16 Javascript
微信小程序图片右边加两行文字的代码
2020/04/23 Javascript
解决vue 使用axios.all()方法发起多个请求控制台报错的问题
2020/11/09 Javascript
原生js实现放大镜组件
2021/01/22 Javascript
python类定义的讲解
2013/11/01 Python
Python查看多台服务器进程的脚本分享
2014/06/11 Python
Python中DJANGO简单测试实例
2015/05/11 Python
Python使用Matplotlib实现雨点图动画效果的方法
2017/12/23 Python
200行python代码实现2048游戏
2019/07/17 Python
python with语句的原理与用法详解
2020/03/30 Python
python利用pytesseract 实现本地识别图片文字
2020/12/14 Python
linux面试题参考答案(4)
2013/01/28 面试题
Java基础知识面试题
2014/03/25 面试题
师范应届生求职信
2013/11/15 职场文书
简历中自我评价范文3则
2013/12/14 职场文书
同学会邀请书大全
2014/01/12 职场文书
森林防火宣传标语
2014/06/27 职场文书
尊老爱亲美德少年事迹材料
2014/08/14 职场文书
酒店辞职书范文
2015/02/26 职场文书
2016优秀毕业生个人事迹材料
2016/02/29 职场文书
大学生,三分钟即兴演讲稿
2019/07/22 职场文书
教师实习自我鉴定总结
2019/08/20 职场文书
创业计划书之DIY自助厨房
2019/09/06 职场文书
springboot为异步任务规划自定义线程池的实现
2022/06/14 Java/Android