Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
用PyQt进行Python图形界面的程序的开发的入门指引
Apr 14 Python
遗传算法之Python实现代码
Oct 10 Python
python实现两个文件合并功能
Apr 01 Python
python性能测量工具cProfile使用解析
Sep 26 Python
python如果快速判断数字奇数偶数
Nov 13 Python
下载与当前Chrome对应的chromedriver.exe(用于python+selenium)
Jan 14 Python
Pytest参数化parametrize使用代码实例
Feb 22 Python
解决django接口无法通过ip进行访问的问题
Mar 27 Python
python实现将列表中各个值快速赋值给多个变量
Apr 02 Python
python 如何调用 dubbo 接口
Sep 24 Python
详解查看Python解释器路径的两种方式
Oct 15 Python
Python中pass的作用与使用教程
Nov 13 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
超神学院:鹤熙已踏入神圣领域,实力不比凯莎弱
2020/03/02 国漫
PHP 读取文件的正确方法
2009/04/29 PHP
用PHP读取flv文件的播放时间长度
2009/09/03 PHP
PHP中全面阻止SQL注入式攻击分析小结
2012/01/30 PHP
destoon官方标签大全
2014/06/20 PHP
Session 失效的原因汇总及解决丢失办法
2015/09/30 PHP
ThinkPHP中session函数详解
2016/09/14 PHP
浅谈php中变量的数据类型判断函数
2017/03/04 PHP
在php7中MongoDB实现模糊查询的方法详解
2017/05/03 PHP
jquery 上下滚动广告
2009/06/17 Javascript
vue实现添加与删除图书功能
2018/10/07 Javascript
Vue拖拽组件列表实现动态页面配置功能
2019/06/17 Javascript
vue实现自定义H5视频播放器的方法步骤
2019/07/01 Javascript
微信小程序图片自适应实现解析
2020/01/21 Javascript
element中el-container容器与div布局区分详解
2020/05/13 Javascript
使用Python的Django框架实现事务交易管理的教程
2015/04/20 Python
Python实现截屏的函数
2015/07/26 Python
Linux上安装Python的PIL和Pillow库处理图片的实例教程
2016/06/23 Python
Python进度条实时显示处理进度的示例代码
2018/01/30 Python
儿童编程python入门
2018/05/08 Python
举例讲解Python常用模块
2019/03/08 Python
使用python获取(宜宾市地震信息)地震信息
2019/06/20 Python
python数据爬下来保存的位置
2020/02/17 Python
Python图像处理库PIL中图像格式转换的实现
2020/02/26 Python
python爬虫看看虎牙女主播中谁最“顶”步骤详解
2020/12/01 Python
CSS3色彩模式有哪些?CSS3 HSL色彩模式的定义
2016/04/26 HTML / CSS
CSS3 函数技巧 用css 实现js实现的事情(clac Counters Tooltip)
2017/08/15 HTML / CSS
澳大利亚自然和有机的健康美容产品一站式商店:Ziani Beauty
2017/12/28 全球购物
vue+django实现下载文件的示例
2021/03/24 Vue.js
打架检讨书100字
2014/01/08 职场文书
小组合作学习反思
2014/02/18 职场文书
理工类毕业自我鉴定
2014/02/20 职场文书
小学数学国培感言
2014/03/10 职场文书
奥巴马就职演讲稿
2014/05/15 职场文书
企业办公室主任岗位职责
2015/04/01 职场文书
水电施工员岗位职责
2015/04/11 职场文书