Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python常见数据结构详解
Jul 24 Python
python中管道用法入门实例
Jun 04 Python
学习python之编写简单乘法口诀表实现代码
Feb 27 Python
DataFrame中去除指定列为空的行方法
Apr 08 Python
Python运维之获取系统CPU信息的实现方法
Jun 11 Python
详解pyenv下使用python matplotlib模块的问题解决
Nov 29 Python
python爬虫获取小区经纬度以及结构化地址
Dec 30 Python
Python从函数参数类型引出元组实例分析
May 28 Python
python频繁写入文件时提速的方法
Jun 26 Python
使用Python解析Chrome浏览器书签的示例
Nov 13 Python
Python并发爬虫常用实现方法解析
Nov 19 Python
python数据可视化使用pyfinance分析证券收益示例详解
Nov 20 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
用PHP读注册表
2006/10/09 PHP
php cookis创建实现代码
2009/03/16 PHP
两个强悍的php 图像处理类1
2009/06/15 PHP
PHP 面向对象 PHP5 中的常量
2010/05/05 PHP
使用PHPMyAdmin修复论坛数据库的图文方法
2012/01/09 PHP
利用中国天气预报接口实现简单天气预报
2014/01/20 PHP
php+mysql实现无限分类实例详解
2015/01/15 PHP
PHP中mysqli_get_server_version()的实例用法
2020/02/03 PHP
javascript 一个自定义长度的文本自动换行的函数
2007/08/19 Javascript
javascript eval函数深入认识
2009/02/21 Javascript
js中判断对象是否为空的三种实现方法
2013/12/23 Javascript
jQuery实现的漂亮表单效果代码
2015/08/18 Javascript
jQuery Timelinr实现垂直水平时间轴插件(附源码下载)
2016/02/16 Javascript
js实现右键菜单功能
2016/11/28 Javascript
工厂模式在JS中的实践
2017/01/18 Javascript
nodeJS实现简单网页爬虫功能的实例(分享)
2017/06/08 NodeJs
jQuery第一次运行页面默认触发点击事件的实例
2018/01/10 jQuery
解决iView中时间控件选择的时间总是少一天的问题
2018/03/15 Javascript
Angularjs之如何在跨域请求中传输Cookie的方法
2018/06/01 Javascript
vue项目中实现图片预览的公用组件功能
2018/10/26 Javascript
jquery绑定事件 bind和on的用法与区别分析
2020/05/22 jQuery
js实现翻牌小游戏
2020/07/31 Javascript
[03:40]2014DOTA2国际邀请赛 B神专访:躲箭真的很难
2014/07/13 DOTA
python使用urllib模块和pyquery实现阿里巴巴排名查询
2014/01/16 Python
详解详解Python中writelines()方法的使用
2015/05/25 Python
python中使用 xlwt 操作excel的常见方法与问题
2019/01/13 Python
详解django+django-celery+celery的整合实战
2019/03/19 Python
python队列Queue的详解
2019/05/10 Python
Python中使用双下划线防止类属性被覆盖问题
2019/06/27 Python
美国电子元器件分销商:Newark element14
2018/01/13 全球购物
为娇小女性量身打造:Petite Studio
2018/11/01 全球购物
新西兰网上购物,折扣店:BestDeals.co.nz
2019/03/20 全球购物
英格兰足协官方商店:England Store
2019/07/12 全球购物
班组长岗位职责
2014/03/03 职场文书
《我要的是葫芦》教学反思
2016/02/18 职场文书
windows11怎么查看自己安装的版本号? win11版本号的查看方法
2021/11/21 数码科技