Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python获取mp3文件信息的方法
Jun 15 Python
详解Django中的form库的使用
Jul 18 Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 Python
CentOS安装pillow报错的解决方法
Jan 27 Python
python对视频画框标记后保存的方法
Dec 07 Python
详解Python使用Plotly绘图工具,绘制甘特图
Apr 02 Python
python基础知识(一)变量与简单数据类型详解
Apr 17 Python
对Python 中矩阵或者数组相减的法则详解
Aug 26 Python
python中struct模块之字节型数据的处理方法
Aug 27 Python
python是怎么被发明的
Jun 15 Python
Python绘图之二维图与三维图详解
Aug 04 Python
python中xlrd模块的使用详解
Feb 01 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
php session安全问题分析
2011/06/24 PHP
比file_get_contents稳定的curl_get_contents分享
2012/01/11 PHP
php中操作memcached缓存进行增删改查数据的实现代码
2014/08/15 PHP
ThinkPHP3.2.3框架实现执行原生SQL语句的方法示例
2019/04/03 PHP
php+js实现的拖动滑块验证码验证表单操作示例【附源码下载】
2020/05/27 PHP
PHP常量DIRECTORY_SEPARATOR原理及用法解析
2020/11/10 PHP
js 字符串操作函数
2009/07/25 Javascript
通过location.replace禁止浏览器后退防止重复提交
2014/09/04 Javascript
jquery获取当前日期的方法
2015/01/14 Javascript
javascript实现网页子页面遍历回调的方法(涉及 window.frames、递归函数、函数上下文)
2015/07/27 Javascript
基于insertBefore制作简单的循环插空效果
2015/09/21 Javascript
JavaScript高级教程5.6之基本包装类型(详细)
2015/11/23 Javascript
详解AngularJs中$sce与$sceDelegate上下文转义服务
2016/09/21 Javascript
React如何将组件渲染到指定DOM节点详解
2017/09/08 Javascript
element-ui使用导航栏跳转路由的用法详解
2018/08/22 Javascript
vue2.0 路由模式mode="history"的作用
2018/10/18 Javascript
微信小程序页面间跳转传参方式总结
2019/06/13 Javascript
详解element-ui表格中勾选checkbox,高亮当前行
2019/09/02 Javascript
AngularJS动态生成select下拉框的方法实例
2019/11/17 Javascript
Vue基于iview实现登录密码的显示与隐藏功能
2020/03/06 Javascript
详解Python中的Numpy、SciPy、MatPlotLib安装与配置
2017/11/17 Python
将Django项目部署到CentOs服务器中
2018/10/18 Python
pytorch 调整某一维度数据顺序的方法
2018/12/08 Python
python 使用pandas计算累积求和的方法
2019/02/08 Python
python安装pil库方法及代码
2019/06/25 Python
django连接oracle时setting 配置方法
2019/08/29 Python
python GUI库图形界面开发之PyQt5表格控件QTableView详细使用方法与实例
2020/03/01 Python
Pycharm打开已有项目配置python环境的方法
2020/07/03 Python
如何基于pandas读取csv后合并两个股票
2020/09/25 Python
通过canvas转换颜色为RGBA格式及性能问题的解决
2019/11/22 HTML / CSS
韩国三星旗下的一家超市连锁店:Home Plus
2016/07/30 全球购物
花园仓库建筑:Garden Buildings Direct
2018/02/16 全球购物
区域销售经理职责
2013/12/22 职场文书
活动宣传策划方案
2014/05/23 职场文书
使用Mysql计算地址的经纬度距离和实时位置信息
2022/04/29 MySQL
httpclient调用远程接口的方法
2022/08/14 Java/Android