Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中的作用域规则详解
Jan 30 Python
Python开发之快速搭建自动回复微信公众号功能
Apr 22 Python
利用Python命令行传递实例化对象的方法
Nov 02 Python
详解Python各大聊天系统的屏蔽脏话功能原理
Dec 01 Python
PyCharm设置护眼背景色的方法
Oct 29 Python
Pycharm如何打断点的方法步骤
Jun 13 Python
Python PIL图片添加字体的例子
Aug 22 Python
django实现支付宝支付实例讲解
Oct 17 Python
django框架ModelForm组件用法详解
Dec 11 Python
python实现用户名密码校验
Mar 18 Python
keras模型保存为tensorflow的二进制模型方式
May 25 Python
python装饰器代码解析
Mar 23 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
使用Apache的rewrite技术
2006/06/22 PHP
PHP Session_Regenerate_ID函数双释放内存破坏漏洞
2011/01/27 PHP
CentOS 6.2使用yum安装LAMP以及phpMyadmin详解
2013/06/17 PHP
解析php防止form重复提交的方法
2013/07/01 PHP
PHP动态地创建属性和方法, 对象的复制, 对象的比较,加载指定的文件,自动加载类文件,命名空间
2016/05/06 PHP
PHP编程实现csv文件导入mysql数据库的方法
2017/04/29 PHP
php中pcntl_fork创建子进程的方法实例
2019/03/14 PHP
Js 获取HTML DOM节点元素的方法小结
2009/04/24 Javascript
JQuery 引发两次$(document.ready)事件
2010/01/15 Javascript
jquery获取input的value问题说明
2010/08/19 Javascript
对javascript的一点点认识总结《javascript高级程序设计》读书笔记
2011/11/30 Javascript
JavaScript中string对象
2015/06/12 Javascript
在JavaScript的正则表达式中使用exec()方法
2015/06/16 Javascript
JS+CSS实现鼠标滑过时动态翻滚的导航条效果
2015/09/24 Javascript
在JavaScript中call()与apply()区别
2016/01/22 Javascript
20分钟打造属于你的Bootstrap站点
2016/07/27 Javascript
js文件中直接alert()中文出来的是乱码的解决方法
2016/11/01 Javascript
网页挂马方式整理及详细介绍
2016/11/03 Javascript
vue2.0 中#$emit,$on的使用详解
2017/06/07 Javascript
微信小程序分页加载的实例代码
2017/07/11 Javascript
详解vue添加删除元素的方法
2018/06/30 Javascript
实例讲解Python编程中@property装饰器的用法
2016/06/20 Python
python2.7无法使用pip的解决方法(安装easy_install)
2018/04/03 Python
python实现批量视频分帧、保存视频帧
2019/05/31 Python
详解pandas删除缺失数据(pd.dropna()方法)
2019/06/25 Python
解决Pycharm 包已经下载,但是运行代码提示找不到模块的问题
2019/08/31 Python
Pycharm pyuic5实现将ui文件转为py文件,让UI界面成功显示
2020/04/08 Python
Html5与App的通讯方式详解
2019/10/24 HTML / CSS
Charles & Keith欧盟:新加坡时尚品牌
2019/08/01 全球购物
StubHub希腊:购买体育赛事、音乐会和剧院门票
2019/08/03 全球购物
司机检讨书
2014/02/13 职场文书
重阳节活动总结
2014/08/27 职场文书
领导干部“四风”问题批评与自我批评材料
2014/09/24 职场文书
房地产销售经理岗位职责
2015/02/02 职场文书
教你使用Pandas直接核算Excel中快递费用
2021/05/12 Python
36个正则表达式(开发效率提高80%)
2021/11/17 Javascript