Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python base64 decode incorrect padding错误解决方法
Jan 08 Python
Python简单日志处理类分享
Feb 14 Python
Python实现文件按照日期命名的方法
Jul 09 Python
python实现颜色空间转换程序(Tkinter)
Dec 31 Python
详解python如何调用C/C++底层库与互相传值
Aug 10 Python
Django基于ORM操作数据库的方法详解
Mar 27 Python
Python的多维空数组赋值方法
Apr 13 Python
django缓存配置的几种方法详解
Jul 16 Python
对python 命令的-u参数详解
Dec 03 Python
Python中numpy模块常见用法demo实例小结
Mar 16 Python
利用setuptools打包python程序的方法步骤
Jan 18 Python
python 如何调用 dubbo 接口
Sep 24 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
PHP has encountered an Access Violation at 7C94BD02解决方法
2009/08/24 PHP
php ctype函数中文翻译和示例
2014/03/21 PHP
全新Mac配置PHP开发环境教程
2016/02/03 PHP
EasyUi tabs的高度与宽度根据IE窗口的变化自适应代码
2010/10/26 Javascript
用jquery实现自定义风格的滑动条实现代码
2011/04/26 Javascript
关于div自适应高度/左右高度自适应一致的js代码
2013/03/22 Javascript
解析prototype,JQuery中跳出each循环的方法
2013/12/12 Javascript
js与jQuery 获取父窗、子窗的iframe
2013/12/20 Javascript
使用jQuery制作基础的Web图片轮播效果
2016/04/22 Javascript
React.js入门实例教程之创建hello world 的5种方式
2016/05/11 Javascript
纯javascript版日历控件
2016/11/24 Javascript
微信小程序开发之相册选择和拍照详解及实例代码
2017/02/22 Javascript
js获取指定时间的前几秒
2017/04/05 Javascript
基于JavaScript定位当前的地理位置
2017/04/11 Javascript
Angular中使用MathJax遇到的一些问题
2017/12/15 Javascript
js 取消页面可以选中文字的功能方法
2018/01/02 Javascript
Element-UI踩坑之Pagination组件的使用
2018/10/29 Javascript
[28:48]《真视界》- 2017年国际邀请赛
2017/09/27 DOTA
easy_install python包安装管理工具介绍
2013/02/10 Python
简单理解Python中基于生成器的状态机
2015/04/13 Python
python中管道用法入门实例
2015/06/04 Python
Python中index()和seek()的用法(详解)
2017/04/27 Python
10分钟入门CSS3 Animation
2018/12/25 HTML / CSS
布里斯班女装时尚品牌:Adrift
2017/12/28 全球购物
苹果台湾官网:Apple台湾
2019/01/05 全球购物
潘多拉珠宝美国官方网站:Pandora US
2020/06/18 全球购物
团代会宣传工作方案
2014/05/08 职场文书
学校与家长安全责任书
2014/07/23 职场文书
销售顾问工作计划书
2014/08/15 职场文书
2014年党风廉政工作总结
2014/12/03 职场文书
2014业务员年终工作总结
2014/12/09 职场文书
年中了,该如何写好个人述职报告?
2019/07/02 职场文书
工作总结之小学教师体育工作范文(3篇)
2019/10/07 职场文书
Python中使用subprocess库创建附加进程
2021/05/11 Python
DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
2021/06/22 Python
MySQL池化框架学习接池自定义
2022/07/23 MySQL