Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python使用webbrowser浏览指定url的方法
Apr 04 Python
使用Python将数组的元素导出到变量中(unpacking)
Oct 27 Python
Python编程求质数实例代码
Jan 31 Python
Python批量提取PDF文件中文本的脚本
Mar 14 Python
Python3使用正则表达式爬取内涵段子示例
Apr 22 Python
python实现推箱子游戏
Mar 25 Python
关于pytorch中网络loss传播和参数更新的理解
Aug 20 Python
Python 点击指定位置验证码破解的实现代码
Sep 11 Python
python装饰器相当于函数的调用方式
Dec 27 Python
Python异常原理及异常捕捉实现过程解析
Mar 25 Python
Pycharm编辑器功能之代码折叠效果的实现代码
Oct 15 Python
Python 全局空间和局部空间
Apr 06 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
全国FM电台频率大全 - 23 四川省
2020/03/11 无线电
一个取得文件扩展名的函数
2006/10/09 PHP
php连接mssql数据库的几种方法
2013/02/21 PHP
fetchAll()与mysql_fetch_array()的区别详解
2013/06/05 PHP
PHP把空格、换行符、中文逗号等替换成英文逗号的正则表达式
2014/05/04 PHP
phpnow php探针环境检测代码
2014/11/04 PHP
php set_include_path函数设置 include_path 配置选项
2016/10/30 PHP
麦鸡的TAB切换功能结合了javascript和css
2007/12/17 Javascript
Jquery工作常用实例 使用AJAX使网页进行异步更新
2011/07/26 Javascript
js数值计算时使用parseInt进行数据类型转换(jquery)
2014/10/07 Javascript
用svg制作富有动态的tooltip
2015/07/17 Javascript
nodeJS实现简单网页爬虫功能的实例(分享)
2017/06/08 NodeJs
Vue 父子组件数据传递的四种方式( inheritAttrs + $attrs + $listeners)
2018/05/04 Javascript
vue interceptor 使用教程实例详解
2018/09/13 Javascript
laydate时间日历插件使用方法详解
2018/11/14 Javascript
其实你可以少写点if else与switch(推荐)
2019/01/10 Javascript
js console.log打印对象时属性缺失的解决方法
2019/05/23 Javascript
JavaScript实现横版菜单栏
2020/03/17 Javascript
JavaScript进阶(四)原型与原型链用法实例分析
2020/05/09 Javascript
[01:28:43]2014 DOTA2华西杯精英邀请赛5 24 DK VS CIS
2014/05/25 DOTA
[00:10]DOTA2全国高校联赛 以DOTA2会友
2018/05/30 DOTA
手把手教你python实现SVM算法
2017/12/27 Python
详解Django+Uwsgi+Nginx 实现生产环境部署
2018/11/06 Python
如何用Python来搭建一个简单的推荐系统
2019/08/07 Python
python中hasattr()、getattr()、setattr()函数的使用
2019/08/16 Python
python GUI库图形界面开发之PyQt5图片显示控件QPixmap详细使用方法与实例
2020/02/27 Python
Python接口测试文件上传实例解析
2020/05/22 Python
python 递归相关知识总结
2021/03/03 Python
护理专业自荐信
2013/12/03 职场文书
心理健康教育制度
2014/01/27 职场文书
三好学生先进事迹材料
2014/08/28 职场文书
党委干部批评与自我批评发言稿
2014/09/28 职场文书
起诉书格式范文
2015/05/20 职场文书
毕业班工作总结
2015/08/10 职场文书
2015年十月一日放假通知
2015/08/18 职场文书
Mysql服务添加 iptables防火墙策略的方案
2021/04/29 MySQL