Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python实现杨辉三角思路
Jul 14 Python
用Pygal绘制直方图代码示例
Dec 07 Python
Python之多线程爬虫抓取网页图片的示例代码
Jan 10 Python
Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码
Mar 04 Python
Python操作mongodb的9个步骤
Jun 04 Python
python多任务及返回值的处理方法
Jan 22 Python
Python3 实现串口两进程同时读写
Jun 12 Python
python2和python3应该学哪个(python3.6与python3.7的选择)
Oct 01 Python
Django对接支付宝实现支付宝充值金币功能示例
Dec 17 Python
Python selenium的基本使用方法分析
Dec 21 Python
python图片验证码识别最新模块muggle_ocr的示例代码
Jul 03 Python
python pandas 解析(读取、写入)CSV 文件的操作方法
Dec 24 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
编写自己的php扩展函数
2006/10/09 PHP
discuz的php防止sql注入函数
2011/01/17 PHP
PHP二维数组去重实例分析
2016/11/18 PHP
golang实现php里的serialize()和unserialize()序列和反序列方法详解
2018/10/30 PHP
对象的类型:本地对象(1)
2006/12/29 Javascript
二级域名或跨域共享Cookies的实现方法
2008/08/07 Javascript
JavaScript 笔记二 Array和Date对象方法
2010/05/22 Javascript
jQuery + Flex 通过拖拽方式动态改变图片的代码
2011/08/03 Javascript
基于jQuery中对数组进行操作的方法
2013/04/16 Javascript
基于javascript 闭包基础分享
2013/07/10 Javascript
jQuery动画效果-fadeIn fadeOut淡入浅出示例代码
2013/08/28 Javascript
javascript实现 百度翻译 可折叠的分享按钮列表
2015/03/12 Javascript
js实现延迟加载的方法
2015/06/24 Javascript
zTree树形菜单交互选项卡效果的实现方法
2017/12/25 Javascript
微信小程序项目实践之验证码倒计时功能
2018/07/18 Javascript
Jquery和CSS实现选择框重置按钮功能
2018/11/08 jQuery
JavaScript设计模式之享元模式实例详解
2019/01/17 Javascript
JS实现的全选、全不选及反选功能【案例】
2019/02/19 Javascript
Vue3.0数据响应式原理详解
2019/10/09 Javascript
JS中的模糊查询功能
2019/12/08 Javascript
Python(Django)项目与Apache的管理交互的方法
2018/05/16 Python
python实时监控cpu小工具
2018/06/21 Python
python多线程同步实例教程
2019/08/11 Python
python中的subprocess.Popen()使用详解
2019/12/25 Python
HTML5之消息通知的使用(Web Notification)
2018/10/30 HTML / CSS
荷兰演唱会和体育比赛订票网站:viagogo荷兰
2018/04/08 全球购物
爱奇艺VIP会员:大剧抢先看
2018/07/11 全球购物
静心口服夜广告词
2014/03/20 职场文书
毕业证丢失证明范本
2014/09/20 职场文书
初中作文评语集锦
2014/12/25 职场文书
在人间读书笔记
2015/06/30 职场文书
cf战队宣传语
2015/07/13 职场文书
公司人力资源管理制度
2015/08/05 职场文书
为什么阅读对所有年龄段的孩子都很重要?
2019/07/08 职场文书
导游词之珠海轮廓
2019/10/25 职场文书
pytorch实现手写数字图片识别
2021/05/20 Python