Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】


Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件,模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python基于DES算法加密解密实例
Jun 03 Python
python框架django基础指南
Sep 08 Python
基于python爬虫数据处理(详解)
Jun 10 Python
使用Python实现博客上进行自动翻页
Aug 23 Python
python中装饰器级连的使用方法示例
Sep 29 Python
高效使用Python字典的清单
Apr 04 Python
Python爬虫获取图片并下载保存至本地的实例
Jun 01 Python
python实现批量修改图片格式和尺寸
Jun 07 Python
Django + Uwsgi + Nginx 实现生产环境部署的方法
Jun 20 Python
由面试题加深对Django的认识理解
Jul 19 Python
Python实现EM算法实例代码
Oct 04 Python
python 决策树算法的实现
Oct 09 Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
使用Python横向合并excel文件的实例
Dec 11 #Python
padas 生成excel 增加sheet表的实例
Dec 11 #Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 #Python
Python 多线程不加锁分块读取文件的方法
Dec 11 #Python
对python读写文件去重、RE、set的使用详解
Dec 11 #Python
You might like
打造计数器DIY三步曲(中)
2006/10/09 PHP
PHP的error_reporting错误级别变量对照表
2014/07/08 PHP
php实现格式化多行文本为Js可用格式
2015/04/15 PHP
Yii2――使用数据库操作汇总(增删查改、事务)
2016/12/19 PHP
详细分析PHP 命名空间(namespace)
2020/06/30 PHP
Javascript实例教程(19) 使用HoTMetal(1)
2006/12/23 Javascript
用jquery来定位
2007/02/20 Javascript
JS 判断undefined的实现代码
2009/11/26 Javascript
jquery让返回的内容显示在特定div里(代码少而精悍)
2014/06/23 Javascript
js数组依据下标删除元素
2015/04/14 Javascript
JavaScript实现级联菜单的方法
2015/06/29 Javascript
JavaScript 对象字面量讲解
2016/06/06 Javascript
基于JavaScript实现Tab选项卡切换效果
2016/11/24 Javascript
vue.js树形组件之删除双击增加分支实例代码
2017/02/28 Javascript
jQuery实现 RadioButton做必选校验功能
2017/06/15 jQuery
微信小程序自定义多选事件的实现代码
2018/05/17 Javascript
Puppeteer 爬取动态生成的网页实战
2018/11/14 Javascript
基于Element的组件改造的树形选择器(树形下拉框)
2020/02/27 Javascript
webpack 动态批量加载文件的实现方法
2020/03/19 Javascript
Python内存管理方式和垃圾回收算法解析
2017/11/11 Python
详解python字节码
2018/02/07 Python
对python3 中方法各种参数和返回值详解
2018/12/15 Python
Python常用模块logging——日志输出功能(示例代码)
2019/11/20 Python
wxPython修改文本框颜色过程解析
2020/02/14 Python
Python如何实现小程序 无限求和平均
2020/02/18 Python
详解Django配置JWT认证方式
2020/05/09 Python
Django 解决distinct无法去除重复数据的问题
2020/05/20 Python
python文件操作seek()偏移量,读取指正到指定位置操作
2020/07/05 Python
python自动化发送邮件实例讲解
2021/01/04 Python
韩国爱茉莉太平洋化妆品美国站:Amore Pacific US
2016/10/28 全球购物
Sunglass Hut巴西网上商店:男女太阳镜
2020/10/04 全球购物
VC++笔试题
2014/10/13 面试题
2014年药店工作总结
2014/11/20 职场文书
python编写五子棋游戏
2021/05/25 Python
企业版Windows 11有哪些新功能? Win11适用于企业的功能介绍
2021/11/21 数码科技
JS开发前端团队展示控制器来为成员引流
2022/08/14 Javascript