编程 Python

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

Posted in Python onDecember 11, 2018

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考，具体如下：

from urllib import request
from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
#构造头文件，模拟浏览器访问
url="http://www.jianshu.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
# 将获取到的内容转换成BeautifulSoup格式，并将html.parser作为解析器
soup = BeautifulSoup(page_info, 'html.parser')
# 以格式化的形式打印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
'''''
# 打印查找到的每一个a标签的string和文章链接
  for title in titles:
    print(title.string)
    print("http://www.jianshu.com" + title.get('href'))
'''
#open()是读写文件的函数,with语句会自动close()已打开文件
with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  for title in titles:
    file.write(title.string+'\n')
    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下：

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

- Author -

Sailfish23

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用PyQt进行Python图形界面的程序的开发的入门指引

Apr 14 Python

遗传算法之Python实现代码

Oct 10 Python

python实现两个文件合并功能

Apr 01 Python

python性能测量工具cProfile使用解析

Sep 26 Python

python如果快速判断数字奇数偶数

Nov 13 Python

下载与当前Chrome对应的chromedriver.exe(用于python+selenium)

Jan 14 Python

Pytest参数化parametrize使用代码实例

Feb 22 Python

解决django接口无法通过ip进行访问的问题

Mar 27 Python

python实现将列表中各个值快速赋值给多个变量

Apr 02 Python

python 如何调用 dubbo 接口

Sep 24 Python

详解查看Python解释器路径的两种方式

Oct 15 Python

Python中pass的作用与使用教程

Nov 13 Python

python绘制散点图并标记序号的方法

Dec 11 #Python

pandas分别写入excel的不同sheet方法

Dec 11 #Python

使用Python横向合并excel文件的实例

Dec 11 #Python

padas 生成excel 增加sheet表的实例

Dec 11 #Python

python合并已经存在的sheet数据到新sheet的方法

Dec 11 #Python

Python 多线程不加锁分块读取文件的方法

Dec 11 #Python

对python读写文件去重、RE、set的使用详解

Dec 11 #Python

You might like

超神学院：鹤熙已踏入神圣领域，实力不比凯莎弱

2020/03/02 国漫

PHP 读取文件的正确方法

2009/04/29 PHP

用PHP读取flv文件的播放时间长度

2009/09/03 PHP

PHP中全面阻止SQL注入式攻击分析小结

2012/01/30 PHP

destoon官方标签大全

2014/06/20 PHP

Session 失效的原因汇总及解决丢失办法

2015/09/30 PHP

ThinkPHP中session函数详解

2016/09/14 PHP

浅谈php中变量的数据类型判断函数

2017/03/04 PHP

在php7中MongoDB实现模糊查询的方法详解

2017/05/03 PHP

jquery 上下滚动广告

2009/06/17 Javascript

vue实现添加与删除图书功能

2018/10/07 Javascript

Vue拖拽组件列表实现动态页面配置功能

2019/06/17 Javascript

vue实现自定义H5视频播放器的方法步骤

2019/07/01 Javascript

微信小程序图片自适应实现解析

2020/01/21 Javascript

element中el-container容器与div布局区分详解

2020/05/13 Javascript

使用Python的Django框架实现事务交易管理的教程

2015/04/20 Python

Python实现截屏的函数

2015/07/26 Python

Linux上安装Python的PIL和Pillow库处理图片的实例教程

2016/06/23 Python

Python进度条实时显示处理进度的示例代码

2018/01/30 Python

儿童编程python入门

2018/05/08 Python

举例讲解Python常用模块

2019/03/08 Python

使用python获取(宜宾市地震信息)地震信息

2019/06/20 Python

python数据爬下来保存的位置

2020/02/17 Python

Python图像处理库PIL中图像格式转换的实现

2020/02/26 Python

python爬虫看看虎牙女主播中谁最“顶”步骤详解

2020/12/01 Python

CSS3色彩模式有哪些？CSS3 HSL色彩模式的定义

2016/04/26 HTML / CSS

CSS3 函数技巧用css 实现js实现的事情(clac Counters Tooltip)

2017/08/15 HTML / CSS

澳大利亚自然和有机的健康美容产品一站式商店：Ziani Beauty

2017/12/28 全球购物

vue+django实现下载文件的示例

2021/03/24 Vue.js

打架检讨书100字

2014/01/08 职场文书

小组合作学习反思

2014/02/18 职场文书

理工类毕业自我鉴定

2014/02/20 职场文书

小学数学国培感言

2014/03/10 职场文书

奥巴马就职演讲稿

2014/05/15 职场文书

企业办公室主任岗位职责

2015/04/01 职场文书

水电施工员岗位职责

2015/04/11 职场文书