Python如何使用BeautifulSoup爬取网页信息


Posted in Python onNovember 26, 2019

这篇文章主要介绍了Python如何使用BeautifulSoup爬取网页信息,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

简单爬取网页信息的思路一般是

1、查看网页源码

2、抓取网页信息

3、解析网页内容

4、储存到文件

现在使用BeautifulSoup解析库来爬取刺猬实习Python岗位薪资情况

一、查看网页源码

Python如何使用BeautifulSoup爬取网页信息

这部分是我们需要的内容,对应的源码为:

Python如何使用BeautifulSoup爬取网页信息

分析源码,可以得知:

1、岗位信息列表在<section class="widget-job-list">中

2、每条信息在<article class="widget item">中

3、对于每条信息,我们需要提取出的内容是 公司名称,职位, 薪资

二、抓取网页信息

使用request.get()抓取,返回的soup是网页的文本信息

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")
  return soup

三、解析网页内容

1、找到起始位置<section>

2、在<article>中匹配到各项信息

3、返回信息列表用以存储

def parse_page(soup):
  #待存储的信息列表
  return_list = []
  #起始位置
  grid = soup.find('section', attrs={"class": "widget-job-list"})
  if grid:
    #找到所有的岗位列表
    job_list = soup.find_all('article', attrs={"class": "widget item"})

    #匹配各项内容
    for job in job_list:
      #find()是寻找第一个符合的标签
      company = job.find('a', attrs={"class": "crop"}).get_text().strip()#返回类型为string,用strip()可以去除空白符,换行符
      title = job.find('code').get_text()
      salary = job.find('span', attrs={"class": "color-3"}).get_text()
      #将信息存到列表中并返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

四、存储到文件

将列表信息存储到shixi.csv文件中

def write_to_file(content):
  #以追加的方式打开,设置编码格式防止乱码
  with open("shixi.csv", "a", encoding="gb18030")as f:
    f.write("\n".join(content))

五、爬取多页信息

在网页url中 可以看到最后的page代表的是页数信息

所以在main方法中传入一个page,然后循环运行main(page)就可以爬取多页信息了

def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

六、运行结果

Python如何使用BeautifulSoup爬取网页信息

七、完整代码

import requests
import re
from bs4 import BeautifulSoup

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")
  return soup

def parse_page(soup):
  #待存储的信息列表
  return_list = []
  #起始位置
  grid = soup.find('section', attrs={"class": "widget-job-list"})
  if grid:
    #找到所有的岗位列表
    job_list = soup.find_all('article', attrs={"class": "widget item"})

    #匹配各项内容
    for job in job_list:
      #find()是寻找第一个符合的标签
      company = job.find('a', attrs={"class": "crop"}).get_text().strip()#返回类型为string,用strip()可以去除空白符,换行符
      title = job.find('code').get_text()
      salary = job.find('span', attrs={"class": "color-3"}).get_text()
      #将信息存到列表中并返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

def write_to_file(content):
  #以追加的方式打开,设置编码格式防止乱码
  with open("shixi.csv", "a", encoding="gb18030")as f:
    f.write("\n".join(content))
def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获取当前时间对应unix时间戳的方法
May 15 Python
Python中使用bidict模块双向字典结构的奇技淫巧
Jul 12 Python
用python实现简单EXCEL数据统计的实例
Jan 24 Python
python+pyqt实现12306图片验证效果
Oct 25 Python
Python安装pycurl失败的解决方法
Oct 15 Python
python 统计一个列表当中的每一个元素出现了多少次的方法
Nov 14 Python
Python内存管理实例分析
Jul 10 Python
OpenCV+Python--RGB转HSI的实现
Nov 27 Python
python 实现Flask中返回图片流给前端展示
Jan 09 Python
简单了解python filter、map、reduce的区别
Jan 14 Python
解决pip安装tensorflow中出现的no module named tensorflow.python 问题方法
Feb 20 Python
Python趣味挑战之给幼儿园弟弟生成1000道算术题
May 28 Python
python实现在多维数组中挑选符合条件的全部元素
Nov 26 #Python
Python实现图片添加文字
Nov 26 #Python
从numpy数组中取出满足条件的元素示例
Nov 26 #Python
python实现图片上添加图片
Nov 26 #Python
numpy:找到指定元素的索引示例
Nov 26 #Python
python中seaborn包常用图形使用详解
Nov 25 #Python
解决python中的幂函数、指数函数问题
Nov 25 #Python
You might like
《PHP编程最快明白》第三讲:php数组
2010/11/01 PHP
跟我学Laravel之视图 &amp; Response
2014/10/15 PHP
php curl批处理实现可控并发异步操作示例
2018/05/09 PHP
Jquery设置attr的disabled属性控制某行显示或者隐藏
2014/09/25 Javascript
jquery插件validation实现验证身份证号等
2015/06/04 Javascript
JavaScript数组去重的3种方法和代码实例
2015/07/01 Javascript
jQuery实现图片与文字描述左右滑动自动切换的方法
2015/07/27 Javascript
JS实现网页顶部向下滑出的全国城市切换导航效果
2015/08/22 Javascript
JavaScript实现简单Tip提示框效果
2016/04/20 Javascript
jQuery操作动态生成的内容的方法
2016/05/28 Javascript
AngularJS1.X学习笔记2-数据绑定详解
2017/04/01 Javascript
Angular表格神器ui-grid应用详解
2017/09/29 Javascript
微信小程序自定义键盘 内部虚拟支付
2018/12/20 Javascript
JavaScript实现好看的跟随彩色气泡效果
2020/02/06 Javascript
JS函数参数的传递与同名参数实例分析
2020/03/16 Javascript
python实现发送邮件及附件功能
2021/03/02 Python
Python3实现发送QQ邮件功能(html)
2017/12/15 Python
解读python如何实现决策树算法
2018/10/11 Python
python实现Flappy Bird源码
2018/12/24 Python
详解Python循环作用域与闭包
2019/03/21 Python
Python Pandas 如何shuffle(打乱)数据
2019/07/30 Python
Python操作excel的方法总结(xlrd、xlwt、openpyxl)
2019/09/02 Python
python 检查数据中是否有缺失值,删除缺失值的方式
2019/12/02 Python
深入理解Python变量的数据类型和存储
2021/02/01 Python
html5 利用canvas手写签名并保存的实现方法
2018/07/12 HTML / CSS
html5 Canvas画图教程(9)—canvas中画出矩形和圆形
2013/01/09 HTML / CSS
英国领先的男装设计师服装购物网站:Mainline Menswear
2018/02/04 全球购物
化学教师自荐信范文
2013/12/28 职场文书
企业仓管员岗位职责
2014/06/15 职场文书
运动会演讲稿300字
2014/08/25 职场文书
关于国庆节的演讲稿
2014/09/05 职场文书
学校工会工作总结2015
2015/05/19 职场文书
广播体操比赛主持词
2015/06/29 职场文书
MySQL如何构建数据表索引
2021/05/13 MySQL
Maven学习----Maven安装与环境变量配置教程
2021/06/29 Java/Android
Java如何实现通过键盘输入一个数组
2022/02/15 Java/Android