Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
对于Python的框架中一些会话程序的管理
Apr 20 Python
一步步教你用Python实现2048小游戏
Jan 19 Python
Python与R语言的简要对比
Nov 14 Python
scrapy爬虫实例分享
Dec 28 Python
Python程序员面试题 你必须提前准备!
Jan 16 Python
Python实现的微信好友数据分析功能示例
Jun 21 Python
分析运行中的 Python 进程详细解析
Jun 22 Python
pandas factorize实现将字符串特征转化为数字特征
Dec 19 Python
解决Pycharm的项目目录突然消失的问题
Jan 20 Python
Python 输出详细的异常信息(traceback)方式
Apr 08 Python
django haystack实现全文检索的示例代码
Jun 24 Python
Python之字典添加元素的几种方法
Sep 30 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
一个域名查询的程序
2006/10/09 PHP
PHP列出MySQL中所有数据库的方法
2015/03/12 PHP
php实现无限级分类查询(递归、非递归)
2016/03/10 PHP
js no-repeat写法 背景不重复
2009/03/18 Javascript
jquery 得到当前页面高度和宽度的两个函数
2010/02/21 Javascript
JQuery插件Style定制化方法的分析与比较
2012/05/03 Javascript
利用JS延迟加载百度分享代码,提高网页速度
2013/07/01 Javascript
Knockout结合Bootstrap创建动态UI实现产品列表管理
2016/09/14 Javascript
javascript 判断当前浏览器版本并判断ie版本
2017/02/17 Javascript
node.js中debug模块的简单介绍与使用
2017/04/25 Javascript
jQuery动态添加.active 实现导航效果代码思路详解
2017/08/29 jQuery
详解React 元素渲染
2020/07/07 Javascript
微信小程序 接入腾讯地图的两种写法
2021/01/12 Javascript
基于Python Numpy的数组array和矩阵matrix详解
2018/04/04 Python
Python基于socket模块实现UDP通信功能示例
2018/04/10 Python
Python读取mat文件,并保存为pickle格式的方法
2018/10/23 Python
tensorflow自定义激活函数实例
2020/02/04 Python
python使用html2text库实现从HTML转markdown的方法详解
2020/02/21 Python
Python基于内置库pytesseract实现图片验证码识别功能
2020/02/24 Python
python+requests接口压力测试500次,查看响应时间的实例
2020/04/30 Python
基于Python和C++实现删除链表的节点
2020/07/06 Python
基于python调用jenkins-cli实现快速发布
2020/08/14 Python
如何在python中处理配置文件代码实例
2020/09/27 Python
新闻专业个人求职信
2013/12/19 职场文书
大学校庆策划书
2014/01/31 职场文书
《青蛙看海》教学反思
2014/04/23 职场文书
《孙权劝学》教学反思
2014/04/23 职场文书
小学语文业务学习材料
2014/06/02 职场文书
高等教育学专业自荐书
2014/06/17 职场文书
中职招生先进个人材料
2014/08/31 职场文书
党员领导干部民主生活会批评与自我批评发言
2014/09/28 职场文书
颐和园英文导游词
2015/01/30 职场文书
2015年机械设备管理工作总结
2015/05/04 职场文书
暑期辅导班宣传单
2015/07/14 职场文书
乡镇团代会开幕词
2016/03/04 职场文书
深度学习tensorflow基础mnist
2021/04/14 Python