Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python基础教程之常用运算符
Aug 29 Python
尝试使用Python多线程抓取代理服务器IP地址的示例
Nov 09 Python
详解Python设计模式编程中观察者模式与策略模式的运用
Mar 02 Python
python生成随机图形验证码详解
Nov 08 Python
Python用imghdr模块识别图片格式实例解析
Jan 11 Python
Python3 单行多行万能正则匹配方法
Jan 07 Python
Python列表操作方法详解
Feb 09 Python
Python django框架开发发布会签到系统(web开发)
Feb 12 Python
浅谈PyTorch的可重复性问题(如何使实验结果可复现)
Feb 20 Python
使用python无账号无限制获取企查查信息的实例代码
Apr 17 Python
Django实现图片上传功能步骤解析
Apr 22 Python
Sublime Text3最新激活注册码分享适用2020最新版 亲测可用
Nov 12 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
PHP学习 运算符与运算符优先级
2008/06/15 PHP
PHP学习笔记 IIS7下安装配置php环境
2012/10/29 PHP
php实现修改新闻时删除图片的方法
2015/05/12 PHP
php使用Session和文件统计在线人数
2015/07/04 PHP
PHP学习笔记之php文件操作
2016/06/03 PHP
php图片添加水印例子
2016/07/20 PHP
PHP 爬取网页的主要方法
2018/07/13 PHP
Yii 使用intervention/image拓展实现图像处理功能
2019/06/22 PHP
JS的递增/递减运算符和带操作的赋值运算符的等价式
2007/12/08 Javascript
JavaScript String.replace函数参数实例说明
2013/06/06 Javascript
jquery实现图片翻页效果
2013/12/23 Javascript
JS数组排序技巧汇总(冒泡、sort、快速、希尔等排序)
2015/11/24 Javascript
Bootstrap表单布局
2016/07/19 Javascript
Angularjs实现下拉框联动的示例代码
2017/08/22 Javascript
微信小程序实现带缩略图轮播效果
2018/11/04 Javascript
JS实现获取自定义属性data值的方法示例
2018/12/19 Javascript
Vue实现微信支付功能遇到的坑
2019/06/05 Javascript
在JavaScript中如何访问暂未存在的嵌套对象
2019/06/18 Javascript
关于ligerui子页面关闭后,父页面刷新,重新加载的方法
2019/09/27 Javascript
[07:26]2015国际邀请赛第二日TOP10集锦
2015/08/06 DOTA
python中xrange用法分析
2015/04/15 Python
Python的Flask框架标配模板引擎Jinja2的使用教程
2016/07/12 Python
python xml解析实例详解
2016/11/14 Python
Python最火、R极具潜力 2017机器学习调查报告
2017/12/11 Python
python2和python3在处理字符串上的区别详解
2019/05/29 Python
Python代码生成视频的缩略图的实例讲解
2019/12/22 Python
python模拟实现斗地主发牌
2020/01/07 Python
Keras设定GPU使用内存大小方式(Tensorflow backend)
2020/05/22 Python
Python爬虫获取页面所有URL链接过程详解
2020/06/04 Python
python numpy实现rolling滚动案例
2020/06/08 Python
关于Kotlin中SAM转换的那些事
2020/09/15 Python
python 实现"神经衰弱"翻牌游戏
2020/11/09 Python
Hanro官网:奢华男士和女士内衣、睡衣和家居服
2018/10/25 全球购物
一年级班主任寄语
2014/01/19 职场文书
高考励志标语
2014/06/05 职场文书
工作证明格式及范本
2014/09/12 职场文书