Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python连接phoenix的方法示例
Sep 29 Python
python生成随机图形验证码详解
Nov 08 Python
用uWSGI和Nginx部署Flask项目的方法示例
May 05 Python
python中的协程深入理解
Jun 10 Python
python删除文件夹下相同文件和无法打开的图片
Jul 16 Python
python django下载大的csv文件实现方法分析
Jul 19 Python
Django中ajax发送post请求 报403错误CSRF验证失败解决方案
Aug 13 Python
python爬虫之遍历单个域名
Nov 20 Python
Python如何基于rsa模块实现非对称加密与解密
Jan 03 Python
Python基于Socket实现简单聊天室
Feb 17 Python
python异常处理、自定义异常、断言原理与用法分析
Mar 23 Python
解决selenium+Headless Chrome实现不弹出浏览器自动化登录的问题
Jan 09 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
ASP知识讲座四
2006/10/09 PHP
PHP下几种删除目录的方法总结
2007/08/19 PHP
Thinkphp模板中使用自定义函数的方法
2012/09/23 PHP
将时间以距今多久的形式表示,PHP,js双版本
2012/09/25 PHP
PHP和JavaScrip分别获取关联数组的键值示例代码
2013/09/16 PHP
PHP中shuffle数组值随便排序函数用法
2014/11/21 PHP
基于jQuery的遍历同id元素 并响应事件的代码
2012/06/14 Javascript
JS实现简单的Canvas画图实例
2013/07/04 Javascript
使用Jquery实现每日签到功能
2015/04/03 Javascript
jquery文字填写自动高度的实现方法
2016/11/07 Javascript
Bootstrap的modal拖动效果
2016/12/25 Javascript
JQuery实现动态操作表格
2017/01/11 Javascript
JavaScript组件开发之输入框加候选框
2017/03/10 Javascript
React 高阶组件入门介绍
2018/01/11 Javascript
使用angularjs.foreach时return的问题解决
2018/09/30 Javascript
NodeJS实现一个聊天室功能
2019/11/25 NodeJs
vue请求数据的三种方式
2020/03/04 Javascript
webpack 动态批量加载文件的实现方法
2020/03/19 Javascript
微信小程序实现多图上传
2020/06/19 Javascript
javascript实现前端分页效果
2020/06/24 Javascript
Ant Design Vue table中列超长显示...并加提示语的实例
2020/10/31 Javascript
Python subprocess模块学习总结
2014/03/13 Python
跟老齐学Python之集合(set)
2014/09/24 Python
Linux下为不同版本python安装第三方库
2016/08/31 Python
详解Python字典小结
2018/10/20 Python
python实现连连看辅助(图像识别)
2020/03/25 Python
python模块和包的应用BASE_PATH使用解析
2019/12/14 Python
python3安装OCR识别库tesserocr过程图解
2020/04/02 Python
Python中无限循环需要什么条件
2020/05/27 Python
Html5 new XMLHttpRequest()监听附件上传进度
2021/01/14 HTML / CSS
世界上最好的帽子:Tilley
2016/11/27 全球购物
请解释一下webService? 如何用.net实现webService
2014/06/09 面试题
介绍一下linux的文件系统
2015/10/06 面试题
AssertionError 跟一下那个类是 “is – a”的关系
2012/02/21 面试题
爱国影片观后感
2015/06/18 职场文书
开学典礼校长致辞
2015/07/29 职场文书