Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python对文件操作知识汇总
May 15 Python
python bottle框架支持jquery ajax的RESTful风格的PUT和DELETE方法
May 24 Python
Python命令行解析模块详解
Feb 01 Python
python采集微信公众号文章
Dec 20 Python
PyQt4编程之让状态栏显示信息的方法
Jun 18 Python
python 下 CMake 安装配置 OPENCV 4.1.1的方法
Sep 30 Python
使用PyTorch将文件夹下的图片分为训练集和验证集实例
Jan 08 Python
解决Pycharm 中遇到Unresolved reference 'sklearn'的问题
Jul 13 Python
如何用Python 实现全连接神经网络(Multi-layer Perceptron)
Oct 15 Python
Django-silk性能测试工具安装及使用解析
Nov 28 Python
Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
Jan 13 Python
matplotlib更改窗口图标的方法示例
Feb 03 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
PHP的面向对象编程
2006/10/09 PHP
复杂检索数据并分页显示的处理方法
2006/10/09 PHP
用PHP写的MySQL数据库用户认证系统代码
2007/03/22 PHP
php $_SERVER当前完整url的写法
2009/11/12 PHP
php中使用__autoload()自动加载未定义类的实现代码
2013/02/06 PHP
PHP图片处理之使用imagecopyresampled函数裁剪图片例子
2014/11/19 PHP
配置eAccelerator和XCache扩展来加速PHP程序的执行
2015/12/22 PHP
PHP中file_exists使用中遇到的问题小结
2016/04/05 PHP
Yii2.0多文件上传实例说明
2017/07/24 PHP
动态加载js的几种方法
2006/10/23 Javascript
Javascript 个人笔记(没有整理,很乱)
2007/07/07 Javascript
$.ajax json数据传递方法
2008/11/19 Javascript
IE6/7/8/9不支持exec的简写方式
2011/05/25 Javascript
我的Node.js学习之路(四)--单元测试
2014/07/06 Javascript
javascript实现的右下角弹窗实例
2015/04/24 Javascript
Angular中$compile源码分析
2016/01/28 Javascript
jQuery验证插件validate使用方法详解
2020/09/13 Javascript
js仿QQ邮箱收件人选择与搜索功能
2017/02/10 Javascript
Vue 过渡实现轮播图效果
2017/03/27 Javascript
js字符串倒序的实例代码
2018/11/30 Javascript
Vue2.x Todo之自定义指令实现自动聚焦的方法
2019/01/08 Javascript
原生JS 实现的input输入时表格过滤操作示例
2019/08/03 Javascript
JS检索下拉列表框中被选项目的索引号(selectedIndex)
2019/12/17 Javascript
微信小程序实现转盘抽奖
2020/09/21 Javascript
Python程序员面试题 你必须提前准备!(答案及解析)
2018/01/23 Python
在python中对变量判断是否为None的三种方法总结
2019/01/23 Python
python中树与树的表示知识点总结
2019/09/14 Python
Python +Selenium解决图片验证码登录或注册问题(推荐)
2020/02/09 Python
如何使用python的ctypes调用医保中心的dll动态库下载医保中心的账单
2020/05/24 Python
如何真正的了解python装饰器
2020/08/14 Python
python 如何上传包到pypi
2020/12/24 Python
CSS3中Transition动画属性用法详解
2016/07/04 HTML / CSS
html5 viewport使用方法示例详解
2013/12/02 HTML / CSS
计算机应用专业学生的自我评价分享
2013/11/03 职场文书
创业计划书的内容步骤和要领
2014/01/04 职场文书
青年文明号创建承诺
2014/03/31 职场文书