Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python+selenium开发环境搭建图文教程
Aug 11 Python
pandas or sql计算前后两行数据间的增值方法
Apr 20 Python
Python字符串逆序输出的实例讲解
Feb 16 Python
在python plt图表中文字大小调节的方法
Jul 08 Python
利用Python实现手机短信监控通知的方法
Jul 22 Python
python实现WebSocket服务端过程解析
Oct 18 Python
Django 限制访问频率的思路详解
Dec 24 Python
Python实现分数序列求和
Feb 25 Python
基于Python共轭梯度法与最速下降法之间的对比
Apr 02 Python
python 星号(*)的多种用途
Sep 21 Python
python openssl模块安装及用法
Dec 06 Python
selenium+超级鹰实现模拟登录12306
Jan 24 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
php 根据自增id创建唯一编号类
2017/04/06 PHP
ExtJs设置GridPanel表格文本垂直居中示例
2013/07/15 Javascript
javascript显示用户停留时间的简单实例
2013/08/05 Javascript
js 调用百度地图api并在地图上进行打点添加标注
2014/05/13 Javascript
从JQuery源码分析JavaScript函数的apply方法与call方法
2014/09/25 Javascript
javascript精确统计网站访问量实例代码
2015/12/19 Javascript
Jquery针对tr td的一些实用操作方法(必看篇)
2016/10/05 Javascript
js实现图片360度旋转
2017/01/22 Javascript
原生js开发的日历插件
2017/02/04 Javascript
JS中去掉array中重复元素的方法
2017/05/26 Javascript
[js高手之路]单例模式实现模态框的示例
2017/09/01 Javascript
Vue添加请求拦截器及vue-resource 拦截器使用
2017/11/23 Javascript
一些手写JavaScript常用的函数汇总
2019/04/16 Javascript
Vue 3.0双向绑定原理的实现方法
2019/10/23 Javascript
JavaScript实现简单贪吃蛇效果
2020/03/09 Javascript
Vue中通过vue-router实现命名视图的问题
2020/04/23 Javascript
Python两个整数相除得到浮点数值的方法
2015/03/18 Python
用Python脚本来删除指定容量以上的文件的教程
2015/05/04 Python
Python Logging 日志记录入门学习
2018/06/02 Python
pandas 对series和dataframe进行排序的实例
2018/06/09 Python
python实现电脑自动关机
2018/06/20 Python
pandas.dataframe按行索引表达式选取方法
2018/10/30 Python
深入浅析Python2.x和3.x版本的主要区别
2018/11/30 Python
python实现kNN算法识别手写体数字的示例代码
2019/08/16 Python
Django REST framework 单元测试实例解析
2019/11/07 Python
python实现的多任务版udp聊天器功能案例
2019/11/13 Python
Python面向对象中类(class)的简单理解与用法分析
2020/02/21 Python
浅谈如何使用python抓取网页中的动态数据实现
2020/08/17 Python
农场厂长岗位职责
2013/12/28 职场文书
十佳班主任事迹材料
2014/01/18 职场文书
医药营销个人求职信
2014/04/12 职场文书
《灰椋鸟》教学反思
2014/04/27 职场文书
学习党的群众路线实践活动思想汇报
2014/09/12 职场文书
幼儿园庆六一主持词
2015/06/30 职场文书
2019初中学生入团申请书
2019/06/27 职场文书
JavaScript 数组去重详解
2021/09/15 Javascript