Python基于BeautifulSoup和requests实现的爬虫功能示例


Posted in Python onAugust 02, 2019

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:

爬取的目标网页:http://www.qianlima.com/zb/area_305/

Python基于BeautifulSoup和requests实现的爬虫功能示例

这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。

使用到的Python库:BeautifulSoup、requests

代码如下:

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.qianlima.com/zb/area_305/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent}
r = requests.get(url,headers=headers)#连接
content = r.text#获取内容,自动转码unicode
soup = BeautifulSoup(content,"lxml")
tags1 = soup.select('div .shixian_zhaobiao')
tag1 = tags1[0]
tag2 = tag1.find(name = 'dl')
tags2 = tag2.find_all(name = 'a')
tags3 = tag2.find_all(name = 'dd')
for tag in tags2:
 print tag.get('href')
 print tag.string
 print tag.next_element.next_element.string

运行结果如下

Python基于BeautifulSoup和requests实现的爬虫功能示例

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python本地与全局命名空间用法实例
Jun 16 Python
浅谈python新手中常见的疑惑及解答
Jun 14 Python
Python pass详细介绍及实例代码
Nov 24 Python
Python通过命令开启http.server服务器的方法
Nov 04 Python
python简单实现操作Mysql数据库
Jan 29 Python
Python实现按中文排序的方法示例
Apr 25 Python
Python 2.7中文显示与处理方法
Jul 16 Python
Python安装与基本数据类型教程详解
May 29 Python
pytorch中 gpu与gpu、gpu与cpu 在load时相互转化操作
May 25 Python
Python自动化xpath实现自动抢票抢货
Sep 19 Python
如何使用 Flask 做一个评论系统
Nov 27 Python
Python办公自动化解决world文件批量转换
Sep 15 Python
详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)
Aug 02 #Python
pandas DataFrame创建方法的方式
Aug 02 #Python
django项目环境搭建及在虚拟机本地创建django项目的教程
Aug 02 #Python
Django缓存系统实现过程解析
Aug 02 #Python
tensor和numpy的互相转换的实现示例
Aug 02 #Python
Django文件存储 自己定制存储系统解析
Aug 02 #Python
使用pycharm在本地开发并实时同步到服务器
Aug 02 #Python
You might like
PHP编程之设置apache虚拟目录
2016/07/08 PHP
PHP实现的登录页面信息提示功能示例
2017/07/24 PHP
tp5.0框架隐藏index.php入口文件及模块和控制器的方法分析
2020/02/11 PHP
csdn 博客中实现运行代码功能实现
2009/08/29 Javascript
JQuery团队打造的javascript单元测试工具QUnit介绍
2010/02/26 Javascript
jQuery trigger()方法用法介绍
2015/01/13 Javascript
AngularJS的内置过滤器详解
2015/05/14 Javascript
JavaScript实现使用Canvas绘制图形的基本教程
2016/10/27 Javascript
Bootstrap table简单使用总结
2017/02/15 Javascript
Nuxt升级2.0.0时出现的问题(小结)
2018/10/08 Javascript
详解vue-cli 3.0 build包太大导致首屏过长的解决方案
2018/11/10 Javascript
layer弹出子iframe层父子页面传值的实现方法
2018/11/22 Javascript
详解关于JSON.parse()和JSON.stringify()的性能小测试
2019/03/14 Javascript
javascript将16进制的字符串转换为10进制整数hex
2020/03/05 Javascript
小程序实现列表展开收起效果
2020/07/29 Javascript
关于JavaScript中异步/等待的用法与理解
2020/11/18 Javascript
[01:07:41]IG vs VGJ.T 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
Python Sqlite3以字典形式返回查询结果的实现方法
2016/10/03 Python
python处理csv数据动态显示曲线实例代码
2018/01/23 Python
Python批量发送post请求的实现代码
2018/05/05 Python
Python视频爬虫实现下载头条视频功能示例
2018/05/07 Python
解决Python logging模块无法正常输出日志的问题
2020/02/21 Python
html5跳转小程序wx-open-launch-weapp踩坑
2020/12/02 HTML / CSS
adidas官方旗舰店:德国运动用品制造商
2017/11/25 全球购物
英国花园药房: The Garden Pharmacy
2017/12/28 全球购物
可靠的数据流传输TCP
2016/03/15 面试题
《得道多助,失道寡助》教学反思
2014/04/19 职场文书
过程装备与控制工程专业求职信
2014/07/02 职场文书
考试作弊万能检讨书
2014/10/19 职场文书
优秀班主任先进事迹材料
2014/12/16 职场文书
工程部主管岗位职责
2015/02/12 职场文书
签证扫盲贴,41个常见签证知识,需要的拿走
2019/08/09 职场文书
python使用tkinter实现透明窗体上绘制随机出现的小球(实例代码)
2021/05/17 Python
详解JAVA中的OPTIONAL
2021/06/14 Java/Android
十大必看国产动漫排名,魁拔上线,第二曾在日本播出
2022/03/18 国漫
win10此电脑打不开怎么办 win10双击此电脑无响应的解决办法
2022/07/23 数码科技