Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 自动提交和抓取网页
Jul 13 Python
老生常谈python的私有公有属性(必看篇)
Jun 09 Python
python3中获取文件当前绝对路径的两种方法
Apr 26 Python
python实现批量图片格式转换
Jun 16 Python
Python用于学习重要算法的模块pygorithm实例浅析
Aug 16 Python
python 中文件输入输出及os模块对文件系统的操作方法
Aug 27 Python
Python将文字转成语音并读出来的实例详解
Jul 15 Python
django中上传图片分页三级联动效果的实现代码
Aug 30 Python
python opencv圆、椭圆与任意多边形的绘制实例详解
Feb 06 Python
Python面向对象中类(class)的简单理解与用法分析
Feb 21 Python
python+selenium+chromedriver实现爬虫示例代码
Apr 10 Python
Python编程源码报错解决方法总结经验分享
Oct 05 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
Joomla使用Apache重写模式的方法
2016/05/04 PHP
DHTML Slide Show script图片轮换
2008/03/03 Javascript
javascript 兼容鼠标滚轮事件
2009/04/07 Javascript
javascript 函数调用的对象和方法
2010/07/01 Javascript
JQuery扩展插件Validate—4设置错误提示的样式
2011/09/05 Javascript
node.js中的path.sep方法使用说明
2014/12/08 Javascript
利用jQuery设计一个简单的web音乐播放器的实例分享
2016/03/08 Javascript
完美解决jQuery fancybox ie 无法显示关闭按钮的问题
2016/11/29 Javascript
Vue分页组件实例代码
2017/04/17 Javascript
bootstrap模态框示例代码分享
2017/05/17 Javascript
webpack 4.0.0-beta.0版本新特性介绍
2018/02/10 Javascript
当vue路由变化时,改变导航栏的样式方法
2018/08/22 Javascript
解决vue attr取不到属性值的问题
2018/09/18 Javascript
微信小程序与公众号实现数据互通的方法
2019/07/25 Javascript
vue项目在线上服务器访问失败原因分析
2020/08/14 Javascript
[02:14]2016国际邀请赛中国区预选赛Ehome晋级之路
2016/07/01 DOTA
python获取外网ip地址的方法总结
2015/07/02 Python
Python单链表简单实现代码
2016/04/27 Python
用python结合jieba和wordcloud实现词云效果
2017/09/05 Python
Python列表删除的三种方法代码分享
2017/10/31 Python
使用python编写监听端
2018/04/12 Python
Python 限制线程的最大数量的方法(Semaphore)
2019/02/22 Python
PyQt5实现简单数据标注工具
2019/03/18 Python
Series和DataFrame使用简单入门
2019/11/13 Python
浅谈matplotlib.pyplot与axes的关系
2020/03/06 Python
详解pandas赋值失败问题解决
2020/11/29 Python
Web Service面试题:如何搭建Axis2的开发环境
2012/06/20 面试题
大学生预备党员自我评价分享
2013/11/16 职场文书
优秀教师获奖感言
2014/01/31 职场文书
美化环境标语
2014/06/20 职场文书
农业局党的群众路线教育实践活动整改方案
2014/09/20 职场文书
合同和协议有什么区别?
2014/10/08 职场文书
工商局个人工作总结
2015/03/03 职场文书
汽车销售合同文本
2019/08/08 职场文书
Matplotlib可视化之添加让统计图变得简单易懂的注释
2021/06/11 Python
前端canvas中物体边框和控制点的实现示例
2022/08/05 Javascript