Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python解决N阶台阶走法问题的方法分析
Dec 28 Python
基于Django与ajax之间的json传输方法
May 29 Python
Django开发中的日志输出的方法
Jul 02 Python
python微信公众号之关注公众号自动回复
Oct 25 Python
selenium3+python3环境搭建教程图解
Dec 07 Python
Python判断两个文件是否相同与两个文本进行相同项筛选的方法
Mar 01 Python
Python3.4解释器用法简单示例
Mar 22 Python
Python 编程速成(推荐)
Apr 15 Python
python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例
Jun 17 Python
Python新手学习raise用法
Jun 03 Python
Python批量获取并保存手机号归属地和运营商的示例
Oct 09 Python
python获取字符串中的email
Mar 31 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
解读PHP的Yii框架中请求与响应的处理流程
2016/03/17 PHP
PHP生成制作验证码的简单实例
2016/06/12 PHP
php压缩文件夹最新版
2018/07/18 PHP
laravel框架分组控制器和分组路由实现方法示例
2020/01/25 PHP
js 与或运算符 || && 妙用
2009/12/09 Javascript
jQuery 打造动态渐变按钮 详细图文教程
2010/04/25 Javascript
仿当当网淘宝网等主流电子商务网站商品分类导航菜单
2013/09/25 Javascript
javascript对象的使用和属性操作示例详解
2014/03/02 Javascript
js语法学习之判断一个对象是否为数组
2014/05/13 Javascript
简单易用的倒计时js代码
2014/08/04 Javascript
jquery 获取 outerHtml 包含当前节点本身的代码
2014/10/30 Javascript
JavaScript实现按照指定长度为数字前面补零输出的方法
2015/03/19 Javascript
Javascript中的getUTCHours()方法使用详解
2015/06/10 Javascript
基于JavaScript实现网页倒计时自动跳转代码
2015/12/28 Javascript
超赞的jQuery图片滑块动画特效代码汇总
2016/01/25 Javascript
javascript特效实现——当前时间和倒计时效果的简单实例
2016/07/20 Javascript
AngularJS深入探讨scope,继承结构,事件系统和生命周期
2016/11/02 Javascript
javascript中的try catch异常捕获机制用法分析
2016/12/14 Javascript
微信小程序 弹幕功能简单实例
2017/02/14 Javascript
javascript实现滑动解锁功能
2017/03/22 Javascript
MUI  Scroll插件的使用详解
2017/04/13 Javascript
Node.js利用debug模块打印出调试日志的方法
2017/04/25 Javascript
js+canvas实现两张图片合并成一张图片的方法
2019/11/01 Javascript
小程序卡片切换效果组件wxCardSwiper的实现
2020/02/13 Javascript
基于python实现上传文件到OSS代码实例
2020/05/09 Python
Python中SQLite如何使用
2020/05/27 Python
Python爬虫实例之2021猫眼票房字体加密反爬策略(粗略版)
2021/02/22 Python
利用HTML5+css3+jquery+weui实现仿微信聊天界面功能
2018/01/08 HTML / CSS
总经理工作职责范文
2014/03/14 职场文书
创先争优活动党员公开承诺书
2014/08/29 职场文书
优秀班主任事迹材料
2014/12/16 职场文书
大学生英文求职信范文
2015/03/19 职场文书
2015年青年志愿者协会工作总结
2015/04/27 职场文书
上级领导检查欢迎词
2015/09/30 职场文书
教你如何使用Python实现二叉树结构及三种遍历
2021/06/18 Python
漫画「处刑少女的生存之道」第3卷封面公开
2022/03/21 日漫