Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
收藏整理的一些Python常用方法和技巧
May 18 Python
基于python log取对数详解
Jun 08 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 Python
Python使用matplotlib 画矩形的三种方式分析
Oct 31 Python
Python字典底层实现原理详解
Dec 18 Python
Python3 获取文件属性的方式(时间、大小等)
Mar 12 Python
Numpy一维线性插值函数的用法
Apr 22 Python
python开发一款翻译工具
Oct 10 Python
Django限制API访问频率常用方法解析
Oct 12 Python
Pytest allure 命令行参数的使用
Apr 18 Python
pytorch中的model.eval()和BN层的使用
May 22 Python
python基础之类方法和静态方法
Oct 24 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
C/S和B/S两种架构区别与优缺点分析
2014/10/23 PHP
Zend Framework教程之前端控制器Zend_Controller_Front用法详解
2016/03/07 PHP
Thinkphp实现短信验证注册功能
2016/10/18 PHP
JavaScript Undefined,Null类型和NaN值区别
2008/10/22 Javascript
基于jQuery制作迷你背词汇工具
2010/07/27 Javascript
纯JAVASCRIPT图表动画插件Highcharts Examples
2011/04/16 Javascript
bootstrap改变按钮加载状态
2014/12/01 Javascript
CSS或者JS实现鼠标悬停显示另一元素
2016/01/22 Javascript
javascript使用闭包模拟对象的私有属性和方法
2016/10/05 Javascript
NodeJS、NPM安装配置步骤(windows版本) 以及环境变量详解
2017/05/13 NodeJs
微信小程序中使用Promise进行异步流程处理的实例详解
2017/08/17 Javascript
js 概率计算(简单版)
2017/09/12 Javascript
Easy UI动态树点击文字实现展开关闭功能
2017/09/30 Javascript
react-native fetch的具体使用方法
2017/11/01 Javascript
JS简单添加元素新节点的方法示例
2018/02/10 Javascript
vue.js的computed,filter,get,set的用法及区别详解
2018/03/08 Javascript
jQuery zTree插件快速实现目录树
2019/08/16 jQuery
python通过urllib2获取带有中文参数url内容的方法
2015/03/13 Python
Python算法之求n个节点不同二叉树个数
2017/10/27 Python
Python使用matplotlib绘图无法显示中文问题的解决方法
2018/03/14 Python
python使用ddt过程中遇到的问题及解决方案【推荐】
2018/10/29 Python
python使用建议与技巧分享(一)
2020/08/17 Python
HTML5调用手机摄像头拍照的实现思路及代码
2014/06/15 HTML / CSS
HTML5新增加标签和功能概述
2016/09/05 HTML / CSS
物理专业大学生职业生涯规划书
2014/02/07 职场文书
施工安全生产承诺书
2014/05/23 职场文书
建筑结构施工求职信
2014/07/11 职场文书
机关作风整顿个人剖析材料
2014/10/06 职场文书
2014年纪检监察工作总结
2014/11/11 职场文书
琅琊山导游词
2015/02/05 职场文书
关于倡议书的范文
2015/04/29 职场文书
民事代理词范文
2015/05/25 职场文书
大学生就业指导课心得体会
2016/01/15 职场文书
创业计划书之餐饮
2019/09/02 职场文书
mysql 8.0.24版本安装配置方法图文教程
2021/05/12 MySQL
python图像处理 PIL Image操作实例
2022/04/09 Python