Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python常用模块介绍
Nov 21 Python
Python contextlib模块使用示例
Feb 18 Python
Python中的类与对象之描述符详解
Mar 27 Python
编写Python CGI脚本的教程
Jun 29 Python
Python 对象中的数据类型
May 13 Python
Python+OpenCV实现车牌字符分割和识别
Mar 31 Python
Python 读取图片文件为矩阵和保存矩阵为图片的方法
Apr 27 Python
深入了解python中元类的相关知识
Aug 29 Python
Python @property使用方法解析
Sep 17 Python
Python+numpy实现矩阵的行列扩展方式
Nov 29 Python
python cv2截取不规则区域图片实例
Dec 21 Python
opencv用VS2013调试时用Image Watch插件查看图片
Jul 26 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
php 全局变量范围分析
2009/08/07 PHP
php获取当前时间的毫秒数的方法
2014/01/26 PHP
PHP开发框架kohana3 自定义路由设置示例
2014/07/14 PHP
CI框架学习笔记(一) - 环境安装、基本术语和框架流程
2014/10/26 PHP
php fseek函数读取大文件两种方法
2016/10/12 PHP
基于php判断客户端类型
2016/10/14 PHP
详解PHP安装mysql.so扩展的方法
2016/12/31 PHP
php实现对短信验证码发送次数的限制实例讲解
2021/03/04 PHP
Struts2的s:radio标签使用及用jquery添加change事件
2013/04/08 Javascript
javascript实现日期按月份加减
2015/05/15 Javascript
学习JavaScript设计模式之代理模式
2016/01/12 Javascript
在其他地方你学不到的jQuery小贴士和技巧(欢迎收藏)
2016/01/20 Javascript
js中常用的Tab切换效果(推荐)
2016/08/30 Javascript
ASP.NET jquery ajax传递参数的实例
2016/11/02 Javascript
javascript 封装Date日期类实例详解
2017/05/28 Javascript
Angularjs实现上传图片预览功能
2017/09/01 Javascript
在vue中使用setInterval的方法示例
2019/04/16 Javascript
vue-cli2与vue-cli3在一台电脑共存的实现方法
2019/09/25 Javascript
JavaScript实现英语单词题库
2019/12/24 Javascript
在Vue中使用Echarts实例图的方法实例
2020/10/10 Javascript
[01:13:17]Secret vs NB 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
python的几种开发工具介绍
2007/03/07 Python
pyqt4教程之实现windows窗口小示例分享
2014/03/07 Python
Python Web框架Flask信号机制(signals)介绍
2015/01/01 Python
详解Python中用于计算指数的exp()方法
2015/05/14 Python
Python实现的rsa加密算法详解
2018/01/24 Python
Python实现批量读取图片并存入mongodb数据库的方法示例
2018/04/02 Python
PyQt5每天必学之创建窗口居中效果
2018/04/19 Python
Python urllib.request对象案例解析
2020/05/11 Python
详解pycharm连接远程linux服务器的虚拟环境的方法
2020/11/13 Python
美国家具网站:Cymax
2016/09/17 全球购物
德国网上超市:myTime.de
2019/08/26 全球购物
就业协议书怎么填
2014/04/11 职场文书
户外宣传策划方案
2014/05/25 职场文书
浅谈Python实现opencv之图片色素的数值运算和逻辑运算
2021/06/23 Python
python3中apply函数和lambda函数的使用详解
2022/02/28 Python