Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的弹球小游戏示例
Aug 01 Python
利用Python批量提取Win10锁屏壁纸实战教程
Mar 27 Python
对Python 文件夹遍历和文件查找的实例讲解
Apr 26 Python
Python 将Matrix、Dict保存到文件的方法
Oct 30 Python
Python 获取主机ip与hostname的方法
Dec 17 Python
python实现二维数组的对角线遍历
Mar 02 Python
详解用python写一个抽奖程序
May 10 Python
python3下载抖音视频的完整代码
Jun 05 Python
Django中间件基础用法详解
Jul 18 Python
python 利用pyttsx3文字转语音过程详解
Sep 25 Python
10款最佳Python开发工具推荐,每一款都是神器
Oct 15 Python
 Python 中 logging 模块使用详情
Mar 03 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
牡丹941资料
2021/03/01 无线电
memcached 和 mysql 主从环境下php开发代码详解
2010/05/16 PHP
PHP中用hash实现的数组
2011/07/17 PHP
php中用socket模拟http中post或者get提交数据的示例代码
2013/08/08 PHP
PHP开源开发框架ZendFramework使用中常见问题说明及解决方案
2014/06/12 PHP
PHP MySql增删改查的简单实例
2016/06/21 PHP
PHP简单日历实现方法
2016/07/20 PHP
PHP面向对象程序设计__tostring()和__invoke()用法分析
2019/06/12 PHP
thinkPHP事务操作简单案例分析
2019/10/17 PHP
JavaScript 组件之旅(二)编码实现和算法
2009/10/28 Javascript
JavaScript 放大镜 移动镜片效果代码
2011/05/09 Javascript
Express.JS使用详解
2014/07/17 Javascript
jQuery实现商品活动倒计时
2015/10/16 Javascript
信息页文内画中画广告js实现代码(文中加载广告方式)
2016/01/03 Javascript
Node.js编写爬虫的基本思路及抓取百度图片的实例分享
2016/03/12 Javascript
聊聊JavaScript如何实现继承及特点
2017/04/07 Javascript
使用store来优化React组件的方法
2017/10/23 Javascript
微信小程序swiper组件用法实例分析【附源码下载】
2017/12/07 Javascript
使用Vue如何写一个双向数据绑定(面试常见)
2018/04/20 Javascript
vue组件实现弹出框点击显示隐藏效果
2020/10/26 Javascript
js实现数字跳动到指定数字
2020/08/25 Javascript
[48:29]2018DOTA2亚洲邀请赛3月30日 小组赛A组 LGD VS KG
2018/03/31 DOTA
Java多线程编程中ThreadLocal类的用法及深入
2016/06/21 Python
python 3.0 模拟用户登录功能并实现三次错误锁定
2017/11/01 Python
详解解决Python memory error的问题(四种解决方案)
2019/08/08 Python
python使用 request 发送表单数据操作示例
2019/09/25 Python
python解析多层json操作示例
2019/12/30 Python
10个很棒的 CSS3 开发工具 推荐
2011/05/16 HTML / CSS
浅析图片上传及canvas压缩的流程
2020/06/10 HTML / CSS
技术总监管理岗位职责
2014/03/09 职场文书
工程安全员岗位职责
2014/03/09 职场文书
歌颂祖国演讲稿
2014/05/04 职场文书
投标人廉洁自律承诺书
2014/05/26 职场文书
教师节寄语2015
2015/03/23 职场文书
springboot拦截器无法注入redisTemplate的解决方法
2021/06/27 Java/Android
js 实现Material UI点击涟漪效果示例
2022/09/23 Javascript