Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之折腾一下目录
Oct 24 Python
Python脚本暴力破解栅栏密码
Oct 19 Python
浅析Python编写函数装饰器
Mar 18 Python
python使用paramiko实现远程拷贝文件的方法
Apr 18 Python
Python编程实现蚁群算法详解
Nov 13 Python
Sublime开发python程序的示例代码
Jan 24 Python
基于Python pip用国内镜像下载的方法
Jun 12 Python
python多线程同步之文件读写控制
Feb 25 Python
通过 Python 和 OpenCV 实现目标数量监控
Jan 05 Python
Python实现投影法分割图像示例(二)
Jan 17 Python
jupyter 中文乱码设置编码格式 避免控制台输出的解决
Apr 20 Python
Python使用pycharm导入pymysql教程
Sep 16 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
PHP默认安装产生系统漏洞
2006/10/09 PHP
从零开始学YII2框架(三)扩展插件yii2-gird
2014/08/20 PHP
浅谈PHP中foreach/in_array的使用
2015/11/02 PHP
解决在laravel中leftjoin带条件查询没有返回右表为NULL的问题
2019/10/15 PHP
Yii框架getter与setter方法功能与用法分析
2019/10/22 PHP
php设计模式之组合模式实例详解【星际争霸游戏案例】
2020/03/27 PHP
jQuery 位置插件
2008/12/25 Javascript
Firefox中autocomplete="off" 设置不起作用Bug的解决方法
2011/03/25 Javascript
jquery iframe操作详细解析
2013/11/20 Javascript
AngularJS入门教程(零):引导程序
2014/12/06 Javascript
Javascript获取表单名称(name)的方法
2015/04/02 Javascript
javascript性能优化之DOM交互操作实例分析
2015/12/12 Javascript
利用JS实现页面删除并重新排序功能
2016/12/09 Javascript
JS实现简易刻度时钟示例代码
2017/03/11 Javascript
详谈jQuery.load()和Jsp的include的区别
2017/04/12 jQuery
JS实现评价的星星功能
2017/08/20 Javascript
input 标签实现输入框带提示文字效果(两种方法)
2017/10/09 Javascript
React Native之prop-types进行属性确认详解
2017/12/19 Javascript
小程序实现订单倒计时功能
2019/04/23 Javascript
解决layui的radio属性或别的属性没显示出来的问题
2019/09/26 Javascript
JS+HTML5本地存储Localstorage实现注册登录及验证功能示例
2020/02/10 Javascript
Python实现的从右到左字符串替换方法示例
2018/07/06 Python
如何为Python终端提供持久性历史记录
2019/09/03 Python
python列表推导式入门学习解析
2019/12/02 Python
从多个tfrecord文件中无限读取文件的例子
2020/02/17 Python
python中setuptools的作用是什么
2020/06/19 Python
python 获取域名到期时间的方法步骤
2021/02/10 Python
详解使用canvas保存网页为pdf文件支持跨域
2018/11/23 HTML / CSS
Nike英国官网:Nike.com (UK)
2017/02/13 全球购物
英国领先的在线高尔夫商店:Gamola Golf
2019/11/16 全球购物
拾金不昧表扬信范文
2014/01/11 职场文书
预备党员入党自我评价范文
2014/03/10 职场文书
小学二年级评语
2014/04/21 职场文书
邻里守望志愿服务活动方案
2014/08/15 职场文书
2014年教学管理工作总结
2014/12/02 职场文书
redis配置文件中常用配置详解
2021/04/14 Redis