Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python将人民币转换大写的脚本代码
Feb 10 Python
python 示例分享---逻辑推理编程解决八皇后
Jul 20 Python
Python随机生成一个6位的验证码代码分享
Mar 24 Python
python数据结构之图深度优先和广度优先实例详解
Jul 08 Python
Python中的条件判断语句基础学习教程
Feb 07 Python
Python配置mysql的教程(推荐)
Oct 13 Python
Python绘制热力图示例
Sep 27 Python
pyecharts动态轨迹图的实现示例
Apr 17 Python
PyQt5 控件字体样式等设置的实现
May 13 Python
Python局部变量与全局变量区别原理解析
Jul 14 Python
python实现单机五子棋
Aug 28 Python
理解python中装饰器的作用
Jul 21 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
摩卡咖啡
2021/03/03 咖啡文化
destoon实现底部添加你是第几位访问者的方法
2014/07/15 PHP
Yii框架中memcache用法实例
2014/12/03 PHP
深入理解php printf() 输出格式化的字符串
2016/05/23 PHP
PHP一致性hash分布式算法封装类定义与用法示例
2018/08/04 PHP
Laravel 创建指定表 migrate的例子
2019/10/09 PHP
做网页的一些技巧(续)
2007/02/01 Javascript
在Z-Blog中运行代码[html][/html](纯JS版)
2007/03/25 Javascript
js格式化货币数据实现代码
2013/09/04 Javascript
JS实现根据当前文字选择返回被选中的文字
2014/05/21 Javascript
JavaScript实现数据类型的相互转换
2016/03/06 Javascript
AngularJS指令用法详解
2016/11/02 Javascript
jQuery中 $ 符号的冲突问题及解决方案
2016/11/04 Javascript
利用Vue v-model实现一个自定义的表单组件
2017/04/27 Javascript
关于vue中的ajax请求和axios包问题
2018/04/19 Javascript
解决angularjs service中依赖注入$scope报错的问题
2018/10/02 Javascript
JavaScript数组特性与实践应用深入详解
2018/12/30 Javascript
js最全的数组的降维5种办法(小结)
2020/04/28 Javascript
JavaScript 获取滚动条位置并将页面滑动到锚点
2021/02/08 Javascript
[03:16]DOTA2完美大师赛小组赛精彩集锦
2017/11/22 DOTA
5种Python单例模式的实现方式
2016/01/14 Python
python遍历 truple list dictionary的几种方法总结
2016/09/11 Python
Python与人工神经网络:使用神经网络识别手写图像介绍
2017/12/19 Python
python按行读取文件,去掉每行的换行符\n的实例
2018/04/19 Python
Python实现删除排序数组中重复项的两种方法示例
2019/01/31 Python
python提取xml里面的链接源码详解
2019/10/15 Python
Python绘图之柱形图绘制详解
2020/07/28 Python
Python中的None与 NULL(即空字符)的区别详解
2020/09/24 Python
阿根廷旅游网站:almundo阿根廷
2018/02/12 全球购物
Currentbody西班牙:美容仪专家
2019/09/28 全球购物
俄罗斯在线购买飞机票、火车票、巴士票网站:Tutu.ru
2020/03/16 全球购物
住宅质量保证书
2014/04/29 职场文书
司法助理专业自荐书
2014/06/13 职场文书
2014第二批党员干部对照“四风”找差距检查材料思想汇报
2014/09/18 职场文书
简易离婚协议书范本2014
2014/10/15 职场文书
大学新生入学感想
2015/08/07 职场文书