Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pycharm 使用心得(一)安装和首次使用
Jun 05 Python
利用Psyco提升Python运行速度
Dec 24 Python
详解Python中的strftime()方法的使用
May 22 Python
Python中生成器和迭代器的区别详解
Feb 10 Python
解决Python selenium get页面很慢时的问题
Jan 30 Python
python实现的接收邮件功能示例【基于网易POP3服务器】
Sep 11 Python
Python爬取爱奇艺电影信息代码实例
Nov 26 Python
python中温度单位转换的实例方法
Dec 27 Python
Python爬虫后获取重定向url的两种方法
Jan 19 Python
利用Python批量识别电子账单数据的方法
Feb 08 Python
python实现Nao机器人的单目测距
Sep 04 Python
Python Pytorch查询图像的特征从集合或数据库中查找图像
Apr 09 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
PHP 图片上传代码
2011/09/13 PHP
解析PHP中常见的mongodb查询操作
2013/06/20 PHP
探究Laravel使用env函数读取环境变量为null的问题
2016/12/06 PHP
PHP中rename()函数的妙用讲解
2019/02/28 PHP
使用javascript创建快捷方式的简单实例
2013/08/09 Javascript
获取非最后一列td值并将title设为该值的方法
2013/10/30 Javascript
jquery实现更改表格行顺序示例
2014/04/30 Javascript
JSONP之我见
2015/03/24 Javascript
JavaScript获取表单内所有元素值的方法
2015/04/02 Javascript
jQuery热气球动画半透明背景的后台登录界面代码分享
2015/08/28 Javascript
jQuery实现灰蓝风格标准二级下拉菜单效果代码
2015/08/31 Javascript
JS根据浏览器窗口大小实时动态改变网页文字大小的方法
2016/02/25 Javascript
基于Vue的文字跑马灯组件(npm 组件包)
2017/05/24 Javascript
微信小程序日期选择器实例代码
2018/07/18 Javascript
记录一次开发微信网页分享的步骤
2019/05/07 Javascript
解决layer.confirm选择完之后消息框不消失的问题
2019/09/16 Javascript
Node.js中console.log()输出彩色字体的方法示例
2019/12/01 Javascript
解决vue页面渲染但dom没渲染的操作
2020/07/27 Javascript
基于NodeJS开发钉钉回调接口实现AES-CBC加解密
2020/08/20 NodeJs
[01:20:30]OG vs LGD 2018国际邀请赛淘汰赛BO3 第四场 8.26
2018/08/30 DOTA
python实现给字典添加条目的方法
2014/09/25 Python
Python实现爬取知乎神回复简单爬虫代码分享
2015/01/04 Python
python 全文检索引擎详解
2017/04/25 Python
详解Python最长公共子串和最长公共子序列的实现
2018/07/07 Python
Python常用爬虫代码总结方便查询
2019/02/25 Python
Pycharm操作Git及GitHub的步骤详解
2020/10/27 Python
详解Python模块化编程与装饰器
2021/01/16 Python
matplotlib之属性组合包(cycler)的使用
2021/02/24 Python
HTML5 Canvas 实现K线图的示例代码
2019/12/23 HTML / CSS
北美最大的参茸药食商城:德成行
2020/12/06 全球购物
施惠特软件测试面试题以及笔试题
2015/05/13 面试题
中医专业应届生求职信
2013/11/17 职场文书
收银出纳员岗位职责
2014/02/23 职场文书
住房租房协议书
2014/08/20 职场文书
招商银行工作证明
2015/06/17 职场文书
Python机器学习之逻辑回归
2021/05/11 Python