Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Socket编程入门教程
Jul 11 Python
Python判断操作系统类型代码分享
Nov 22 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 Python
Python编程中的文件操作攻略
Oct 16 Python
linux平台使用Python制作BT种子并获取BT种子信息的方法
Jan 20 Python
通过selenium抓取某东的TT购买记录并分析趋势过程解析
Aug 15 Python
Django xadmin开启搜索功能的实现
Nov 15 Python
python中的split()函数和os.path.split()函数使用详解
Dec 21 Python
pytorch-RNN进行回归曲线预测方式
Jan 14 Python
解决Opencv+Python cv2.imshow闪退问题
Apr 24 Python
Python -m参数原理及使用方法解析
Aug 21 Python
Python 如何实现数据库表结构同步
Sep 29 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
关于尾递归的使用详解
2013/05/02 PHP
PHP连接局域网MYSQL数据库的简单实例
2013/08/26 PHP
ThinkPHP之N方法实例详解
2014/06/20 PHP
javascript 动态数据下的锚点错位问题解决方法
2008/12/24 Javascript
jQuery验证Checkbox是否选中的代码 推荐
2011/09/04 Javascript
JS Loading功能的简单实现
2013/11/29 Javascript
jqGrid随窗口大小变化自适应大小的示例代码
2013/12/28 Javascript
js定时调用方法成功后并停止调用示例
2014/04/08 Javascript
js冒泡、捕获事件及阻止冒泡方法详细总结
2014/05/08 Javascript
EasyUi datagrid 实现表格分页
2015/02/10 Javascript
javascript感应鼠标图片透明度显示的方法
2015/02/24 Javascript
如何实现chrome浏览器关闭页面时弹出“确定要离开此面吗?”
2015/03/05 Javascript
jquery实现的美女拼图游戏实例
2015/05/04 Javascript
Js和JQuery获取鼠标指针坐标的实现代码分享
2015/05/25 Javascript
angularjs封装bootstrap时间插件datetimepicker
2016/06/20 Javascript
Vue.js第三天学习笔记(计算属性computed)
2016/12/01 Javascript
使用JavaScript触发过渡效果的方法
2017/01/19 Javascript
BootStrap表单验证 FormValidation 调整反馈图标位置的实例代码
2017/05/17 Javascript
Windows下快速搭建NodeJS本地服务器的步骤
2017/08/09 NodeJs
vue中使用vue-print.js实现多页打印
2020/03/05 Javascript
Python入门之三角函数atan2()函数详解
2017/11/08 Python
python遍历文件夹下所有excel文件
2018/01/03 Python
Python 中Pickle库的使用详解
2018/02/24 Python
Python实现的文本对比报告生成工具示例
2018/05/22 Python
Python logging模块用法示例
2018/08/28 Python
Python jieba库用法及实例解析
2019/11/04 Python
wxPython实现文本框基础组件
2019/11/18 Python
PyCharm 在Windows的有用快捷键详解
2020/04/07 Python
日本最大的彩色隐形眼镜销售网站:CharmColor
2020/09/09 全球购物
大学生实习期自我评价范文
2013/10/03 职场文书
上课迟到检讨书300字
2014/10/15 职场文书
工作感言一句话
2015/08/01 职场文书
MySQL 百万级数据的4种查询优化方式
2021/06/07 MySQL
MYSQL 运算符总结
2021/11/11 MySQL
利用Python多线程实现图片下载器
2022/03/25 Python
windows10声卡驱动怎么安装?win10声卡驱动安装操作步骤教程
2022/08/05 数码科技