Python网络爬虫信息提取mooc代码实例


Posted in Python onMarch 06, 2020

实例一--爬取页面

import requests
url="https//itemjd.com/2646846.html"
try:
 r=requests.get(url)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[:1000])
except:
 print("爬取失败")

正常页面爬取

实例二--爬取页面

import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
 kv={'user-agent':'Mozilla/5.0'}
 r=requests.get(url,headers=kv)
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[1000:2000])
except:
 print("爬取失败")

对访问用户名有限制,模拟浏览器对网站请求

实例三--爬取搜索引擎

#百度的关键词接口:http://www.baidu.com/s?wd=keyword
#360的关键词接口:http://www.so.com/s?q=keyword
import requests
keyword="python"
try:
 kv={'wd':keyword}
 r=requests.get("http://www.baidu.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")
--------------------------------------------------
import requests
keyword="python"
try:
 kv={'q':keyword}
 r=requests.get("http://www.so.com/s",params=kv)
 print(r.request.url)
 r.raise_for_status()
 print(len(r.text))
except:
 print("爬取失败")

实例四--:爬取图片

import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="F://pics//"
path=root+url.split('/')[-1]
try:
 if not os.path.exists(root):
  os.mkdir(root)
 if not os.path.exists(path):
  r=requests.get(url)
  with open(path,'wb') as f:
   f.write(r.content)
   f.close()
   print("文件保存成功")
 else:
  print("文件已经存在")
except:
 print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询:

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
 r=requests.get(url+'202.204.80.112'+'&action=2')
 r.raise_for_status()
 r.encoding=r.apparent_encoding
 print(r.text[-500:])
except:
 print("爬取失败")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现动态添加类的属性或成员函数的解决方法
Jul 16 Python
python实现删除文件与目录的方法
Nov 10 Python
python通过字典dict判断指定键值是否存在的方法
Mar 21 Python
python结合selenium获取XX省交通违章数据的实现思路及代码
Jun 26 Python
Python编程scoketServer实现多线程同步实例代码
Jan 29 Python
python实现冒泡排序算法的两种方法
Mar 10 Python
python实现嵌套列表平铺的两种方法
Nov 08 Python
Python创建一个空的dataframe,并循环赋值的方法
Nov 08 Python
Python count函数使用方法实例解析
Mar 23 Python
使用TensorBoard进行超参数优化的实现
Jul 06 Python
Python连接mysql数据库及简单增删改查操作示例代码
Aug 03 Python
python用分数表示矩阵的方法实例
Jan 11 Python
appium+python adb常用命令分享
Mar 06 #Python
Python+appium框架原生代码实现App自动化测试详解
Mar 06 #Python
python使用paramiko实现ssh的功能详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
Mar 06 #Python
Python object类中的特殊方法代码讲解
Mar 06 #Python
python+Selenium自动化测试——输入,点击操作
Mar 06 #Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 #Python
You might like
晋城吧对DiscuzX进行的前端优化要点
2010/09/05 PHP
如何取得中文字符串中出现次数最多的子串
2013/08/08 PHP
自己写的兼容低于PHP 5.5版本的array_column()函数
2014/10/24 PHP
PHP7.0版本备注
2015/07/23 PHP
Yii清理缓存的方法
2016/01/06 PHP
js采用map取到id集合组并且实现点击一行选中一行
2013/12/16 Javascript
AngularJs表单验证实例详解
2016/05/30 Javascript
Node.js中npm常用命令大全
2016/06/09 Javascript
深入学习jQuery中的data()
2016/12/22 Javascript
详解照片瀑布流效果(js,jquery分别实现与知识点总结)
2017/01/01 Javascript
jQuery实现图片上传预览效果功能完整实例【测试可用】
2018/05/28 jQuery
微信小程序form表单组件示例代码
2018/07/15 Javascript
关于AngularJS中ng-repeat不更新视图的解决方法
2018/09/30 Javascript
手把手教你 CKEDITOR 4 扩展插件制作
2019/06/18 Javascript
Vue中keep-alive的两种应用方式
2020/07/15 Javascript
vue中路由跳转不计入history的操作
2020/09/21 Javascript
Python 的描述符 descriptor详解
2016/02/27 Python
Python自动化运维和部署项目工具Fabric使用实例
2016/09/18 Python
利用pandas将numpy数组导出生成excel的实例
2018/06/14 Python
Python开发最牛逼的IDE——pycharm
2018/08/01 Python
用Python shell简化开发
2018/08/08 Python
Python实现字典排序、按照list中字典的某个key排序的方法示例
2018/12/18 Python
解决Python中pandas读取*.csv文件出现编码问题
2019/07/12 Python
详解用Python为直方图绘制拟合曲线的两种方法
2019/08/21 Python
Python:type、object、class与内置类型实例
2019/12/25 Python
Python Mock模块原理及使用方法详解
2020/07/07 Python
python如何调用百度识图api
2020/09/29 Python
Pycharm添加虚拟解释器报错问题解决方案
2020/10/13 Python
CSS3色彩模式有哪些?CSS3 HSL色彩模式的定义
2016/04/26 HTML / CSS
input元素的url类型和email类型简介
2012/07/11 HTML / CSS
商务英语本科生的自我评价分享
2013/11/15 职场文书
2015年重阳节慰问信
2015/03/23 职场文书
送给小学生的暑假礼物!小学生必背99首古诗
2019/07/02 职场文书
英文诗歌翻译方法(赏析)
2019/08/16 职场文书
读《方与圆》有感:交友方圆有度
2020/01/14 职场文书
MySql重置root密码 --skip-grant-tables
2022/04/11 MySQL