python获取整个网页源码的方法


Posted in Python onAugust 03, 2020

1、Python中获取整个页面的代码:

import requests
res = requests.get('https://blog.csdn.net/yirexiao/article/details/79092355')
res.encoding = 'utf-8'
print(res.text)

2、运行结果

python获取整个网页源码的方法

实例扩展:

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
 websiteurl=url
 t=time.time()
 n=0
 html=urllib2.urlopen(websiteurl).read()
 soup=BeautifulSoup(html)
 pageurls=[]
 Upageurls={}
 pageurls=soup.find_all("a",href=True)
 for links in pageurls:
  if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
   Upageurls[links.get("href")]=0
 for links in Upageurls.keys():
  try:
   urllib2.urlopen(links).getcode()
  except:
   print "connect failed"
  else:
   t2=time.time()
   Upageurls[links]=urllib2.urlopen(links).getcode()
   print n,
   print links,
   print Upageurls[links]
   t1=time.time()
   print t1-t2
  n+=1
 print ("total is "+repr(n)+" links")
 print time.time()-t
scanpage(http://news.163.com/)

到此这篇关于python获取整个网页源码的方法的文章就介绍到这了,更多相关python如何获取整个页面内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python中使用成员运算符的示例
May 13 Python
利用python程序帮大家清理windows垃圾
Jan 15 Python
Python字典数据对象拆分的简单实现方法
Dec 05 Python
Python实现PS滤镜Fish lens图像扭曲效果示例
Jan 29 Python
python3实现字符串的全排列的方法(无重复字符)
Jul 07 Python
pandas.DataFrame的pivot()和unstack()实现行转列
Jul 06 Python
python项目对接钉钉SDK的实现
Jul 15 Python
python命令 -u参数用法解析
Oct 24 Python
Pytorch 计算误判率,计算准确率,计算召回率的例子
Jan 18 Python
Python-jenkins模块获取jobs的执行状态操作
May 12 Python
python 获取域名到期时间的方法步骤
Feb 10 Python
Python读取和写入Excel数据
Apr 20 Python
flask开启多线程的具体方法
Aug 02 #Python
基于opencv实现简单画板功能
Aug 02 #Python
django下创建多个app并设置urls方法
Aug 02 #Python
Django如何在不停机的情况下创建索引
Aug 02 #Python
如何用Anaconda搭建虚拟环境并创建Django项目
Aug 02 #Python
如何解决flask修改静态资源后缓存文件不能及时更改问题
Aug 02 #Python
Flask缓存静态文件的具体方法
Aug 02 #Python
You might like
PHP中路径问题的解决方案
2006/10/09 PHP
PHP闭包(Closure)使用详解
2013/05/02 PHP
关于更改Zend Studio/Eclipse代码风格主题的介绍
2013/06/23 PHP
PHP迭代器接口Iterator用法分析
2017/12/28 PHP
php实现根据身份证获取精准年龄
2020/02/26 PHP
使用正则替换变量
2007/05/05 Javascript
javascript题目,重写函数让其无限相加
2012/02/15 Javascript
JS实现商品倒计时实现代码
2013/05/03 Javascript
使用js画图之正弦曲线
2015/01/12 Javascript
JS实现网页滚动条感应鼠标变色的方法
2015/02/26 Javascript
javascript格式化日期时间方法汇总
2015/06/19 Javascript
Zero Clipboard实现浏览器复制到剪贴板的方法(多个复制按钮)
2016/03/24 Javascript
js中json处理总结之JSON.parse
2016/10/14 Javascript
JavaScript登录验证码的实现
2016/10/27 Javascript
NodeJS创建最简单的HTTP服务器
2017/05/15 NodeJs
vue2.0的contextmenu右键弹出菜单的实例代码
2017/07/24 Javascript
vue之父子组件间通信实例讲解(props、$ref、$emit)
2018/05/22 Javascript
如何通过setTimeout理解JS运行机制详解
2019/03/23 Javascript
解决vue-router 嵌套路由没反应的问题
2020/09/22 Javascript
python数据处理 根据颜色对图片进行分类的方法
2018/12/08 Python
python字典的setdefault的巧妙用法
2019/08/07 Python
python字典的遍历3种方法详解
2019/08/10 Python
Flask框架请求钩子与request请求对象用法实例分析
2019/11/07 Python
html5实现多文件的上传示例代码
2014/02/13 HTML / CSS
html5默认气泡修改的代码详解
2020/03/13 HTML / CSS
详解canvas.toDataURL()报错的解决方案全都在这了
2020/03/31 HTML / CSS
网络工程师面试(三木通信技术有限公司)
2013/06/05 面试题
介绍一下木马病毒的种类
2015/07/26 面试题
婚礼答谢宴主持词
2014/03/14 职场文书
技术股份合作协议书
2014/10/05 职场文书
师德师风自查材料
2014/10/14 职场文书
六年级学生期末评语
2014/12/26 职场文书
教师求职自荐信范文
2015/03/04 职场文书
辛德勒的名单观后感
2015/06/03 职场文书
升学宴学生致辞
2015/09/29 职场文书
Java详细解析==和equals的区别
2022/04/07 Java/Android