Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现动态添加类的属性或成员函数的解决方法
Jul 16 Python
python3生成随机数实例
Oct 20 Python
利用Psyco提升Python运行速度
Dec 24 Python
举例讲解Python面相对象编程中对象的属性与类的方法
Jan 19 Python
windows系统下Python环境搭建教程
Mar 28 Python
Python 中Pickle库的使用详解
Feb 24 Python
30秒轻松实现TensorFlow物体检测
Mar 14 Python
使用python 3实现发送邮件功能
Jun 15 Python
pytorch GAN伪造手写体mnist数据集方式
Jan 10 Python
python函数定义和调用过程详解
Feb 09 Python
python通过文本在一个图中画多条线的实例
Feb 21 Python
django模型类中,null=True,blank=True用法说明
Jul 09 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
PHP基于curl模拟post提交json数据示例
2018/06/22 PHP
页面中js执行顺序
2009/11/09 Javascript
javascript中substr,substring,slice.splice的区别说明
2010/11/25 Javascript
javascript常用代码段搜集
2014/12/04 Javascript
js实现3D图片逐张轮播幻灯片特效代码分享
2015/09/09 Javascript
jquery自定义右键菜单、全选、不连续选择
2016/03/01 Javascript
JQuery对ASP.NET MVC数据进行更新删除
2016/07/13 Javascript
原生javascript实现的ajax异步封装功能示例
2016/11/03 Javascript
浅谈js在html中的加载执行顺序,多个jquery ready执行顺序
2016/11/26 Javascript
Vue.js基础学习之class与样式绑定
2017/03/20 Javascript
Require.JS中的几种define定义方式示例
2017/06/01 Javascript
简单谈谈关于Angular Cli打包的事
2017/09/05 Javascript
vue引入新版 vue-awesome-swiper插件填坑问题
2018/01/25 Javascript
关于js对textarea换行符的处理方法浅析
2018/08/03 Javascript
基于js实现判断浏览器类型代码实例
2020/07/17 Javascript
[00:12]2018DOTA2亚洲邀请赛SOLO赛 MidOne是否中单第一人?
2018/04/05 DOTA
matplotlib给子图添加图例的方法
2018/08/03 Python
Python对ElasticSearch获取数据及操作
2019/04/24 Python
连接pandas以及数组转pandas的方法
2019/06/28 Python
python 监控logcat关键字功能
2020/09/04 Python
用python实现一个简单的验证码
2020/12/09 Python
前端面试必备之html5的新特性
2017/09/05 HTML / CSS
HTML5实现WebSocket协议原理浅析
2014/07/07 HTML / CSS
在HTML5中使用MathML数学公式的简单讲解
2016/02/19 HTML / CSS
Canvas多边形绘制的实现方法
2019/08/05 HTML / CSS
广州喜创信息技术有限公司JAVA软件工程师笔试题
2012/10/17 面试题
公益活动策划方案
2014/01/09 职场文书
秋季运动会活动方案
2014/02/05 职场文书
关于群众路线的心得体会
2014/11/05 职场文书
2014年电信员工工作总结
2014/12/19 职场文书
会议欢迎词范文
2015/01/27 职场文书
出国导师推荐信
2015/03/25 职场文书
第一节英语课开场白
2015/06/01 职场文书
征求意见函
2015/06/05 职场文书
致我们终将逝去的青春观后感
2015/06/10 职场文书
Win10服务全部禁用了怎么启动?Win10服务全部禁用解决方法
2022/09/23 数码科技