Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的二维码生成小软件
Jul 11 Python
Python标准库之Sys模块使用详解
May 23 Python
python中zip()方法应用实例分析
Apr 16 Python
Python模块WSGI使用详解
Feb 02 Python
深入理解Python爬虫代理池服务
Feb 28 Python
提升Python程序性能的7个习惯
Apr 14 Python
PyTorch基本数据类型(一)
May 22 Python
Python3.7 读取 mp3 音频文件生成波形图效果
Nov 05 Python
Python多线程threading join和守护线程setDeamon原理详解
Mar 18 Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 Python
详解python定时简单爬取网页新闻存入数据库并发送邮件
Nov 27 Python
Python控制台输出俄罗斯方块的方法实例
Apr 17 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
基于php导出到Excel或CSV的详解(附utf8、gbk 编码转换)
2013/06/25 PHP
PHP写的简单数字验证码实例
2017/05/23 PHP
浅析PHP类的反射来实现依赖注入过程
2018/02/06 PHP
DOM 基本方法
2009/07/18 Javascript
javascript中对Attr(dom中属性)的操作示例讲解
2013/12/02 Javascript
实现网页页面跳转的几种方法(meta标签、js实现、php实现)
2014/05/20 Javascript
基于Jquery代码实现支持PC端手机端幻灯片代码
2015/11/17 Javascript
jquery trigger函数执行两次的解决方法
2016/02/29 Javascript
使用jQuery实现Web页面换肤功能的要点解析
2016/05/12 Javascript
js控制文本框只能输入中文、英文、数字与指定特殊符号的实现代码
2016/09/09 Javascript
详解Vue监听数据变化原理
2017/03/08 Javascript
vue.js学习之vue-cli定制脚手架详解
2017/07/02 Javascript
微信小程序 数据绑定及运算的简单实例
2017/09/20 Javascript
详解http访问解析流程原理
2017/10/18 Javascript
js中的闭包学习心得
2018/02/06 Javascript
浅入深出Vue之自动化路由
2019/08/06 Javascript
Layui选项卡制作历史浏览记录的方法
2019/09/28 Javascript
解决Layui数据表格显示无数据提示的问题
2019/11/14 Javascript
[00:59]DOTA2荣耀之路1:Doom is back!weapon X!
2018/05/22 DOTA
python实现巡检系统(solaris)示例
2014/04/02 Python
分享15个最受欢迎的Python开源框架
2014/07/13 Python
一步步解析Python斗牛游戏的概率
2016/02/12 Python
Python使用Turtle模块绘制五星红旗代码示例
2017/12/11 Python
Python获取二维矩阵每列最大值的方法
2018/04/03 Python
python实现输出一个序列的所有子序列示例
2019/11/18 Python
python的json中方法及jsonpath模块用法分析
2019/12/06 Python
Java多线程实现四种方式原理详解
2020/06/02 Python
Python基于Twilio及腾讯云实现国际国内短信接口
2020/06/18 Python
python开根号实例讲解
2020/08/30 Python
New Balance美国官网:运动鞋和健身服装
2017/04/11 全球购物
Theo + George官方网站:都柏林时尚品牌
2019/04/08 全球购物
文科教师毕业的自我评价
2014/01/16 职场文书
党员教师工作决心书
2014/03/13 职场文书
工资证明格式模板
2015/06/12 职场文书
2015双创工作总结
2015/07/24 职场文书
详解flex:1什么意思
2022/07/23 HTML / CSS