Python爬虫将爬取的图片写入world文档的方法


Posted in Python onNovember 07, 2018

作为初学爬虫的我,无论是爬取文字还是图片,都可以游刃有余的做到,但是爬虫所爬取的内容往往不是单独的图片或者文字,于是我就想是否可以将图文保存至world文档里,一开始使用了如下方法保存图片:

with open('123.doc','wb')as file:
  file.write(response.content)
  file.close()

结果就是,world文档里出现了一堆乱码,此法不同,我就开始另寻他法,找了很久也没有找到,只找到了关于Python操作world的方法。

于是我就开始了新的思路:使用原来的方法将图片保存下来,再将图片添加到world文档里,最后将图片删除。这里使用的是python-dox库,代码如下:

import requests
from bs4 import BeautifulSoup
import os
import docx
from docx import Document
from docx.shared import Inches

url = 'https://www.qiushibaike.com/article/119757360'
html = requests.get(url).content
soup = BeautifulSoup(html,'html.parser')
wen = soup.find('div',{"class":"content"}).text
img = str(soup.find('div',{"class":"thumb"})).split('src="')[1].split('"/')[0]
tu = 'https:' + img
img_name = img.split('/')[-1]

#保存图片至本地
with open(img_name,'wb')as f:
 response = requests.get(tu).content
 f.write(response)
 f.close()

document = Document()
document.add_paragraph(wen)#向文档里添加文字
document.add_picture(img_name)#向文档里添加图片
document.save('tuwen.doc')#保存文档
os.remove(img_name)#删除保存在本地的图片

最后,还是实现了将图文保存在了world文档里,尽管方法有些笨……

以上这篇Python爬虫将爬取的图片写入world文档的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用opencv读取图片的实例
Aug 17 Python
Python 使用with上下文实现计时功能
Mar 09 Python
Python判断中文字符串是否相等的实例
Jul 06 Python
Python 生成 -1~1 之间的随机数矩阵方法
Aug 04 Python
Python read函数按字节(字符)读取文件的实现
Jul 03 Python
python列表推导式操作解析
Nov 26 Python
Tensorflow 实现分批量读取数据
Jan 04 Python
Django中从mysql数据库中获取数据传到echarts方式
Apr 07 Python
Python Request类源码实现方法及原理解析
Aug 17 Python
python实现每天自动签到领积分的示例代码
Aug 18 Python
python字符串拼接+和join的区别详解
Dec 03 Python
python中xlrd模块的使用详解
Feb 01 Python
使用python批量读取word文档并整理关键信息到excel表格的实例
Nov 07 #Python
使用PM2+nginx部署python项目的方法示例
Nov 07 #Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 #Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 #Python
python 返回列表中某个值的索引方法
Nov 07 #Python
pandas 根据列的值选取所有行的示例
Nov 07 #Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 #Python
You might like
php筛选不存在的图片资源
2015/04/28 PHP
PHP 反射(Reflection)使用实例
2015/05/12 PHP
PHP中foreach()用法汇总
2015/07/02 PHP
Codeigniter控制器controller继承问题实例分析
2016/01/19 PHP
PHP最常用的正则表达式
2017/02/13 PHP
PHP基于SimpleXML生成和解析xml的方法示例
2017/07/17 PHP
浅谈PHP array_search 和 in_array 函数效率问题
2019/10/15 PHP
Domino中运用jQuery读取视图内容的方法
2009/10/21 Javascript
JavaScript 开发规范要求(图文并茂)
2010/06/11 Javascript
jquery实现一个简单的表单验证实例
2016/03/30 Javascript
JS模拟实现方法重载示例
2016/08/03 Javascript
利用Js的console对象,在控制台打印调式信息测试Js的实现
2016/11/26 Javascript
深入理解javascript中的 “this”
2017/01/17 Javascript
Bootstrap treeview实现动态加载数据并添加快捷搜索功能
2018/01/07 Javascript
vue 使用eventBus实现同级组件的通讯
2018/03/02 Javascript
实例详解Node.js 函数
2018/06/10 Javascript
运用js实现图层拖拽的功能
2019/05/24 Javascript
vue实现div可拖动位置也可改变盒子大小的原理
2020/09/16 Javascript
Nodejs在局域网配置https访问的实现方法
2020/10/17 NodeJs
浅谈vue在html中出现{{}}的原因及解决方式
2020/11/16 Javascript
[03:03]2014DOTA2西雅图国际邀请赛 Alliance战队巡礼
2014/07/07 DOTA
[44:09]DOTA2上海特级锦标赛A组小组赛#1 EHOME VS MVP.Phx第二局
2016/02/25 DOTA
[47:50]Secret vs VP 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
Python实现字典去除重复的方法示例
2017/07/31 Python
Python2包含中文报错的解决方法
2018/07/09 Python
Python中反射和描述器总结
2018/09/23 Python
解决python3.x安装numpy成功但import出错的问题
2020/11/17 Python
韩国演唱会订票网站:StubHub韩国
2019/01/17 全球购物
广州某公司软件工程师面试题
2014/12/22 面试题
成人教育自我鉴定
2013/11/01 职场文书
硕士研究生自我鉴定
2013/11/08 职场文书
安全宣传标语口号
2014/06/06 职场文书
2015年前台接待工作总结
2015/05/04 职场文书
热爱劳动主题班会
2015/08/14 职场文书
MySQL优化常用的19种有效方法(推荐!)
2022/03/17 MySQL
Oracle 11g数据库使用expdp每周进行数据备份并上传到备份服务器
2022/06/28 Oracle