编程 Python

Python实现一个论文下载器的过程

Posted in Python onJanuary 18, 2021

在科研学习的过程中，我们难免需要查询相关的文献资料，而想必很多小伙伴都知道SCI-HUB，此乃一大神器，它可以帮助我们搜索相关论文并下载其原文。可以说，SCI-HUB造福了众多科研人员，用起来也是“美滋滋”。

Python实现一个论文下载器的过程

然而，当师姐告诉我：“xx，可以帮我下载几篇文献嘛?”。乐心助人的我自当是满口答应了，心想：“这种小事就交给我叭~”

于是乎，我收到了一个excel文档，66篇论文的列表安静地趟在里面（此刻心中碎碎念：“这尼玛，是几篇嘛...”）。我粗略算了一下，复制、粘贴、下载，一套流程走下来，每篇论文少说也得30秒，66篇的话....啊，这不能忍！

很显然，一篇一篇的下载，不是我的风格所以，我决定写一个论文下载器助我前行。

Python实现一个论文下载器的过程

一、代码分析

代码分析的详细思路跟以往依旧如此雷同，逃不过的还是：抓包分析->模拟请求->代码整合。由于一会儿kimol君还得去搬砖，今天就不详细展开了。

1. 搜索论文

通过论文的URL、PMID、DOI号或者论文标题等搜索到对应的论文，并通过bs4库找出PDF原文的链接地址，代码如下：

def search_article(artName):
 '''
 搜索论文
 ---------------
 输入：论文名
 ---------------
 输出：搜索结果（如果没有返回""，否则返回PDF链接）
 '''
 url = 'https://www.sci-hub.ren/'
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Content-Type':'application/x-www-form-urlencoded',
    'Content-Length':'123',
    'Origin':'https://www.sci-hub.ren',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 data = {'sci-hub-plugin-check':'',
   'request':artName}
 res = requests.post(url, headers=headers, data=data)
 html = res.text
 soup = BeautifulSoup(html, 'html.parser')
 iframe = soup.find(id='pdf')
 if iframe == None: # 未找到相应文章
  return ''
 else:
  downUrl = iframe['src']
  if 'http' not in downUrl:
   downUrl = 'https:'+downUrl
  return downUrl

2. 下载论文

得到了论文的链接地址之后，只需要通过requests发送一个请求，即可将其下载：

def download_article(downUrl):
 '''
 根据论文链接下载文章
 ----------------------
 输入：论文链接
 ----------------------
 输出：PDF文件二进制
 '''
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 res = requests.get(downUrl, headers=headers)
 return res.content

二、完整代码

将上述两个函数整合之后，我的完整代码如下：

# -*- coding: utf-8 -*-
"""
Created on Tue Jan 5 16:32:22 2021
@author: kimol_love
"""
import os
import time
import requests
from bs4 import BeautifulSoup
 
def search_article(artName):
 '''
 搜索论文
 ---------------
 输入：论文名
 ---------------
 输出：搜索结果（如果没有返回""，否则返回PDF链接）
 '''
 url = 'https://www.sci-hub.ren/'
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Content-Type':'application/x-www-form-urlencoded',
    'Content-Length':'123',
    'Origin':'https://www.sci-hub.ren',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 data = {'sci-hub-plugin-check':'',
   'request':artName}
 res = requests.post(url, headers=headers, data=data)
 html = res.text
 soup = BeautifulSoup(html, 'html.parser')
 iframe = soup.find(id='pdf')
 if iframe == None: # 未找到相应文章
  return ''
 else:
  downUrl = iframe['src']
  if 'http' not in downUrl:
   downUrl = 'https:'+downUrl
  return downUrl
  
def download_article(downUrl):
 '''
 根据论文链接下载文章
 ----------------------
 输入：论文链接
 ----------------------
 输出：PDF文件二进制
 '''
 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate, br',
    'Connection':'keep-alive',
    'Upgrade-Insecure-Requests':'1'}
 res = requests.get(downUrl, headers=headers)
 return res.content
 
def welcome():
 '''
 欢迎界面
 '''
 os.system('cls')
 title = '''
    _____ _____ _____  _ _ _ _ ____ 
    / ____|/ ____|_ _| | | | | | | | _ \ 
    | (___ | |  | |______| |__| | | | | |_) |
    \___ \| |  | |______| __ | | | | _ < 
    ____) | |____ _| |_  | | | | |__| | |_) |
    |_____/ \_____|_____| |_| |_|\____/|____/
    
   '''
 print(title)
 
if __name__ == '__main__':
 while True:
  welcome()
  request = input('请输入URL、PMID、DOI或者论文标题：')
  print('搜索中...')
  downUrl = search_article(request)
  if downUrl == '':
   print('未找到相关论文，请重新搜索！')
  else:
   print('论文链接：%s'%downUrl)
   print('下载中...')
   pdf = download_article(downUrl)
   with open('%s.pdf'%request, 'wb') as f:
    f.write(pdf)
   print('---下载完成---')
  time.sleep(0.8)

不出所料，代码一跑，我便轻松完成了师姐交给我的任务，不香嘛？

到此这篇关于Python实现一个论文下载器的过程的文章就介绍到这了,更多相关python论文下载器内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python实现一个论文下载器的过程

- Author -

程序猿小白^

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中用keys()方法返回字典键的教程

May 21 Python

Python在不同目录下导入模块的实现方法

Oct 27 Python

Python使用wxPython实现计算器

Jan 30 Python

解决matplotlib库show()方法不显示图片的问题

May 24 Python

Python实现模拟浏览器请求及会话保持操作示例

Jul 30 Python

python 构造三维全零数组的方法

Nov 12 Python

对python 自定义协议的方法详解

Feb 13 Python

PyTorch中反卷积的用法详解

Dec 30 Python

代码总结Python2 和 Python3 字符串的区别

Jan 28 Python

python实现全排列代码(回溯、深度优先搜索)

Feb 26 Python

Python实现屏幕录制功能的代码

Mar 02 Python

使用PyCharm官方中文语言包汉化PyCharm

Nov 18 Python

利用python为PostgreSQL的表自动添加分区

Jan 18 #Python

如何查看python关键字

Jan 17 #Python

Python日志打印里logging.getLogger源码分析详解

Jan 17 #Python

Python中的面向接口编程示例详解

Jan 17 #Python

Python学习之time模块的基本使用

Jan 17 #Python

python中re模块知识点总结

Jan 17 #Python

史上最详细的Python打包成exe文件教程

Jan 17 #Python

You might like

特详细的PHPMYADMIN简明安装教程

2008/08/01 PHP

PHP Mysql编程之高级技巧

2008/08/27 PHP

PHP 错误之引号中使用变量

2009/05/04 PHP

在WINDOWS中设置计划任务执行PHP文件的方法

2011/12/19 PHP

如何使用jQuery+PHP+MySQL来实现一个在线测试项目

2015/04/26 PHP

brook javascript框架介绍

2011/10/10 Javascript

jQuery filter函数使用方法

2014/05/19 Javascript

Jquery修改页面标题title其它JS失效的解决方法

2014/10/31 Javascript

node.js中的http.createClient方法使用说明

2014/12/15 Javascript

JavaScript中的方法调用详细介绍

2014/12/30 Javascript

JS实现从表格中动态删除指定行的方法

2015/03/31 Javascript

javascript中判断json的方法总结

2015/08/27 Javascript

基于jQuery实现左侧菜单栏可折叠功能

2016/12/27 Javascript

jQuery实现判断上传图片类型和大小的方法示例

2018/04/11 jQuery

JS弹窗 JS弹出DIV并使整个页面背景变暗功能的实现代码

2018/04/21 Javascript

使用vue中的混入mixin优化表单验证插件问题

2019/07/02 Javascript

JavaScript适配器模式原理与用法实例详解

2020/03/09 Javascript

[51:10]VP vs VGJ.S 2018国际邀请赛小组赛BO2 第二场 8.19

2018/08/21 DOTA

python将图片文件转换成base64编码的方法

2015/03/14 Python

python中numpy基础学习及进行数组和矢量计算

2017/02/12 Python

python pygame实现2048游戏

2018/11/20 Python

python+opencv实现阈值分割

2018/12/26 Python

PyTorch中的padding(边缘填充)操作方式

2020/01/03 Python

如何解决安装python3.6.1失败

2020/07/01 Python

CSS3解析抖音LOGO制作的方法步骤

2019/04/11 HTML / CSS

StubHub墨西哥：购买和出售您的门票

2016/09/17 全球购物

工程学毕业生自荐信

2014/06/14 职场文书

2015年员工试用期工作总结

2014/12/12 职场文书

2014年政工师工作总结

2014/12/18 职场文书

院系推荐意见

2015/06/05 职场文书

鸦片战争观后感

2015/06/09 职场文书

课程设计感想范文

2015/08/11 职场文书

MySQL注入基础练习

2021/05/30 MySQL

CSS+HTML 实现顶部导航栏功能

2021/08/30 HTML / CSS

根德5570型九灯四波段立体声收音机是电子管收音机的楷模 ? 再论5570

2022/04/05 无线电

蓝牙耳机怎么连接电脑win11? Win11蓝牙耳机连接电脑的技巧

2023/01/09 数码科技