Python爬虫常用库的安装及其环境配置


Posted in Python onSeptember 19, 2018

Python常用库的安装

urllib、re 这两个库是Python的内置库,直接使用方法import导入即可。

在python中输入如下代码:

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回结果为HTTPResponse的对象:

<http.client.HTTPResponse object at 0x000001929C7525F8>

正则表达式模块

import re

该库为python自带的库,直接运行不报错,证明该库正确安装。

requests这个库是请求的库

我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证

>>> import requests
>>> requests.get('http://www.baidu.com')
<Response [200]>

selenium实际上是用来浏览器的一个库

做爬虫时可能会碰到使用JS渲染的网页,使用requests来请求时,可能无法正常获取内容,我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3  install selenium安装。进行验证

>>> import selenium
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
>>> driver.get('http://www.baidu.com')

上述命令可以直接打开chrome浏览器,并且打开百度。但是,在这之前我们必须安装一个chromedriver,并且安装googlchrome浏览器,可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况,那么问题出在,chrome和chromdriver的版本不兼容,可以在官网下载chrome更高的版本,或者chromedriver更低的版本,但是只要都是最高版本就没问题。
如何查看本机的chrome的版本,具体方法如下:

Python爬虫常用库的安装及其环境配置

chromedriver的下载地址如下:
http://chromedriver.storage.googleapis.com/index.html
chromedriver解压后放到Python或者其他配置了环境变量的目录下。 

phantomjs是一个无界面浏览器,在后台运行

可在官网自行下载。并且需要将phantomjs.exe  的所在目录设为环境变量。测试代码

>>> from selenium import webdriver
>>> driver = webdriver.PhantomJS()
>>> driver.get('http://www.baidu.com')
>>> driver.page_source
'<!DOCTYPE html><!--STATUS OK--><html><head>\n

lxml

使用pip3 install lxml安装

beautifulsoup是一个网络解析库,依赖于lxml库

使用pip3安装。必须安装pip3 install beautifulsoup4,因为beautifulsoup已经停止维护了。安装验证

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html></html>','lxml')
>>>

pyquery也是网页解析库

较bs4更加方便,语法和Jquery无异。也是使用pip3 安装

>>> from pyquery import PyQuery as pq #将其重命名
>>> doc = pq('<html></html>')
>>> doc = pq('<html>hello world</html>')
>>> result = doc('html').text()
>>> result
'hello world'

pymysql是一个操作mysql数据库的库

使用pip3 安装

>>> import pymysql
>>> conn = pymysql.connect(host='localhost',user='root',password = '123456',port=3306,db='mysql')
>>> cursor = conn.cursor()
>>> cursor.execute('select * from db')
0

pymongo操作数据库MongoDB的库

需要开启MongoDB服务,在计算机管理当中的服务寻找。也是使用pip3安装

>>> import pymongo
>>> client = pymongo.MongoClient('localhost')
>>> db = client['newtestdb']
>>> db['table'].insert({'name':'tom'})
ObjectId('5b868ee4c4d17a0b2466f748')
>>> db['table'].find_one({'name':'tom'})
{'_id': ObjectId('5b868ee4c4d17a0b2466f748'), 'name': 'tom'}
>>> #完成了单条数据的查询

redis一个非关系型数据库,运行效率高

使用pip3 install redis安装

>>> import redis
>>> r = redis.Redis ('localhost',6379)
>>> r.set('name','tom')
True
>>> r.get('name')
b'tom'
>>> #是一个byte型数据类型

flask做代理时可能会用到

详细内容可以在flask官网查看flask文档

使用pip3 安装pip3 install flask

django是一个web服务器框架

提供了一个完整的后台管理,引擎、接口等,可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装

jupyter 可以理解为一个记事本

运行网页端,可以进行写代码,调试,运行。在官网可以下载jupyter,也可以用pip3 安装,相关库非常多,安装比较久。安装后可以在命令行直接运行jupyter notebook,因为此文件在scrips目录下。
C:\Users\dell>jupyter notebook
[I 20:32:37.552 NotebookApp] The port 8888 is already in use, trying another port.
[I 20:32:37.703 NotebookApp] Serving notebooks from local directory: C:\Users\dell

Python爬虫常用库的安装及其环境配置

可以在选项  new   中建立新python3文件,并且可以编写代码。

Python爬虫常用库的安装及其环境配置

默认的文件名为unite,此处将其改为testDemo,使用快捷键ctrl+回车 运行,按键B跳转至新的编辑行。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python sys模块sys.path使用方法示例
Dec 04 Python
如何将python中的List转化成dictionary
Aug 15 Python
python Pygame的具体使用讲解
Nov 03 Python
Python读写docx文件的方法
May 08 Python
基于python神经卷积网络的人脸识别
May 24 Python
Python3爬虫之urllib携带cookie爬取网页的方法
Dec 28 Python
pyinstaller打包单个exe后无法执行错误的解决方法
Jun 21 Python
pymysql模块的使用(增删改查)详解
Sep 09 Python
Python3 中sorted() 函数的用法
Mar 24 Python
解决windows上安装tensorflow时报错,“DLL load failed: 找不到指定的模块”的问题
May 20 Python
Python 如何展开嵌套的序列
Aug 01 Python
利用Python实现朋友圈中的九宫格图片效果
Sep 03 Python
Python开发虚拟环境使用virtualenvwrapper的搭建步骤教程图解
Sep 19 #Python
python3.6.3安装图文教程 TensorFlow安装配置方法
Jun 24 #Python
Windows 64位下python3安装nltk模块
Sep 19 #Python
win10 64bit下python NLTK安装教程
Sep 19 #Python
Windows下Anaconda2安装NLTK教程
Sep 19 #Python
浅述python2与python3的简单区别
Sep 19 #Python
NLTK 3.2.4 环境搭建教程
Sep 19 #Python
You might like
隐藏你的.php文件的实现方法
2007/03/19 PHP
分享一个Laravel好用的Cache宏
2015/03/02 PHP
PHP aes (ecb)解密后乱码问题
2015/06/22 PHP
PHP实现接收二进制流转换成图片的方法
2017/01/10 PHP
PHP实现的一致性Hash算法详解【分布式算法】
2018/03/31 PHP
javascript setAttribute, getAttribute 在不同浏览器上的不同表现
2010/08/05 Javascript
js关于命名空间的函数实例
2015/02/05 Javascript
JQuery简单实现锚点链接的平滑滚动
2015/05/03 Javascript
javascript控制图片播放的实现代码
2020/07/29 Javascript
基于BootStrap Metronic开发框架经验小结【八】框架功能总体界面介绍
2016/05/12 Javascript
jQuery+PHP实现微信转盘抽奖功能的方法
2016/05/25 Javascript
浅谈js中子页面父页面方法 变量相互调用
2016/08/04 Javascript
Javascript中arguments对象的详解与使用方法
2016/10/04 Javascript
分享一道关于闭包、bind和this的面试题
2017/02/20 Javascript
基于JavaScript实现带数据验证和复选框的表单提交
2017/08/23 Javascript
vue-for循环嵌套操作示例
2019/01/28 Javascript
jQuery动态生成的元素绑定事件操作实例分析
2019/05/04 jQuery
[01:01:41]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Magma BO3 第二场 1月31日
2021/03/11 DOTA
python django集成cas验证系统
2014/07/14 Python
Python调用C语言开发的共享库方法实例
2015/03/18 Python
使用Python快速搭建HTTP服务和文件共享服务的实例讲解
2018/06/04 Python
对Python 数组的切片操作详解
2018/07/02 Python
python实现单链表中删除倒数第K个节点的方法
2018/09/28 Python
python+selenium 点击单选框-radio的实现方法
2019/09/03 Python
使用PyOpenGL绘制三维坐标系实例
2019/12/24 Python
解决python-docx打包之后找不到default.docx的问题
2020/02/13 Python
python sitk.show()与imageJ结合使用常见的问题
2020/04/20 Python
Python修改DBF文件指定列
2020/12/19 Python
BOSE德国官网:尽探索之力,享音乐之极
2016/12/11 全球购物
美国汽车轮胎和轮毂销售网站:Tire Rack
2018/01/11 全球购物
庆元旦广播稿
2014/02/10 职场文书
机关干部三严三实心得体会
2014/10/13 职场文书
开展警示教育活动总结
2015/05/09 职场文书
幼儿园六一儿童节主持词
2015/06/30 职场文书
Python使用random模块实现掷骰子游戏的示例代码
2021/04/29 Python
Python使用DFA算法过滤内容敏感词
2022/04/22 Python