编程 Python

Python爬虫常用库的安装及其环境配置

Posted in Python onSeptember 19, 2018

Python常用库的安装

urllib、re 这两个库是Python的内置库，直接使用方法import导入即可。

在python中输入如下代码：

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回结果为HTTPResponse的对象：

<http.client.HTTPResponse object at 0x000001929C7525F8>

正则表达式模块

import re

该库为python自带的库，直接运行不报错，证明该库正确安装。

requests这个库是请求的库

我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下，我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证

>>> import requests
>>> requests.get('http://www.baidu.com')
<Response [200]>

selenium实际上是用来浏览器的一个库

做爬虫时可能会碰到使用JS渲染的网页，使用requests来请求时，可能无法正常获取内容，我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3 install selenium安装。进行验证

>>> import selenium
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
>>> driver.get('http://www.baidu.com')

上述命令可以直接打开chrome浏览器，并且打开百度。但是，在这之前我们必须安装一个chromedriver，并且安装googlchrome浏览器，可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况，那么问题出在，chrome和chromdriver的版本不兼容，可以在官网下载chrome更高的版本，或者chromedriver更低的版本，但是只要都是最高版本就没问题。
如何查看本机的chrome的版本，具体方法如下：

Python爬虫常用库的安装及其环境配置

chromedriver的下载地址如下：
http://chromedriver.storage.googleapis.com/index.html
chromedriver解压后放到Python或者其他配置了环境变量的目录下。

phantomjs是一个无界面浏览器，在后台运行

可在官网自行下载。并且需要将phantomjs.exe 的所在目录设为环境变量。测试代码

>>> from selenium import webdriver
>>> driver = webdriver.PhantomJS()
>>> driver.get('http://www.baidu.com')
>>> driver.page_source
'<!DOCTYPE html><!--STATUS OK--><html><head>\n

lxml

使用pip3 install lxml安装

beautifulsoup是一个网络解析库，依赖于lxml库

使用pip3安装。必须安装pip3 install beautifulsoup4，因为beautifulsoup已经停止维护了。安装验证

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html></html>','lxml')
>>>

pyquery也是网页解析库

较bs4更加方便，语法和Jquery无异。也是使用pip3 安装

>>> from pyquery import PyQuery as pq #将其重命名
>>> doc = pq('<html></html>')
>>> doc = pq('<html>hello world</html>')
>>> result = doc('html').text()
>>> result
'hello world'

pymysql是一个操作mysql数据库的库

使用pip3 安装

>>> import pymysql
>>> conn = pymysql.connect(host='localhost',user='root',password = '123456',port=3306,db='mysql')
>>> cursor = conn.cursor()
>>> cursor.execute('select * from db')
0

pymongo操作数据库MongoDB的库

需要开启MongoDB服务，在计算机管理当中的服务寻找。也是使用pip3安装

>>> import pymongo
>>> client = pymongo.MongoClient('localhost')
>>> db = client['newtestdb']
>>> db['table'].insert({'name':'tom'})
ObjectId('5b868ee4c4d17a0b2466f748')
>>> db['table'].find_one({'name':'tom'})
{'_id': ObjectId('5b868ee4c4d17a0b2466f748'), 'name': 'tom'}
>>> #完成了单条数据的查询

redis一个非关系型数据库，运行效率高

使用pip3 install redis安装

>>> import redis
>>> r = redis.Redis ('localhost',6379)
>>> r.set('name','tom')
True
>>> r.get('name')
b'tom'
>>> #是一个byte型数据类型

flask做代理时可能会用到

详细内容可以在flask官网查看flask文档

使用pip3 安装pip3 install flask

django是一个web服务器框架

提供了一个完整的后台管理，引擎、接口等，可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装

jupyter 可以理解为一个记事本

运行网页端，可以进行写代码，调试，运行。在官网可以下载jupyter，也可以用pip3 安装，相关库非常多，安装比较久。安装后可以在命令行直接运行jupyter notebook，因为此文件在scrips目录下。
C:\Users\dell>jupyter notebook
[I 20:32:37.552 NotebookApp] The port 8888 is already in use, trying another port.
[I 20:32:37.703 NotebookApp] Serving notebooks from local directory: C:\Users\dell

Python爬虫常用库的安装及其环境配置

可以在选项 new 中建立新python3文件，并且可以编写代码。

Python爬虫常用库的安装及其环境配置

默认的文件名为unite，此处将其改为testDemo，使用快捷键ctrl+回车运行，按键B跳转至新的编辑行。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python爬虫常用库的安装及其环境配置

- Author -

大大焕

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 实现删除文件或文件夹实例详解

Dec 04 Python

详解Python中的静态方法与类成员方法

Feb 28 Python

利用python3随机生成中文字符的实现方法

Nov 24 Python

Python语言实现百度语音识别API的使用实例

Dec 13 Python

django中send_mail功能实现详解

Feb 06 Python

使用Pyinstaller转换.py文件为.exe可执行程序过程详解

Aug 06 Python

python 实现手机自动拨打电话的方法(通话压力测试)

Aug 08 Python

运行tensorflow python程序,限制对GPU和CPU的占用操作

Feb 06 Python

python numpy--数组的组合和分割实例

Feb 24 Python

Python Socketserver实现FTP文件上传下载代码实例

Mar 27 Python

django queryset相加和筛选教程

May 18 Python

在Django中自定义filter并在template中的使用详解

May 19 Python

Python开发虚拟环境使用virtualenvwrapper的搭建步骤教程图解

Sep 19 #Python

python3.6.3安装图文教程 TensorFlow安装配置方法

Jun 24 #Python

Windows 64位下python3安装nltk模块

Sep 19 #Python

win10 64bit下python NLTK安装教程

Sep 19 #Python

Windows下Anaconda2安装NLTK教程

Sep 19 #Python

浅述python2与python3的简单区别

Sep 19 #Python

NLTK 3.2.4 环境搭建教程

Sep 19 #Python

You might like

PHP新手上路（十四）

2006/10/09 PHP

php使用sql server验证连接数据库的方法

2014/12/25 PHP

PHP下载远程文件到本地存储的方法

2015/03/24 PHP

PHP 模拟登陆功能实例详解

2019/09/10 PHP

阻止事件(取消浏览器对事件的默认行为并阻止其传播)

2013/11/03 Javascript

jquery中html、val与text三者属性取值的联系与区别介绍

2013/12/29 Javascript

分享2个jQuery插件--jquery.fileupload与artdialog

2014/12/26 Javascript

javascript中html字符串转化为jquery dom对象的方法

2015/08/27 Javascript

jquery模拟实现鼠标指针停止运动事件

2016/01/12 Javascript

jQuery插件EasyUI获取当前Tab中iframe窗体对象的方法

2016/08/05 Javascript

详解IOS微信上Vue单页面应用JSSDK签名失败解决方案

2018/11/14 Javascript

JS无限级导航菜单实现方法

2019/01/05 Javascript

JS事件流与事件处理程序实例分析

2019/08/16 Javascript

vue实现在v-html的html字符串中绑定事件

2019/10/28 Javascript

JQuery复选框全选效果如何实现

2020/05/08 jQuery

python获取当前时间对应unix时间戳的方法

2015/05/15 Python

Python zip()函数用法实例分析

2018/03/17 Python

python爬虫自动创建文件夹的功能

2018/08/01 Python

Python并发之多进程的方法实例代码

2018/08/15 Python

Pyqt5 实现跳转界面并关闭当前界面的方法

2019/06/19 Python

使用PYTHON解析Wireshark的PCAP文件方法

2019/07/23 Python

PHP统计代码行数的小代码

2019/09/19 Python

安装pyecharts1.8.0版本后导入pyecharts模块绘图时报错: “所有图表类型将在 v1.9.0 版本开始强制使用 ChartItem 进行数据项配置 ”的解决方法

2020/08/18 Python

纯CSS3实现手风琴风格菜单具体步骤

2013/05/06 HTML / CSS

美国真皮手袋品牌：GiGi New York

2017/03/10 全球购物

女装和独特珠宝：Sundance Catalog

2018/09/19 全球购物

Myprotein中国网站：欧洲畅销运动营养品牌

2021/02/11 全球购物

shell程序中如何注释

2012/02/17 面试题

六查六看剖析材料

2014/02/15 职场文书

党风廉政承诺书

2014/03/27 职场文书

红领巾心向党演讲稿

2014/09/10 职场文书

个人查摆剖析材料

2014/10/16 职场文书

组织生活会表态发言材料

2014/10/17 职场文书

2014年妇联工作总结

2014/11/21 职场文书

倡议书范文大全

2015/04/28 职场文书

导游词之西递宏村

2019/12/10 职场文书