Python爬虫常用库的安装及其环境配置


Posted in Python onSeptember 19, 2018

Python常用库的安装

urllib、re 这两个库是Python的内置库,直接使用方法import导入即可。

在python中输入如下代码:

import urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
print(response)

返回结果为HTTPResponse的对象:

<http.client.HTTPResponse object at 0x000001929C7525F8>

正则表达式模块

import re

该库为python自带的库,直接运行不报错,证明该库正确安装。

requests这个库是请求的库

我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证

>>> import requests
>>> requests.get('http://www.baidu.com')
<Response [200]>

selenium实际上是用来浏览器的一个库

做爬虫时可能会碰到使用JS渲染的网页,使用requests来请求时,可能无法正常获取内容,我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3  install selenium安装。进行验证

>>> import selenium
>>> from selenium import webdriver
>>> driver = webdriver.Chrome()
DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
>>> driver.get('http://www.baidu.com')

上述命令可以直接打开chrome浏览器,并且打开百度。但是,在这之前我们必须安装一个chromedriver,并且安装googlchrome浏览器,可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况,那么问题出在,chrome和chromdriver的版本不兼容,可以在官网下载chrome更高的版本,或者chromedriver更低的版本,但是只要都是最高版本就没问题。
如何查看本机的chrome的版本,具体方法如下:

Python爬虫常用库的安装及其环境配置

chromedriver的下载地址如下:
http://chromedriver.storage.googleapis.com/index.html
chromedriver解压后放到Python或者其他配置了环境变量的目录下。 

phantomjs是一个无界面浏览器,在后台运行

可在官网自行下载。并且需要将phantomjs.exe  的所在目录设为环境变量。测试代码

>>> from selenium import webdriver
>>> driver = webdriver.PhantomJS()
>>> driver.get('http://www.baidu.com')
>>> driver.page_source
'<!DOCTYPE html><!--STATUS OK--><html><head>\n

lxml

使用pip3 install lxml安装

beautifulsoup是一个网络解析库,依赖于lxml库

使用pip3安装。必须安装pip3 install beautifulsoup4,因为beautifulsoup已经停止维护了。安装验证

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html></html>','lxml')
>>>

pyquery也是网页解析库

较bs4更加方便,语法和Jquery无异。也是使用pip3 安装

>>> from pyquery import PyQuery as pq #将其重命名
>>> doc = pq('<html></html>')
>>> doc = pq('<html>hello world</html>')
>>> result = doc('html').text()
>>> result
'hello world'

pymysql是一个操作mysql数据库的库

使用pip3 安装

>>> import pymysql
>>> conn = pymysql.connect(host='localhost',user='root',password = '123456',port=3306,db='mysql')
>>> cursor = conn.cursor()
>>> cursor.execute('select * from db')
0

pymongo操作数据库MongoDB的库

需要开启MongoDB服务,在计算机管理当中的服务寻找。也是使用pip3安装

>>> import pymongo
>>> client = pymongo.MongoClient('localhost')
>>> db = client['newtestdb']
>>> db['table'].insert({'name':'tom'})
ObjectId('5b868ee4c4d17a0b2466f748')
>>> db['table'].find_one({'name':'tom'})
{'_id': ObjectId('5b868ee4c4d17a0b2466f748'), 'name': 'tom'}
>>> #完成了单条数据的查询

redis一个非关系型数据库,运行效率高

使用pip3 install redis安装

>>> import redis
>>> r = redis.Redis ('localhost',6379)
>>> r.set('name','tom')
True
>>> r.get('name')
b'tom'
>>> #是一个byte型数据类型

flask做代理时可能会用到

详细内容可以在flask官网查看flask文档

使用pip3 安装pip3 install flask

django是一个web服务器框架

提供了一个完整的后台管理,引擎、接口等,可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装

jupyter 可以理解为一个记事本

运行网页端,可以进行写代码,调试,运行。在官网可以下载jupyter,也可以用pip3 安装,相关库非常多,安装比较久。安装后可以在命令行直接运行jupyter notebook,因为此文件在scrips目录下。
C:\Users\dell>jupyter notebook
[I 20:32:37.552 NotebookApp] The port 8888 is already in use, trying another port.
[I 20:32:37.703 NotebookApp] Serving notebooks from local directory: C:\Users\dell

Python爬虫常用库的安装及其环境配置

可以在选项  new   中建立新python3文件,并且可以编写代码。

Python爬虫常用库的安装及其环境配置

默认的文件名为unite,此处将其改为testDemo,使用快捷键ctrl+回车 运行,按键B跳转至新的编辑行。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python基于Tkinter库实现简单文本编辑器实例
May 05 Python
Python中turtle作图示例
Nov 15 Python
基于Python socket的端口扫描程序实例代码
Feb 09 Python
Java实现的执行python脚本工具类示例【使用jython.jar】
Mar 29 Python
Django项目使用CircleCI的方法示例
Jul 14 Python
Ubuntu下Python+Flask分分钟搭建自己的服务器教程
Nov 19 Python
Python chardet库识别编码原理解析
Feb 18 Python
python numpy实现rolling滚动案例
Jun 08 Python
Python实现寻找回文数字过程解析
Jun 09 Python
Python爬虫实例——爬取美团美食数据
Jul 15 Python
python+requests实现接口测试的完整步骤
Oct 27 Python
Python 阶乘详解
Oct 05 Python
Python开发虚拟环境使用virtualenvwrapper的搭建步骤教程图解
Sep 19 #Python
python3.6.3安装图文教程 TensorFlow安装配置方法
Jun 24 #Python
Windows 64位下python3安装nltk模块
Sep 19 #Python
win10 64bit下python NLTK安装教程
Sep 19 #Python
Windows下Anaconda2安装NLTK教程
Sep 19 #Python
浅述python2与python3的简单区别
Sep 19 #Python
NLTK 3.2.4 环境搭建教程
Sep 19 #Python
You might like
php+dojo 的数据库保存拖动布局的一个方法dojo 这里下载
2007/03/07 PHP
apache和php之间协同工作的配置经验分享
2013/04/08 PHP
laravel创建类似ThinPHP中functions.php的全局函数
2016/11/26 PHP
Prototype使用指南之form.js
2007/01/10 Javascript
JXTree对象,读取外部xml文件数据,生成树的函数
2007/04/02 Javascript
JavaScript高级程序设计(第3版)学习笔记12 js正则表达式
2012/10/11 Javascript
JavaScript参数个数可变的函数举例说明
2014/10/10 Javascript
详解AngularJS中的作用域
2015/06/17 Javascript
JS实现方向键切换输入框焦点的方法
2015/08/19 Javascript
JS实现模拟百度搜索“2012世界末日”网页地震撕裂效果代码
2015/10/31 Javascript
JavaScript动态生成二维码图片
2016/04/20 Javascript
ReactJs设置css样式的方法
2017/06/08 Javascript
详解Node.js amqplib 连接 Rabbit MQ最佳实践
2019/01/24 Javascript
vue解决使用$http获取数据时报错的问题
2019/10/30 Javascript
vue element和nuxt的使用技巧分享
2021/01/14 Vue.js
[15:28]DOTA2 HEROS教学视频教你分分钟做大人-剧毒术士
2014/06/13 DOTA
[02:00]DOTA2英雄COSPLAY闹市街头巡游助威2015国际邀请赛
2015/08/02 DOTA
[50:45]2018DOTA2亚洲邀请赛 4.6 淘汰赛 VP vs TNC 第一场
2018/04/10 DOTA
[04:03][TI9趣味短片] 小鸽子茶话会
2019/08/20 DOTA
用python代码做configure文件
2014/07/20 Python
详解Django中的权限和组以及消息
2015/07/23 Python
Python利用正则表达式匹配并截取指定子串及去重的方法
2015/07/30 Python
python获取程序执行文件路径的方法(推荐)
2018/04/26 Python
python实现类之间的方法互相调用
2018/04/29 Python
使用sklearn之LabelEncoder将Label标准化的方法
2018/07/11 Python
python requests 库请求带有文件参数的接口实例
2019/01/03 Python
python实现高斯(Gauss)迭代法的例子
2019/11/20 Python
Python3如何在服务器打印资产信息
2020/08/27 Python
Python实现快速大文件比较代码解析
2020/09/04 Python
Python list和str互转的实现示例
2020/11/16 Python
一款纯css3制作的2015年元旦雪人动画特效教程
2014/12/29 HTML / CSS
大课间活动制度
2014/01/18 职场文书
幼儿园教师师德师风演讲稿:爱我所爱 无悔青春
2014/09/10 职场文书
计划生育证明书写要求
2014/09/17 职场文书
大学考试作弊检讨书
2015/05/06 职场文书
Win11自动黑屏怎么办 Win11自动黑屏设置教程
2022/07/15 数码科技