python爬取豆瓣电影TOP250数据


Posted in Python onMay 23, 2021

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250(执行sql语句)
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图:

python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取豆瓣电影TOP250数据的详细内容,更多关于python爬取豆瓣电影的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中用Descriptor实现类级属性(Property)详解
Sep 18 Python
python爬取网页内容转换为PDF文件
Jul 28 Python
python使用scrapy发送post请求的坑
Sep 04 Python
Python调用服务接口的实例
Jan 03 Python
Python读取Pickle文件信息并计算与当前时间间隔的方法分析
Jan 30 Python
Python+OpenCV采集本地摄像头的视频
Apr 25 Python
用python打印菱形的实操方法和代码
Jun 25 Python
Python函数中参数是传递值还是引用详解
Jul 02 Python
django使用haystack调用Elasticsearch实现索引搜索
Jul 24 Python
使用Python的Turtle库绘制森林的实例
Dec 18 Python
Flask和pyecharts实现动态数据可视化
Feb 26 Python
手把手教你使用TensorFlow2实现RNN
Jul 15 Python
基于Python绘制子图及子图刻度的变换等的问题
聊聊pytorch测试的时候为何要加上model.eval()
May 23 #Python
PyTorch 如何自动计算梯度
May 23 #Python
解决numpy和torch数据类型转化的问题
May 23 #Python
Python 用户输入和while循环的操作
May 23 #Python
解决Tkinter中button按钮未按却主动执行command函数的问题
May 23 #Python
python tkinter Entry控件的焦点移动操作
May 22 #Python
You might like
php设计模式 Composite (组合模式)
2011/06/26 PHP
PHP的5个安全措施小结
2012/07/17 PHP
PHP反射使用实例和PHP反射API的中文说明
2014/07/02 PHP
php下载文件超时时间的设置方法
2016/10/06 PHP
Zend Framework分发器用法示例
2016/12/11 PHP
php大小写转换函数(strtolower、strtoupper)用法介绍
2017/11/17 PHP
php 中self,this的区别和操作方法实例分析
2019/11/04 PHP
Laravel相关的一些故障解决
2020/08/19 PHP
JavaScript Eval 函数使用
2010/03/23 Javascript
基于Jquery的动态添加控件并取值的实现代码
2010/09/24 Javascript
对xmlHttp对象的理解
2011/01/17 Javascript
自己做的模拟模态对话框实现代码
2012/05/23 Javascript
js获取IFRAME当前的URL的方法
2013/11/13 Javascript
基于vue2.0实现的级联选择器
2017/06/09 Javascript
nodejs实现OAuth2.0授权服务认证
2017/12/27 NodeJs
使用vux实现上拉刷新功能遇到的坑
2018/02/08 Javascript
jQuery实现使用sort方法对json数据排序的方法
2018/04/17 jQuery
Vue中的基础过渡动画及实现原理解析
2018/12/04 Javascript
javascript实现点击星星小游戏
2019/12/24 Javascript
解决VUE 在IE下出现ReferenceError: Promise未定义的问题
2020/11/07 Javascript
Python图片裁剪实例代码(如头像裁剪)
2017/06/21 Python
python利用urllib实现爬取京东网站商品图片的爬虫实例
2017/08/24 Python
pycharm下打开、执行并调试scrapy爬虫程序的方法
2017/11/29 Python
Python 3.7新功能之dataclass装饰器详解
2018/04/21 Python
Python 删除整个文本中的空格,并实现按行显示
2018/07/24 Python
python opencv实现旋转矩形框裁减功能
2018/07/25 Python
Django框架模型简单介绍与使用分析
2019/07/18 Python
django数据关系一对多、多对多模型、自关联的建立
2019/07/24 Python
关于Python中定制类的比较运算实例
2019/12/19 Python
美国名表在线商城:Ashford(支持中文)
2019/09/24 全球购物
英语专业毕业生自荐信范文
2013/12/31 职场文书
乡镇党员干部群众路线对照检查材料思想汇报
2014/09/28 职场文书
怎样写辞职信
2015/02/27 职场文书
读《钢铁是怎样炼成的》有感:百炼方成钢
2019/11/05 职场文书
Python爬虫基础讲解之请求
2021/05/13 Python
图片批量处理 - 尺寸、格式、水印等
2022/03/07 杂记