python爬取豆瓣电影TOP250数据


Posted in Python onMay 23, 2021

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250(执行sql语句)
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图:

python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取豆瓣电影TOP250数据的详细内容,更多关于python爬取豆瓣电影的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python的pycurl包用法简介
Nov 13 Python
python使用opencv读取图片的实例
Aug 17 Python
一条命令解决mac版本python IDLE不能输入中文问题
May 15 Python
Python列表解析配合if else的方法
Jun 23 Python
Python爬虫之pandas基本安装与使用方法示例
Aug 08 Python
解决python3运行selenium下HTMLTestRunner报错的问题
Dec 27 Python
Django如何开发简单的查询接口详解
May 17 Python
PyQt5实现从主窗口打开子窗口的方法
Jun 19 Python
用python的turtle模块实现给女票画个小心心
Nov 23 Python
Pycharm常用快捷键总结及配置方法
Nov 14 Python
教你用Python matplotlib库制作简单的动画
Jun 11 Python
Python selenium绕过webdriver监测执行javascript
Apr 12 Python
基于Python绘制子图及子图刻度的变换等的问题
聊聊pytorch测试的时候为何要加上model.eval()
May 23 #Python
PyTorch 如何自动计算梯度
May 23 #Python
解决numpy和torch数据类型转化的问题
May 23 #Python
Python 用户输入和while循环的操作
May 23 #Python
解决Tkinter中button按钮未按却主动执行command函数的问题
May 23 #Python
python tkinter Entry控件的焦点移动操作
May 22 #Python
You might like
解析mysql 表中的碎片产生原因以及清理
2013/06/22 PHP
dedecms中使用php语句指南
2014/11/13 PHP
PHP中shuffle数组值随便排序函数用法
2014/11/21 PHP
两个php日期控制类实例
2014/12/09 PHP
通过源码解析Laravel的依赖注入
2018/01/22 PHP
jquery 插件开发方法小结
2009/10/23 Javascript
JQuery select标签操作代码段
2010/05/16 Javascript
jquery.tmpl JQuery模板插件
2011/10/10 Javascript
window.addEventListener来解决让一个js事件执行多个函数
2012/12/26 Javascript
JS 删除字符串最后一个字符的实现代码
2014/02/20 Javascript
Js实现动态添加删除Table行示例
2014/04/14 Javascript
Javascript检查图片大小不要让大图片撑破页面
2014/11/04 Javascript
javascript实现鼠标拖动改变层大小的方法
2015/04/30 Javascript
ajax在兼容模式下失效的快速解决方法
2016/03/22 Javascript
详解Nodejs之npm&package.json
2017/06/15 NodeJs
Angular在模板驱动表单中自定义校验器的方法
2017/08/09 Javascript
原生JS封装animate运动框架的实例
2017/10/12 Javascript
[01:01:23]完美世界DOTA2联赛PWL S2 Forest vs FTD.C 第一场 11.26
2020/11/30 DOTA
[43:43]完美世界DOTA2联赛PWL S2 FTD.C vs Rebirth 第一场 11.22
2020/11/24 DOTA
Python实现的下载8000首儿歌的代码分享
2014/11/21 Python
python实现的简单RPG游戏流程实例
2015/06/28 Python
PyCharm 配置远程python解释器和在本地修改服务器代码
2019/07/23 Python
Django的性能优化实现解析
2019/07/30 Python
Python操作excel的方法总结(xlrd、xlwt、openpyxl)
2019/09/02 Python
python修改文件内容的3种方法详解
2019/11/15 Python
python实现opencv+scoket网络实时图传
2020/03/20 Python
CSS3中文字镂空、透明值、阴影效果设置示例小结
2016/03/07 HTML / CSS
HTML5+JS实现俄罗斯方块原理及具体步骤
2013/11/29 HTML / CSS
全球知名旅游社区巴西站点:TripAdvisor巴西
2016/07/21 全球购物
英语专业推荐信
2013/11/16 职场文书
新闻专业推荐信范文
2013/11/20 职场文书
经典团队口号大全
2014/06/21 职场文书
委托书的写法
2014/09/16 职场文书
2016教师读书思廉心得体会
2016/01/23 职场文书
大学自主招生自荐信(2016精选篇)
2016/01/28 职场文书
抖音短视频(douyin)去水印工具的实现代码
2021/03/30 Javascript