python爬取豆瓣电影TOP250数据


Posted in Python onMay 23, 2021

在执行程序前,先在MySQL中创建一个数据库"pachong"。

import pymysql
import requests
import re


#获取资源并下载
def resp(listURL):
    #连接数据库
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #数据库密码请根据自身实际密码输入
        database = 'pachong', 
        charset = 'utf8'
    )

    #创建数据库游标
    cursor = conn.cursor()

    #创建列表t_movieTOP250(执行sql语句)
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取数据
        for urlPath in listURL:
            # 获取网页源代码
            response = requests.get(urlPath)
            html = response.text

            # 正则表达式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正则(排名【用数据库中id代替,自动生成及排序】、电影名、电影海报(图片地址))
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍历列表中元素,并将数据存入数据库
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #从游标中获取结果
        cursor.fetchall()

        #提交结果
        conn.commit()
        print("结果已提交")

    except Exception as e:
        #数据回滚
        conn.rollback()
        print("数据已回滚")

    #关闭数据库
    conn.close()

#top250所有网页网址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

结果如下图:

python爬取豆瓣电影TOP250数据

python爬取豆瓣电影TOP250数据

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取豆瓣电影TOP250数据的详细内容,更多关于python爬取豆瓣电影的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python pickle类库介绍(对象序列化和反序列化)
Nov 21 Python
Python实现将数据库一键导出为Excel表格的实例
Dec 30 Python
用python做一个搜索引擎(Pylucene)的实例代码
Jul 05 Python
Python实现将doc转化pdf格式文档的方法
Jan 19 Python
Python告诉你木马程序的键盘记录原理
Feb 02 Python
Pandas读取并修改excel的示例代码
Feb 17 Python
python用match()函数爬数据方法详解
Jul 23 Python
手机使用python操作图片文件(pydroid3)过程详解
Sep 25 Python
python 图片二值化处理(处理后为纯黑白的图片)
Nov 01 Python
Python列表切片常用操作实例解析
Mar 10 Python
Python面向对象程序设计之静态方法、类方法、属性方法原理与用法分析
Mar 23 Python
Python 实现国产SM3加密算法的示例代码
Sep 21 Python
基于Python绘制子图及子图刻度的变换等的问题
聊聊pytorch测试的时候为何要加上model.eval()
May 23 #Python
PyTorch 如何自动计算梯度
May 23 #Python
解决numpy和torch数据类型转化的问题
May 23 #Python
Python 用户输入和while循环的操作
May 23 #Python
解决Tkinter中button按钮未按却主动执行command函数的问题
May 23 #Python
python tkinter Entry控件的焦点移动操作
May 22 #Python
You might like
关于扩展 Laravel 默认 Session 中间件导致的 Session 写入失效问题分析
2016/01/08 PHP
PHP使用curl函数发送Post请求的注意事项
2016/11/26 PHP
硬盘浏览程序,保存成网页格式便可使用
2006/12/03 Javascript
js 获取屏幕各种宽高的方法(浏览器兼容)
2013/05/15 Javascript
Javascript selection的兼容性写法介绍
2013/12/20 Javascript
Js中使用hasOwnProperty方法检索ajax响应对象的例子
2014/12/08 Javascript
JavaScript获取网页表单action属性的方法
2015/04/02 Javascript
jQuery实现企业网站横幅焦点图切换功能实例
2015/04/30 Javascript
JS获取日期的方法实例【昨天,今天,明天,前n天,后n天的日期】
2017/09/28 Javascript
如何使用less实现随机下雪动画详解
2019/01/02 Javascript
js变量声明var使用与不使用的区别详解
2019/01/21 Javascript
Emberjs 通过 axios 下载文件的方法
2019/09/03 Javascript
[02:35]DOTA2超级联赛专访XB 难忘一年九冠称王
2013/06/20 DOTA
零基础写python爬虫之抓取百度贴吧代码分享
2014/11/06 Python
读写json中文ASCII乱码问题的解决方法
2016/11/05 Python
在Python中过滤Windows文件名中的非法字符方法
2019/06/10 Python
详解python websocket获取实时数据的几种常见链接方式
2019/07/01 Python
python GUI库图形界面开发之PyQt5计数器控件QSpinBox详细使用方法与实例
2020/02/28 Python
使用Python对Dicom文件进行读取与写入的实现
2020/04/20 Python
基于python实现模拟数据结构模型
2020/06/12 Python
python 装饰器重要在哪
2021/02/14 Python
python 使用openpyxl读取excel数据
2021/02/18 Python
Keras保存模型并载入模型继续训练的实现
2021/02/20 Python
Canvas 文本转粒子效果的实现代码
2019/02/14 HTML / CSS
美国一家主打母婴用品的团购网站:zulily
2017/09/19 全球购物
电子商务专员岗位职责
2013/12/11 职场文书
加工操作管理制度
2014/01/19 职场文书
关爱老人标语
2014/06/21 职场文书
我与祖国共奋进演讲稿
2014/09/13 职场文书
收银员岗位职责
2015/02/03 职场文书
员工离职通知函
2015/04/25 职场文书
烛光里的微笑观后感
2015/06/17 职场文书
2016党员干部反腐倡廉心得体会
2016/01/13 职场文书
pytorch 带batch的tensor类型图像显示操作
2021/05/20 Python
简单聊一聊SQL注入及防止SQL注入
2022/03/23 MySQL
服务器间如何实现文件共享
2022/05/20 Servers