编程 Python

解决pytorch 的state_dict()拷贝问题

Posted in Python onMarch 03, 2021

先说结论

model.state_dict()是浅拷贝，返回的参数仍然会随着网络的训练而变化。

应该使用deepcopy(model.state_dict())，或将参数及时序列化到硬盘。

再讲故事，前几天在做一个模型的交叉验证训练时，通过model.state_dict()保存了每一组交叉验证模型的参数，后根据效果选择准确率最佳的模型load回去，结果每一次都是最后一个模型，从地址来看，每一个保存的state_dict()都具有不同的地址，但进一步发现state_dict()下的各个模型参数的地址是共享的，而我又使用了in-place的方式重置模型参数，进而导致了上述问题。

补充：pytorch中state_dict的理解

在PyTorch中，state_dict是一个Python字典对象（在这个有序字典中，key是各层参数名，value是各层参数），包含模型的可学习参数(即权重和偏差，以及bn层的的参数）优化器对象(torch.optim）也具有state_dict，其中包含有关优化器状态以及所用超参数的信息。

其实看了如下代码的输出应该就懂了

import torch
import torch.nn as nn
import torchvision
import numpy as np
from torchsummary import summary
# Define model
class TheModelClass(nn.Module):
  def __init__(self):
    super(TheModelClass, self).__init__()
    self.conv1 = nn.Conv2d(3, 6, 5)
    self.pool = nn.MaxPool2d(2, 2)
    self.conv2 = nn.Conv2d(6, 16, 5)
    self.fc1 = nn.Linear(16 * 5 * 5, 120)
    self.fc2 = nn.Linear(120, 84)
    self.fc3 = nn.Linear(84, 10)
  def forward(self, x):
    x = self.pool(F.relu(self.conv1(x)))
    x = self.pool(F.relu(self.conv2(x)))
    x = x.view(-1, 16 * 5 * 5)
    x = F.relu(self.fc1(x))
    x = F.relu(self.fc2(x))
    x = self.fc3(x)
    return x
# Initialize model
model = TheModelClass()
# Initialize optimizer
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
# Print model's state_dict
print("Model's state_dict:")
for param_tensor in model.state_dict():
  print(param_tensor,"\t", model.state_dict()[param_tensor].size())
# Print optimizer's state_dict
print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():
  print(var_name, "\t", optimizer.state_dict()[var_name])

输出如下：

Model's state_dict:
conv1.weight  torch.Size([6, 3, 5, 5])
conv1.bias  torch.Size([6])
conv2.weight  torch.Size([16, 6, 5, 5])
conv2.bias  torch.Size([16])
fc1.weight  torch.Size([120, 400])
fc1.bias  torch.Size([120])
fc2.weight  torch.Size([84, 120])
fc2.bias  torch.Size([84])
fc3.weight  torch.Size([10, 84])
fc3.bias  torch.Size([10])
Optimizer's state_dict:
state  {}
param_groups  [{'lr': 0.001, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'params': [2238501264336, 2238501329800, 2238501330016, 2238501327136, 2238501328576, 2238501329728, 2238501327928, 2238501327064, 2238501330808, 2238501328288]}]

我是刚接触深度学西的小白一个，希望大佬可以为我指出我的不足，此博客仅为自己的笔记！！！！

补充：pytorch保存模型时报错***object has no attribute 'state_dict'

定义了一个类BaseNet并实例化该类：

net=BaseNet()

保存net时报错 object has no attribute 'state_dict'

torch.save(net.state_dict(), models_dir)

原因是定义类的时候不是继承nn.Module类，比如：

class BaseNet(object):
  def __init__(self):

把类定义改为

class BaseNet(nn.Module):
  def __init__(self):
    super(BaseNet, self).__init__()

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方，望不吝赐教。

解决pytorch 的state_dict()拷贝问题

- Author -

Luke_Ye

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Win7上搭建Cocos2d-x 3.1.1开发环境

Jul 03 Python

Python 列表排序方法reverse、sort、sorted详解

Jan 22 Python

Eclipse中Python开发环境搭建简单教程

Mar 23 Python

基于python的七种经典排序算法（推荐）

Dec 08 Python

python3操作mysql数据库的方法

Jun 23 Python

tensorflow入门之训练简单的神经网络方法

Feb 26 Python

python提取包含关键字的整行数据方法

Dec 11 Python

对numpy下的轴交换transpose和swapaxes的示例解读

Jun 26 Python

Python完全识别验证码自动登录实例详解

Nov 24 Python

使用Django和Postgres进行全文搜索的实例代码

Feb 13 Python

python实现PolynomialFeatures多项式的方法

Jan 06 Python

Python中使用subprocess库创建附加进程

May 11 Python

解决pytorch 保存模型遇到的问题

Mar 03 #Python

解决pytorch 模型复制的一些问题

Mar 03 #Python

Pytorch模型迁移和迁移学习,导入部分模型参数的操作

Mar 03 #Python

pytorch 实现L2和L1正则化regularization的操作

Mar 03 #Python

Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作

Mar 03 #Python

python爬取youtube视频的示例代码

Mar 03 #Python

pytorch Dataset,DataLoader产生自定义的训练数据案例

Mar 03 #Python

You might like

一个简单的MySQL数据浏览器

2006/10/09 PHP

在php MYSQL中插入当前时间

2008/04/06 PHP

php Ajax乱码

2008/04/09 PHP

php下正则来匹配dede模板标签的代码

2010/08/21 PHP

深入eAccelerator与memcached的区别详解

2013/06/06 PHP

php cookie使用方法学习笔记分享

2013/11/07 PHP

彻底删除thinkphp3.1案例blog标签的方法

2014/12/05 PHP

php递归函数三种实现方法及如何实现数字累加

2015/08/07 PHP

浅谈PHP匿名函数和闭包

2019/03/08 PHP

PHP回调函数简单用法示例

2019/05/08 PHP

TP5(thinkPHP5)框架使用ajax实现与后台数据交互的方法小结

2020/02/10 PHP

HTA版JSMin（省略修饰语若干）基于javascript语言编写

2009/12/24 Javascript

jQuery 翻牌或百叶窗效果(内容三秒自动切换)

2012/06/14 Javascript

JS判断不同分辨率调用不同的CSS样式文件实现思路及测试代码

2013/01/23 Javascript

JSONP跨域的原理解析及其实现介绍

2014/03/22 Javascript

Jquery性能优化详解

2014/05/15 Javascript

使用jQuery设置disabled属性与移除disabled属性

2014/08/21 Javascript

基于JavaScript如何实现ajax调用后台定义的方法

2015/12/29 Javascript

Bootstrap3下拉菜单的实现

2017/02/22 Javascript

react native与webview通信的示例代码

2017/09/25 Javascript

判断滚动条滑到底部触发事件(实例讲解)

2017/11/15 Javascript

jquery中有哪些api jQuery主要API

2017/11/20 jQuery

python调用系统ffmpeg实现视频截图、http发送

2018/03/06 Python

pandas修改DataFrame列名的方法

2018/04/08 Python

解决Pycharm下面出现No R interpreter defined的问题

2018/10/29 Python

Python设计模式之工厂方法模式实例详解

2019/01/18 Python

详解Python3 中的字符串格式化语法

2020/01/15 Python

解决pycharm 格式报错tabs和space不一致问题

2021/02/26 Python

css3 响应式媒体查询的示例代码

2019/09/25 HTML / CSS

Timberland俄罗斯官方网上商店：全球领先的户外品牌

2020/03/15 全球购物

自考生自我评价分享

2014/01/18 职场文书

校庆活动方案

2014/03/31 职场文书

校园安全广播稿范文

2014/09/25 职场文书

2014年政风行风自查自纠报告

2014/10/21 职场文书

Django分页器的用法你都了解吗

2021/05/26 Python

nginx作grpc的反向代理踩坑总结

2021/07/07 Servers