编程 Python

浅析Python中的随机采样和概率分布

Posted in Python onDecember 06, 2021

1. random.choice

如果我们只需要从序列里采一个样本（所有样本等概率被采），只需要使用random.choice即可：

import random
res1 = random.choice([0, 1, 2, 3, 4])
print(res1) # 3

2. random.choices（有放回）

当然，很多时候我们不只需要采一个数，而且我们需要设定序列中每一项被采的概率不同。此时我们可以采用random.random.choices函数, 该函数用于有放回的（即一个数据项可以被重复采多次）对一个序列进行采样。其函数原型如下：

random.choices(population, weights=None, *, cum_weights=None, k=1)

population: 欲采样的序列

weights: 每个样本被赋予的权重（又称相对权重），决定每个样本被采的概率，如[10, 0, 30, 60, 0]

cum_weights: 累积权重，相对权重[10, 0, 30, 60, 0]相当于累积权重[10, 10, 40, 100, 100]

我们从[0, 1, 2, 3, 4]中按照相对权重采样3个样本如下:

res2 = random.choices([0, 1, 2, 3, 4], weights=[10, 0, 30, 60, 0], k=3)
# 注意population不是关键字参数，在函数调用时不能写成population=[0,1,2,3,4]来传参
# 关于关键字参数和位置参数，可以参看我的博客《Python技法2：函数参数的进阶用法》https://www.cnblogs.com/orion-orion/p/15647408.html
print(res2) # [3, 3, 2]

从[0, 1, 2, 3, 4]中按照累积权重采样3和样本如下：

res3 = random.choices([0, 1, 2, 3, 4], cum_weights=[10, 10, 40, 100, 100], k=3)
print(res3) # [0, 3, 3]

注意，相对权重weights和累计权重cum_weights不能同时传入，否则会报TypeError异常'Cannot specify both weights and cumulative weights'。

3. numpy.sample(无放回)

random.sample是无放回，如果我们需要无放回采样（即每一项只能采一次），那我们需要使用random.sample。需要注意的是，如果使用该函数，将无法定义样本权重。该函数原型如下：

random.sample(population, k, *, counts=None)¶

population: 欲采样的序列

k: 采样元素个数

counts: 用于population是可重复集合的情况，定义集合元素的重复次数。sample(['red', 'blue'], counts=[4, 2], k=5)等价于sample(['red', 'red', 'red', 'red', 'blue', 'blue'], k=5)

我们无放回地对序列[0, 1, 2, 3, 4]采样3次如下：

res3 = random.sample([0, 1, 2, 3, 4], k=3)
print(res3) # [3, 2, 1]

无放回地对可重复集合[0, 1, 1, 2, 2, 3, 3, 4]采样3次如下：

res4 = random.sample([0, 1, 2, 3, 4], k=3, counts=[1, 2, 2, 2, 1])
print(res4) # [3, 2, 2]

如果counts长度和population序列长度不一致，会抛出异常ValueError:"The number of counts does not match the population"。

4.rng.choices 和 rng.sample

还有一种有放回采样实现方法是我在论文[1]的代码[2]中学习到的。即先定义一个随机数生成器，再调用随机数生成器的choices方法或sample方法，其使用方法和random.choice/random.sample函数相同。

rng_seed = 1234
rng = random.Random(rng_seed)
res5 = rng.choices(
     population=[0,1,2,3,4],
     weights=[0.1, 0, 0.3, 0.6, 0],
     k=3,
)
print(res5) # [3, 3, 0]

res6 = rng.sample(
     population=[0, 1, 2, 3, 4],
     k=3,
)
print(res6) # [4, 0, 2]

这两个函数在论文[1]的实现代码[2]中用来随机选择任务节点client：

def sample_clients(self):
        """
        sample a list of clients without repetition

        """
        rng_seed = (seed if (seed is not None and seed >= 0) else int(time.time()))
        self.rng = random.Random(rng_seed)

        if self.sample_with_replacement:
            self.sampled_clients = \
                self.rng.choices(
                    population=self.clients,
                    weights=self.clients_weights,
                    k=self.n_clients_per_round,
                )
        else:
            self.sampled_clients = self.rng.sample(self.clients, k=self.n_clients_per_round)

5. numpy.random.choices

从序列中按照权重分布采样也可以采用numpy.random.choice实现。其函数原型如下:

random.choice(a, size=None, replace=True, p=None)

a: 1-D array-like or int 如果是1-D array-like，那么样本会从其元素中抽取。如果是int，那么样本会从np.arange(a)中抽取；

size: int or tuple of ints, optional 为输出形状大小，如果给定形状为(m,n,k)，那么m×n×k的样本会从中抽取。默认为None，即返回一个单一标量。

replace: boolean, optional 表示采样是又放回的还是无放回的。若replace=True，则为又放回采样（一个值可以被采多次），否则是无放回的（一个值只能被采一次）。

p: 1-D array-like, optional 表示a中每一项被采的概率。如果没有给定，则我们假定a中各项被采的概率服从均匀分布（即每一项被采的概率相同）。

从[0,1,2,3,4,5]中重复/不重复采样3次如下：

import numpy as np
res1 = np.random.choice(5, 3, replace=True)
print(res1) # [1 1 4]

res2 = np.random.choice(5, 3, replace=False)
print(res2) # [2 1 4]

同样是[0,1,2,3,4,5]中重复/不重复采样3次，现在来看我们为每个样本设定不同概率的情况：

res3 = np.random.choice(5, 3, p=[0.1, 0, 0.3, 0.6, 0])
print(res3)  # [2 3 3]

res4 = np.random.choice(5, 3, replace=False, p=[0.1, 0, 0.3, 0.6, 0])
print(res4) # [3 2 0]

参考文献

https://github.com/omarfoq/FedEM

https://www.python.org/

https://numpy.org/

到此这篇关于浅析Python中的随机采样和概率分布的文章就介绍到这了,更多相关Python内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

浅析Python中的随机采样和概率分布

- Author -

Orion's Blog

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python深入学习之上下文管理器

Aug 31 Python

详解Python的Flask框架中的signals信号机制

Jun 13 Python

Python简单检测文本类型的2种方法【基于文件头及cchardet库】

Sep 18 Python

Python json模块dumps、loads操作示例

Sep 06 Python

padas 生成excel 增加sheet表的实例

Dec 11 Python

python并发编程多进程之守护进程原理解析

Aug 20 Python

Tensorflow中tf.ConfigProto()的用法详解

Feb 06 Python

python2和python3哪个使用率高

Jun 23 Python

Python访问Redis的详细操作

Jun 26 Python

总结python多进程multiprocessing的相关知识

Jun 29 Python

Python+OpenCV实现在图像上绘制矩形

Mar 21 Python

python程序的组织结构详解

Python中异常处理用法

Nov 27 #Python

python中的3种定义类方法

Nov 27 #Python

5道关于python基础 while循环练习题

Nov 27 #Python

Python中的pprint模块

Nov 27 #Python

python 多态协议鸭子类型详解

Nov 27 #Python

Python机器学习实战之k-近邻算法的实现

You might like

使用 eAccelerator加速PHP代码的方法

2007/09/30 PHP

php下网站防IP攻击代码，超级实用

2010/10/24 PHP

WordPress自定义时间显示格式

2015/03/27 PHP

Mootools 1.2教程滑动效果（Slide）

2009/09/15 Javascript

jQuery 菜单随滚条改为以定位方式(固定要浏览器顶部)

2012/05/24 Javascript

如何将JS的变量值传递给ASP变量

2012/12/10 Javascript

一个JS的日期格式化算法示例

2013/07/31 Javascript

含有CKEditor的表单如何提交

2014/01/09 Javascript

js点击出现悬浮窗效果不使用JQuery插件

2014/01/20 Javascript

js数组去重的方法汇总

2015/07/29 Javascript

jQuery实现判断控件是否显示的方法

2017/01/11 Javascript

详解nodejs中的process进程

2017/03/19 NodeJs

js实现扫雷小程序的示例代码

2017/09/27 Javascript

jQuery实现input输入框获取焦点与失去焦点时提示的消失与显示功能示例

2019/05/27 jQuery

Python中如何优雅的合并两个字典（dict）方法示例

2017/08/09 Python

win10下Python3.6安装、配置以及pip安装包教程

2017/10/01 Python

使用python实现BLAST

2018/02/12 Python

详解Python3的TFTP文件传输

2018/06/26 Python

Python3.5局部变量与全局变量作用域实例分析

2019/04/30 Python

ZABBIX3.2使用python脚本实现监控报表的方法

2019/07/02 Python

使用Python的datetime库处理时间(RPA流程)

2019/11/24 Python

Python使用psutil获取进程信息的例子

2019/12/17 Python

python 已知平行四边形三个点,求第四个点的案例

2020/04/12 Python

简单了解python列表和元组的区别

2020/05/14 Python

Python制作一个仿QQ办公版的图形登录界面

2020/09/22 Python

世界首屈一指的在线男士内衣权威：HisRoom

2017/08/05 全球购物

Gina Bacconi官网：吉娜贝康尼连衣裙和礼服

2018/04/24 全球购物

英国领先的在线高尔夫商店：Scottsdale Golf

2019/08/26 全球购物

绘画设计学生的个人自我评价

2013/09/20 职场文书

报社实习生自荐信

2014/01/24 职场文书

父亲节寄语大全

2015/02/27 职场文书

教师节晚会主持词

2015/06/30 职场文书

如何写好闭幕词

2019/04/02 职场文书

浅谈Python 中的复数问题

2021/05/19 Python

SQL使用复合索引实现数据库查询的优化

2022/05/25 SQL Server

MySQL表字段数量限制及行大小限制详情

2022/07/23 MySQL

浅析Python中的随机采样和概率分布

目录

1. random.choice

2. random.choices（有放回）

3. numpy.sample(无放回)

4.rng.choices 和 rng.sample

5. numpy.random.choices

参考文献