替换Python NumPy数组中所有大于某个值的元素


187

我有一个2D NumPy数组,并希望将大于或等于阈值T的所有值替换为255.0。据我所知,最基本的方法是:

shape = arr.shape
result = np.zeros(shape)
for x in range(0, shape[0]):
    for y in range(0, shape[1]):
        if arr[x, y] >= T:
            result[x, y] = 255
  1. 什么是最简洁,最pythonic的方法?

  2. 有更快的方法(可能不太简洁和/或更少的pythonic)来做到这一点吗?

这将是用于人头MRI扫描的窗口/水平调整子程序的一部分。2D numpy数组是图像像素数据。


有关更多信息,请参阅此索引索引介绍
askewchan 2013年

Answers:


329

我认为最快和最简洁的方法是使用NumPy内置的Fancy indexing。如果您具有ndarraynamed arr,则可以将所有元素替换>255为一个值x,如下所示:

arr[arr > 255] = x

我使用500 x 500随机矩阵在计算机上运行此命令,将所有> 0.5的值替换为5,平均花费了7.59ms。

In [1]: import numpy as np
In [2]: A = np.random.rand(500, 500)
In [3]: timeit A[A > 0.5] = 5
100 loops, best of 3: 7.59 ms per loop

3
请注意,这将修改现有的array arr,而不是result像在OP中那样创建一个数组。
askewchan

1
有没有办法通过不修改A而是创建一个新数组来做到这一点?
硝酸钠

如果我们想在给定n的倍数的索引处更改值,例如n [2]的a [2],a [4],a [6],a [8] ....,该怎么办?
lavee_singh 2015年

100次循环,每循环3:2.22毫秒最佳
dreab

5
注意:如果数据位于python列表中,则此方法无效,它必须位于numpy数组(np.array([1,2,3])中
mjp

46

由于您实际上想要的是arrwhere 的其他数组arr < 255255否则可以简单地完成此操作:

result = np.minimum(arr, 255)

更一般而言,对于下限和/或上限:

result = np.clip(arr, 0, 255)

如果您只想访问超过255的值,或者更复杂的值,则@ mtitan8的回答更为笼统,但对于您的情况,np.clipand和np.minimum(或np.maximum)更好,更快:

In [292]: timeit np.minimum(a, 255)
100000 loops, best of 3: 19.6 µs per loop

In [293]: %%timeit
   .....: c = np.copy(a)
   .....: c[a>255] = 255
   .....: 
10000 loops, best of 3: 86.6 µs per loop

如果您想就地进行操作(即修改arr而不是创建result),则可以使用out参数np.minimum

np.minimum(arr, 255, out=arr)

要么

np.clip(arr, 0, 255, arr)

out=名称是可选的,因为参数与函数定义的顺序相同。)

对于就地修改,布尔索引可以提高很多速度(无需分别制作然后修改副本),但是仍然不如minimum

In [328]: %%timeit
   .....: a = np.random.randint(0, 300, (100,100))
   .....: np.minimum(a, 255, a)
   .....: 
100000 loops, best of 3: 303 µs per loop

In [329]: %%timeit
   .....: a = np.random.randint(0, 300, (100,100))
   .....: a[a>255] = 255
   .....: 
100000 loops, best of 3: 356 µs per loop

为了进行比较,如果您想限制最小值和最大值,而无需clip两次,例如

np.minimum(a, 255, a)
np.maximum(a, 0, a)

要么,

a[a>255] = 255
a[a<0] = 0

1
非常感谢您的完整评论,但是在这种情况下,np.clip和np.minimum似乎不是我需要的,在OP中,您会看到阈值T和替换值(255)不一定相同数。但是,我仍然给您投票以提高透彻度。再次感谢。
NLi10Me

如果我们想在给定n的倍数的索引处更改值,例如n [2]的a [2],a [4],a [6],a [8] ....,该怎么办?
lavee_singh 2015年

@lavee_singh,您可以使用切片的第三部分,该部分通常被忽略:a[start:stop:step]为您提供数组从startstop的元素,但是它取代了每个元素,它仅占用每个元素step(如果被忽略,1默认情况下是)。因此,将所有a[::2] = 0
偶数

谢谢,尽管我知道一些简单的列表,但我还是需要这样的东西,但是我不知道它是否或如何用于numpy.array。
lavee_singh 2015年

14

我认为您可以使用以下where功能最快地实现此目的:

例如,在numpy数组中查找大于0.2的项并将其替换为0:

import numpy as np

nums = np.random.rand(4,3)

print np.where(nums > 0.2, 0, nums)

10

您可以考虑使用numpy.putmask

np.putmask(arr, arr>=T, 255.0)

这是与Numpy内置索引的性能比较:

In [1]: import numpy as np
In [2]: A = np.random.rand(500, 500)

In [3]: timeit np.putmask(A, A>0.5, 5)
1000 loops, best of 3: 1.34 ms per loop

In [4]: timeit A[A > 0.5] = 5
1000 loops, best of 3: 1.82 ms per loop

8

另一种方法是使用np.place它进行就地替换并与多维数组一起使用:

import numpy as np

# create 2x3 array with numbers 0..5
arr = np.arange(6).reshape(2, 3)

# replace 0 with -10
np.place(arr, arr == 0, -10)

这是我使用的解决方案,因为它是我遇到的第一个。我想知道这与上面选择的答案之间是否有很大的区别。你怎么看?
jonathanking

在非常有限的测试中,我上面使用np.place编写的代码的运行速度比公认的直接索引方法慢了2倍。令人惊讶的是,我原本以为np.place会得到更优化,但我想他们可能在直接索引上投入了更多工作。
Shital Shah

在我看来 np.place,与内置方法相比,速度也较慢,尽管注释中的说法与相反。
riyansh.legend

3

你也可以使用&|(和/或)有更多的灵活性:

介于5到10之间的值: A[(A>5)&(A<10)]

大于10或小于5的值: A[(A<5)|(A>10)]

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.