标准化大熊猫中的数据

131

假设我有一个熊猫数据框df：

我想计算数据框的列均值。

这很简单：

df.apply(average)

然后按列范围max（col）-min（col）。这又很容易：

df.apply(max) - df.apply(min)

现在，对于每个元素，我要减去其列的均值并除以其列的范围。我不确定该怎么做

非常感谢任何帮助/指针。

python pandas numpy

— 杰森
source

225

In [92]: df
Out[92]:
           a         b          c         d
A  -0.488816  0.863769   4.325608 -4.721202
B -11.937097  2.993993 -12.916784 -1.086236
C  -5.569493  4.672679  -2.168464 -9.315900
D   8.892368  0.932785   4.535396  0.598124

In [93]: df_norm = (df - df.mean()) / (df.max() - df.min())

In [94]: df_norm
Out[94]:
          a         b         c         d
A  0.085789 -0.394348  0.337016 -0.109935
B -0.463830  0.164926 -0.650963  0.256714
C -0.158129  0.605652 -0.035090 -0.573389
D  0.536170 -0.376229  0.349037  0.426611

In [95]: df_norm.mean()
Out[95]:
a   -2.081668e-17
b    4.857226e-17
c    1.734723e-17
d   -1.040834e-17

In [96]: df_norm.max() - df_norm.min()
Out[96]:
a    1
b    1
c    1
d    1

— 伍特·迈米尔（Wouter Overmeire）
source

如果要标准化子集，有没有办法做到这一点？说该行A并B是要分开正常化更大的聚合因子的组成部分C和D。

— Amyunimus

选择子集并像以前一样计算。有关如何建立索引和选择数据的信息，请参见pandas.pydata.org/pandas-docs/stable/indexing.html

— Wouter Overmeire

17

如果您的值必须大于0：df_norm =（df-df.min（））/（df.max（）-df.min（））

— Dayvid Oliveira 2015年

1

在第一个方括号中应为df_norm =（df-df.min（））/（df.max（）-df.min（））而不是df.mean（），以获得介于0和1之间的值

— jnPy

2

如果您的数据

— 框的

73

如果您不介意导入sklearn库，我建议您使用此博客上介绍的方法。

import pandas as pd
from sklearn import preprocessing

data = {'score': [234,24,14,27,-74,46,73,-18,59,160]}
cols = data.columns
df = pd.DataFrame(data)
df

min_max_scaler = preprocessing.MinMaxScaler()
np_scaled = min_max_scaler.fit_transform(df)
df_normalized = pd.DataFrame(np_scaled, columns = cols)
df_normalized

— 戴维·S。
source

2

博客文章的链接已消失。你有工作的吗？

— 集市

3

创建单位规范化数据的相应方法称为StandardScaler。

— abeboparebop

我在另一个地方找到了类似的解决方案。问题是在np_scaled部分中，它显示了一个预期2D数组的错误，但输入是1D数组，因此建议我们使用reshape（-1,1）。任何想法如何解决作为重塑也是行不通的。

— 死码

根据您使用的numpy和sklearn的版本，您可能会收到警告，但总的来说，这应该可以工作 np_scaled = min_max_scaler.fit_transform(df.score.astype(float).values.reshape(-1, 1))

— Jaeyoung Chun

33

您可以使用apply它，它有点整洁：

import numpy as np
import pandas as pd

np.random.seed(1)

df = pd.DataFrame(np.random.randn(4,4)* 4 + 3)

          0         1         2         3
0  9.497381  0.552974  0.887313 -1.291874
1  6.461631 -6.206155  9.979247 -0.044828
2  4.276156  2.002518  8.848432 -5.240563
3  1.710331  1.463783  7.535078 -1.399565

df.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))

          0         1         2         3
0  0.515087  0.133967 -0.651699  0.135175
1  0.125241 -0.689446  0.348301  0.375188
2 -0.155414  0.310554  0.223925 -0.624812
3 -0.484913  0.244924  0.079473  0.114448

此外，groupby如果您选择相关列，它也可以与配合使用：

df['grp'] = ['A', 'A', 'B', 'B']

          0         1         2         3 grp
0  9.497381  0.552974  0.887313 -1.291874   A
1  6.461631 -6.206155  9.979247 -0.044828   A
2  4.276156  2.002518  8.848432 -5.240563   B
3  1.710331  1.463783  7.535078 -1.399565   B


df.groupby(['grp'])[[0,1,2,3]].apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))

     0    1    2    3
0  0.5  0.5 -0.5 -0.5
1 -0.5 -0.5  0.5  0.5
2  0.5  0.5  0.5 -0.5
3 -0.5 -0.5 -0.5  0.5

— 零101
source

2

稍作修改自：Python Pandas数据框：归一化0.01和0.99之间的数据？但是从一些评论中认为这是相关的（抱歉，如果考虑重新发布...）

我想要自定义归一化，因为基准或z分数的常规百分位数不够。有时我知道总体的可行最大值和最小值是多少，因此除了我的样本或其他中点之外，还想对其进行定义！这通常对于重新缩放和规范化神经网络的数据很有用，因为您可能希望所有输入都在0到1之间，但是某些数据可能需要以更自定义的方式进行缩放...因为百分位数和标准差假设您的样本覆盖了人口，但有时我们知道这是不对的。在可视化热图中的数据时，这对我也非常有用。因此，我构建了一个自定义函数（在此处的代码中使用了额外的步骤，以使其更具可读性）：

def NormData(s,low='min',center='mid',hi='max',insideout=False,shrinkfactor=0.):    
    if low=='min':
        low=min(s)
    elif low=='abs':
        low=max(abs(min(s)),abs(max(s)))*-1.#sign(min(s))
    if hi=='max':
        hi=max(s)
    elif hi=='abs':
        hi=max(abs(min(s)),abs(max(s)))*1.#sign(max(s))

    if center=='mid':
        center=(max(s)+min(s))/2
    elif center=='avg':
        center=mean(s)
    elif center=='median':
        center=median(s)

    s2=[x-center for x in s]
    hi=hi-center
    low=low-center
    center=0.

    r=[]

    for x in s2:
        if x<low:
            r.append(0.)
        elif x>hi:
            r.append(1.)
        else:
            if x>=center:
                r.append((x-center)/(hi-center)*0.5+0.5)
            else:
                r.append((x-low)/(center-low)*0.5+0.)

    if insideout==True:
        ir=[(1.-abs(z-0.5)*2.) for z in r]
        r=ir

    rr =[x-(x-0.5)*shrinkfactor for x in r]    
    return rr

这将采用熊猫系列，甚至只是一个列表，并将其标准化为您指定的低点，中点和高点。还有一个缩小因素！使您可以缩小端点0和1之外的数据的比例（在matplotlib中组合颜色图时，我必须这样做：使用Matplotlib在单个pcolormesh中使用多个颜色图）样本中具有[-5,1,10]的值，但要基于-7到7（因此，大于7的任何值，我们的“ 10”有效地视为7）以2为中点进行归一化但将其缩小以适合256 RGB色彩图：

#In[1]
NormData([-5,2,10],low=-7,center=1,hi=7,shrinkfactor=2./256)
#Out[1]
[0.1279296875, 0.5826822916666667, 0.99609375]

它也可以将您的数据完全翻过来……这似乎很奇怪，但是我发现它对于热图很有用。假设您想使用深色来表示接近0的值，而不是高/低。您可以基于归一化数据的热图，其中Insideout = True：

#In[2]
NormData([-5,2,10],low=-7,center=1,hi=7,insideout=True,shrinkfactor=2./256)
#Out[2]
[0.251953125, 0.8307291666666666, 0.00390625]

因此，现在最接近中心的“ 2”（定义为“ 1”）是最大值。

无论如何，如果您希望以其他可能对您有用的应用程序重新缩放数据的方式，我认为我的应用程序很重要。

— Vlox
source

您可以将所有if / else语句替换为带有函数的字典。然后看起来有点干净。

— 罗尔德

这非常好，下次我会记住这一点，谢谢！

— Vlox

0

这是按列进行的方式：

[df[col].update((df[col] - df[col].min()) / (df[col].max() - df[col].min())) for col in df.columns]

— 乍得
source