我想在此答案中提供两种方法,基于“ z分数”的解决方案和基于“ IQR”的解决方案。
此答案中提供的代码适用于单个暗numpy数组和多个numpy数组。
让我们首先导入一些模块。
import collections
import numpy as np
import scipy.stats as stat
from scipy.stats import iqr
基于z评分的方法
此方法将测试数字是否超出三个标准偏差。根据此规则,如果值离群,则该方法将返回true,否则返回false。
def sd_outlier(x, axis = None, bar = 3, side = 'both'):
    assert side in ['gt', 'lt', 'both'], 'Side should be `gt`, `lt` or `both`.'
    d_z = stat.zscore(x, axis = axis)
    if side == 'gt':
        return d_z > bar
    elif side == 'lt':
        return d_z < -bar
    elif side == 'both':
        return np.abs(d_z) > bar
基于IQR的方法
此方法将测试值是否小于q1 - 1.5 * iqr或大于q3 + 1.5 * iqr,这与SPSS的plot方法类似。
def q1(x, axis = None):
    return np.percentile(x, 25, axis = axis)
def q3(x, axis = None):
    return np.percentile(x, 75, axis = axis)
def iqr_outlier(x, axis = None, bar = 1.5, side = 'both'):
    assert side in ['gt', 'lt', 'both'], 'Side should be `gt`, `lt` or `both`.'
    d_iqr = iqr(x, axis = axis)
    d_q1 = q1(x, axis = axis)
    d_q3 = q3(x, axis = axis)
    iqr_distance = np.multiply(d_iqr, bar)
    stat_shape = list(x.shape)
    if isinstance(axis, collections.Iterable):
        for single_axis in axis:
            stat_shape[single_axis] = 1
    else:
        stat_shape[axis] = 1
    if side in ['gt', 'both']:
        upper_range = d_q3 + iqr_distance
        upper_outlier = np.greater(x - upper_range.reshape(stat_shape), 0)
    if side in ['lt', 'both']:
        lower_range = d_q1 - iqr_distance
        lower_outlier = np.less(x - lower_range.reshape(stat_shape), 0)
    if side == 'gt':
        return upper_outlier
    if side == 'lt':
        return lower_outlier
    if side == 'both':
        return np.logical_or(upper_outlier, lower_outlier)
最后,如果要滤除异常值,请使用numpy选择器。
祝你今天愉快。