代码之家  ›  专栏  ›  技术社区  ›  Koray Tugay

如何查找:每列中的第一个非NaN值是否是数据帧中该列的最大值?

  •  4
  • Koray Tugay  · 技术社区  · 6 年前

    例如:

          0     1
    0  87.0   NaN
    1   NaN  99.0
    2   NaN   NaN
    3   NaN   NaN
    4   NaN  66.0
    5   NaN   NaN
    6   NaN  77.0
    7   NaN   NaN
    8   NaN   NaN
    9  88.0   NaN
    

    我的预期产出是: [False, True] 0 . 99 然而这是第一个!NaN值,实际上是该列中的最大值。

    5 回复  |  直到 6 年前
        1
  •  6
  •   BENY    6 年前

    方案a) :就这么做 groupby 具有 first

    reliable )

    df.groupby([1]*len(df)).first()==df.max()
    Out[89]: 
           0     1
    1  False  True
    

    方案b) : bfill

    或使用 (用列中的向后值填充任何NaN值,然后用后面的第一行填充。) B填充 第一个不是吗 NaN 值)

    df.bfill().iloc[0]==df.max()
    Out[94]: 
    0    False
    1     True
    dtype: bool
    

    : stack

    df.stack().reset_index(level=1).drop_duplicates('level_1').set_index('level_1')[0]==df.max()
    Out[102]: 
    level_1
    0    False
    1     True
    dtype: bool
    

    idxmax 具有 first_valid_index

    df.idxmax()==df.apply(pd.Series.first_valid_index)
    Out[105]: 
    0    False
    1     True
    dtype: bool
    

    : Idx最大值 isna

    df.notna().idxmax() == df.idxmax()     
    Out[107]: 
    0    False
    1     True
    dtype: bool
    
        2
  •  4
  •   rafaelc    6 年前

    使用纯 numpy (我觉得这很快)

    >>> np.isnan(df.values).argmin(axis=0) == df.fillna(-np.inf).values.argmax(axis=0)
    array([False,  True])
    

    argmax .

    df = pd.concat([df]*1000).reset_index(drop=True) # setup
    
    %timeit np.isnan(df.values).argmin(axis=0) == df.fillna(-np.inf).values.argmax(axis=0)
    207 µs ± 8.83 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
    %timeit df.groupby([1]*len(df)).first()==df.max()
    9.78 ms ± 339 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
    
    %timeit df.bfill().iloc[0]==df.max()
    824 µs ± 47.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
    %timeit df.stack().reset_index(level=1).drop_duplicates('level_1').set_index('level_1')[0]==df.max()
    3.55 ms ± 249 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
    
    %timeit df.idxmax()==df.apply(pd.Series.first_valid_index)
    1.5 ms ± 25 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
    %timeit df.values[df.notnull().idxmax(), np.arange(df.shape[1])] == df.max(axis=0)
    1.13 ms ± 14.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
    %timeit df.values[(~np.isnan(df.values)).argmax(axis=0), np.arange(df.shape[1])] == df.max(axis=0).values
    450 µs ± 20.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
    
        3
  •  3
  •   user3483203    6 年前

    我们可以用 numpy nanmax 这里有一个有效的解决方案:

    a = df.values
    np.nanmax(a, 0) == a[np.isnan(a).argmin(0), np.arange(a.shape[1])]
    

    array([False,  True])
    

    (此处提供了大量选项):


    功能

    def chris(df):
        a = df.values
        return np.nanmax(a, 0) == a[np.isnan(a).argmin(0), np.arange(a.shape[1])]
    
    def bradsolomon(df):
        df.values[df.notnull().idxmax(), np.arange(df.shape[1])] == df.max(axis=0).values
    
    def wen1(df):
        return df.groupby([1]*len(df)).first()==df.max()
    
    def wen2(df):
        return df.bfill().iloc[0]==df.max()
    
    def wen3(df):
        return df.idxmax()==df.apply(pd.Series.first_valid_index)
    
    def rafaelc(df):
        return np.isnan(df.values).argmin(axis=0) == df.fillna(-np.inf).values.argmax(axis=0)
    
    def pir(df):
        return df.notna().idxmax() == df.idxmax()
    

    res = pd.DataFrame(
           index=['chris', 'bradsolomon', 'wen1', 'wen2', 'wen3', 'rafaelc', 'pir'],
           columns=[10, 20, 30, 100, 500, 1000],
           dtype=float
    )
    
    for f in res.index:
        for c in res.columns:
            a = np.random.rand(c, c)
            a[a > 0.4] = np.nan
            df = pd.DataFrame(a)
            stmt = '{}(df)'.format(f)
            setp = 'from __main__ import df, {}'.format(f)
            res.at[f, c] = timeit(stmt, setp, number=50)
    
    ax = res.div(res.min()).T.plot(loglog=True)
    ax.set_xlabel("N");
    ax.set_ylabel("time (relative)");
    
    plt.show()
    

    结果

    enter image description here

        4
  •  2
  •   Brad Solomon    6 年前

    您可以使用下面的Numpy数组执行与Wens的答案类似的操作:

    >>> df.values[df.notnull().idxmax(), np.arange(df.shape[1])] == df.max(axis=0).values
    array([False,  True])
    

    df.max(axis=0)

    左侧索引 df.values ,这是一个二维数组,使其成为一维数组,并将其按元素与每列的最大值进行比较。

    如果你排除 .values 从右边看,结果就是熊猫系列:

    >>> df.values[df.notnull().idxmax(), np.arange(df.shape[1])] == df.max(axis=0)
    0    False
    1     True
    dtype: bool
    
        5
  •  0
  •   Koray Tugay    6 年前

    def nice_method_name_here(sr):
        return sr[sr > 0][0] == np.max(sr)
    
    print(df.apply(nice_method_name_here))
    

    这似乎有效,但还不确定!