代码之家  ›  专栏  ›  技术社区  ›  Shivam Sinha

从大熊猫中单独的年、月和日期列生成日期时间序列

  •  0
  • Shivam Sinha  · 技术社区  · 6 年前

    如何使用列“yr”、“mo”和“dy”创建一个类型为datetime的新列,并将其设置为熊猫数据帧的索引?

    .

    2 回复  |  直到 6 年前
        1
  •  0
  •   Brad Solomon    6 年前

    首先,你应该转换 Yr 四位整数,即1961或2061。这是明确的,如果您使用下面的方法,格式YYYY-MM-DD是必需的。那是因为熊猫使用 format='%Y%m%d' 在pandas/core/tools/datetimes.py中:

    # From pandas/core/tools/datetimes.py, if you pass a DataFrame or dict
    values = to_datetime(values, format='%Y%m%d', errors=errors)
    

    因此,举个例子:

    from itertools import product
    
    import numpy as np
    import pandas as pd
    np.random.seed(444)
    
    datecols = ['Yr', 'Mo', 'Dy']
    mapper = dict(zip(datecols, ('year', 'month', 'day')))
    df = pd.DataFrame(list(product([61, 62], [1, 2], [1, 2, 3])),
                      columns=datecols)
    df['data'] = np.random.randn(len(df))
    

    这里是 df :

    In [11]: df                                                                                                                                                   
    Out[11]: 
        Yr  Mo  Dy      data
    0   61   1   1  0.357440
    1   61   1   2  0.377538
    2   61   1   3  1.382338
    3   61   2   1  1.175549
    4   61   2   2 -0.939276
    5   61   2   3 -1.143150
    6   62   1   1 -0.542440
    7   62   1   2 -0.548708
    8   62   1   3  0.208520
    9   62   2   1  0.212690
    10  62   2   2  1.268021
    11  62   2   3 -0.807303
    

    为了简单起见,假设真实范围为1920年以后,即:

    In [16]: yr = df['Yr']                                                                                                                                        
    
    In [17]: df['Yr'] = np.where(yr <= 20, 2000 + yr, 1900 + yr)                                                                                                  
    
    In [18]: df                                                                                                                                                   
    Out[18]: 
          Yr  Mo  Dy      data
    0   1961   1   1  0.357440
    1   1961   1   2  0.377538
    2   1961   1   3  1.382338
    3   1961   2   1  1.175549
    4   1961   2   2 -0.939276
    5   1961   2   3 -1.143150
    6   1962   1   1 -0.542440
    7   1962   1   2 -0.548708
    8   1962   1   3  0.208520
    9   1962   2   1  0.212690
    10  1962   2   2  1.268021
    11  1962   2   3 -0.807303
    

    您需要做的第二件事是重命名列;如果将映射或数据帧传递给 pd.to_datetime() . 这是步骤和结果:

    In [21]: df.index = pd.to_datetime(df[datecols].rename(columns=mapper))                                                                                       
    
    In [22]: df                                                                                                                                                   
    Out[22]: 
                  Yr  Mo  Dy      data
    1961-01-01  1961   1   1  0.357440
    1961-01-02  1961   1   2  0.377538
    1961-01-03  1961   1   3  1.382338
    1961-02-01  1961   2   1  1.175549
    1961-02-02  1961   2   2 -0.939276
    1961-02-03  1961   2   3 -1.143150
    1962-01-01  1962   1   1 -0.542440
    1962-01-02  1962   1   2 -0.548708
    1962-01-03  1962   1   3  0.208520
    1962-02-01  1962   2   1  0.212690
    1962-02-02  1962   2   2  1.268021
    1962-02-03  1962   2   3 -0.807303
    

    最后,这里有一个替代方法,将列作为字符串连接起来:

    In [27]: as_str = df[datecols].astype(str)   
    In [30]: pd.to_datetime( 
        ...:     as_str['Yr'] + '-' + as_str['Mo'] +'-' + as_str['Dy'], 
        ...:     format='%y-%m-%d' 
        ...:    )                                                                                                                                                 
    Out[30]: 
    0    2061-01-01
    1    2061-01-02
    2    2061-01-03
    3    2061-02-01
    4    2061-02-02
    5    2061-02-03
    6    2062-01-01
    7    2062-01-02
    8    2062-01-03
    9    2062-02-01
    10   2062-02-02
    11   2062-02-03
    dtype: datetime64[ns]
    

    再次注意,这对你来说将是一个世纪。如果你想明确,你需要遵循与上面相同的方法,在定义之前添加正确的世纪。 as_str .

        2
  •  0
  •   Shivam Sinha    6 年前

    正如布拉德所指出的,这就是我修复它的方法

    def adjustyear(x):
        if x >= 1800:
            x = 1900 + x
        else:
            x = 2000 + x
        return x
    
    def parsefunc(x):
        yearmodified = adjustyear(x['Yr'])
        print(yearmodified)
        datetimestr = str(yearmodified)+str(x['Mo'])+str(x['Dy'])
        return pd.to_datetime(datetimestr, format='%Y%m%d', errors='ignore')
    
    data['newindex'] = data.apply(parsefunc, axis=1)
    data.index = data['newindex']