代码之家  ›  专栏  ›  技术社区  ›  jvz

在Python/pandas中使用hash快速查找SQL记录

  •  1
  • jvz  · 技术社区  · 6 年前

    我的问题是:选择哪一个散列函数(考虑到我在Python中,并且更喜欢使用一个非常快速和可靠的解决方案,在能够处理各种数据(如int、float、strings、datetimes等)的同时,只需从我的角度编写很少的代码)

    对于2和3,如果您推荐的话,我如何为任意的dict和pandas行实现它?我没能成功地把这个简单化。例如,对于需要显式定义编码的字符串,记录中字段的顺序也不应该更改哈希。

    编辑:我刚刚意识到依赖Python可能会很棘手,如果我改变编程语言,我可能会得到不同的散列。把它绑定到数据库似乎是更明智的选择。

    1 回复  |  直到 6 年前
        1
  •  0
  •   Zach Estela    6 年前

    你试过了吗 pandas.util.hash_pandas_object

    不知道这有多有效,但也许你可以这样使用它:

    df.apply(lambda row: pd.util.hash_pandas_object(row), axis=1)

    这将至少为df中的每一行提供pandas系列散列。