代码之家  ›  专栏  ›  技术社区  ›  Mawg says reinstate Monica

如何处理程序版本更新时更改的数据结构?

  •  10
  • Mawg says reinstate Monica  · 技术社区  · 15 年前

    我做嵌入式软件,但我想这不是一个真正的嵌入式问题。我不(不能因为技术的原因)使用像MySQL这样的数据库,只是C或C++结构。

    对于如何处理这些结构从版本到版本的布局变化,是否有一个通用的哲学?

    我们拿个地址簿吧。从程序版本x到x+1,如果:

    • 一个字段被删除(看起来足够简单)或添加(如果所有字段都可以使用一些新的默认值,可以吗)?
    • 一根绳子变长还是变短?一个int从8到16位有符号/无符号?
    • 也许我把姓/名合并起来,或者把名字分成两个字段?

    这些只是一些简单的例子;我不是在寻找这些问题的答案,而是一个通用的解决方案。

    显然,我需要一些硬编码的逻辑来处理每一个变化。

    如果有人不从版本X升级到X+1,而是等待X+2怎么办?我应该尝试组合这些更改,还是只应用x->x+1,然后再应用x+1->x+2?

    如果X+1版本有问题,我们需要回滚到S/W的前一个版本,但是已经“升级”了数据结构呢?

    我倾向于TLV( http://en.wikipedia.org/wiki/Type-length-value )但是可以看到很多潜在的头痛。

    这不是什么新鲜事,所以我只是想知道其他人是怎么做到的……

    9 回复  |  直到 15 年前
        1
  •  11
  •   peterchen    15 年前

    我确实有一些代码,如果需要,较长的字符串由两个较短的段拼凑在一起。讨厌。以下是我在保持某些数据兼容12年后的经验:

    定义你的目标 -有两种:

    • 新版本应该能够读取旧版本所写的内容
    • 旧版本应该能够读取新版本写的内容(更难)

    向版本0添加版本支持 -至少写一个版本头。再加上保留(可能很多)旧的读卡器代码,就可以原始地解决第一种情况。如果您不想实现案例2,开始拒绝新数据 马上 !

    如果您只需要案例1,并且随着时间的推移,预期的更改相当小,那么您就可以进行设置。不管怎样,在第一次发布之前做的这两件事可以帮你以后减轻许多头痛。

    序列化期间转换 -在运行时,只将数据保存在内存中的“新格式”。在持久性限制下进行必要的转换和测试(在读取时转换为最新的,在写入时实现向后兼容性)。这将版本问题隔离在一个地方,有助于避免难以跟踪的错误。

    保留一组来自周围所有版本的测试数据。

    存储可用类型的子集 -将实际序列化的数据限制为几个数据类型,如int、string、double。在 在这种情况下,额外的存储大小由支持这些类型更改的代码大小减少所组成。(不过,在嵌入式系统上,这并不总是一种权衡)。

    例如,不要存储小于本机宽度的整数。(你 可以 当需要存储长整型数组时需要这样做)。

    添加断路器 -存储一些允许您故意使旧代码显示错误消息的密钥,表明此新数据不兼容。您可以使用一个字符串作为错误消息的一部分-那么您的旧版本可能会显示一条它不知道的错误消息-“您可以使用convertx工具从我们的网站导入此数据”在本地化应用程序中不是很好,但仍然优于 “UNG_¼ltiges格式” .

    不直接序列化结构 -这就是逻辑/物理分离。我们将两者结合起来,既有利弊。所有这些都不能在没有运行时开销的情况下实现,这在很大程度上限制了您在嵌入式环境中的选择。无论如何,在持久化期间不要使用固定的数组/字符串长度,这应该已经解决了一半的问题。

    (a)适当的序列化机制 -我们使用一个双元序列化程序,它允许在存储时启动一个“块”,它有自己的长度头。读取时,会跳过额外的数据,默认情况下会初始化丢失的数据(这样可以在序列化J代码中大大简化“读取旧数据”的实现)。可以嵌套块。这就是你在身体方面所需要的,但在日常工作中需要一些糖衣。

    (b)使用不同的内存表示法 -内存中的重复基本上可以是 map<id, record> 其中id可能是一个整数,并且 record 可以是

    • 空(未存储)
    • 基本类型(字符串、整数、双精度-使用的越少,使用的越容易)
    • 基元类型数组
    • 和记录数组

    我最初是这样写的,这样人们就不会问我每一个格式兼容性问题,虽然实现有很多缺点(我希望我能以今天的清晰认识到这个问题…)但它可以解决。

    默认情况下,查询一个不存在的值将返回一个默认/零初始化值。当您在访问数据和添加新数据时记住这一点时,这有很大帮助:假设版本1会自动计算“foo长度”,而在版本2中,用户可以覆盖该设置。“计算类型”或“长度”中的值为零意味着“自动计算”,并且您已设置。

    以下是您可以预期的“更改”方案:

    • 标志(yes/no)扩展到枚举(“yes/no/auto”)。
    • 设置分为两种设置(例如,“添加边框”可以分为“偶数天添加边框”和“奇数天添加边框”)。
    • 将添加一个设置,覆盖(或更糟,扩展)现有设置。

    为了实施案例2,您还需要考虑:

    • 任何价值都不能被另一个价值所替代。(但在新的格式中,它可以说“不支持”,并添加一个新项目)
    • 枚举可能包含未知值,有效范围的其他更改

    噢。真是太多了。但这并不像看上去那么复杂。

        2
  •  4
  •   S.Lott    15 年前

    人们使用的关系数据库有一个巨大的概念。

    它被称为将架构分解为“逻辑”和“物理”层。

    你的结构是一个逻辑层和一个物理层,混合在一起成为一个难以改变的东西。

    您希望您的程序依赖于一个逻辑层。您希望逻辑层依次映射到物理存储。这使您可以在不破坏事物的情况下进行更改。

    您不需要重新设计SQL来实现这一点。

    如果您的数据完全存储在内存中,那么考虑一下这个问题。将物理文件表示与内存表示分离。以一些“通用的”、灵活的、易于解析的格式(如JSON或YAML)编写数据。这允许您以通用格式读取,并构建高度特定于版本的内存结构。

    如果将数据同步到文件系统上,则需要做更多的工作。再次,看看RDBMS的设计思想。

    不要编简单的无脑代码 struct . 创建一个将字段名映射到字段值的“记录”。它是名称-值对的链接列表。这很容易扩展以添加新字段或更改值的数据类型。

        3
  •  3
  •   Michael Burr    15 年前

    如果您谈论的是C API中的结构使用,请遵循一些简单的指导原则:

    • 在结构的开头有一个结构大小字段-这样,使用该结构的代码就可以始终确保它们只处理有效的数据(例如,Windows API使用的许多结构都是以cbCount字段开头的,这样这些API就可以处理根据旧的sdk甚至是添加了字段的新sdk编译的代码所进行的调用
    • 不要删除字段。如果您不再需要使用它,这是一回事,但是为了保持处理使用旧版本结构的代码的理智,不要删除字段。
    • 包含版本号字段可能是明智的,但计数字段通常可以用于此目的。

    这里有一个例子——我有一个引导装载程序,它在程序映像中的固定偏移量处查找一个结构,以获取有关该映像的信息,该映像可能已被闪存到设备中。

    加载器已经过修改,它支持结构中的其他项以进行一些增强。但是,可能会刷新旧的程序映像,而旧的映像使用旧的结构格式。由于从一开始就遵循了上述规则,所以较新的加载程序完全能够处理这些问题。这是最简单的部分。

    如果结构被进一步修改,并且新的图像在带有旧的加载程序的设备上使用新的结构格式,那么加载程序也将能够处理它——它只是对增强功能没有任何作用。但是,由于没有字段被(或将要)删除,旧的加载程序将能够执行它设计的任何操作,并使用具有更新信息的配置结构的新映像执行操作。

    如果您谈论的是一个实际的数据库,其中包含有关字段的元数据等,那么这些指导原则实际上并不适用。

        4
  •  2
  •   Variable Length Coder    15 年前

    您要寻找的是向前兼容的数据结构。有几种方法可以做到这一点。下面是低级方法。

    struct address_book
    {
      unsigned int length; // total length of this struct in bytes
      char items[0];
    }
    

    其中“items”是描述其自身大小和类型的结构的可变长度数组

    struct item
    {
      unsigned int size; // how long data[] is
      unsigned int id;   // first name, phone number, picture, ...
      unsigned int type; // string, integer, jpeg, ...
      char data[0];
    }
    

    在您的代码中,您通过一些智能的强制转换迭代这些项(地址簿长度将告诉您何时到达末尾)。如果您击中了一个您不知道其ID或您不知道如何处理其类型的项目,您只需跳过该数据(从项目->大小),然后继续下一个项目。这样,如果有人在下一个版本中发明了一个新的数据字段或删除了一个,那么您的代码就能够处理它。您的代码应该能够处理有意义的转换(如果员工ID从整数变为字符串,它可能会将其作为字符串处理),但是您会发现这些情况非常罕见,通常可以用普通代码处理。

        5
  •  2
  •   simon    15 年前

    我以前在资源非常有限的系统中处理过这个问题,通过在PC上进行翻译作为软件升级过程的一部分。可以提取旧值,转换为新值,然后更新就地数据库吗?

    对于一个简化的嵌入式数据库,我通常不直接引用任何结构,而是在任何参数周围放置一个非常轻量的API。这允许您在不影响更高级别应用程序的情况下更改API下面的物理结构。

        6
  •  1
  •   piotr    15 年前

    最近我在用 bencoded 数据。这是BitTorrent使用的格式。很简单,您可以很容易地从视觉上检查它,因此比二进制数据更容易调试,并且压缩得很紧。我从高质量C++中借用了一些代码 libtorrent . 对于您的问题,这非常简单,只要在您读回字段时检查字段是否存在。而且,对于gzip压缩文件,它的操作非常简单:

    ogzstream os(meta_path_new.c_str(), ios_base::out | ios_base::trunc);
    Bencode map(Bencode::TYPE_MAP);
    map.insert_key("url", url.get());
    map.insert_key("http", http_code);
    os << map;
    os.close();
    

    要读回:

    igzstream is(metaf, ios_base::in | ios_base::binary);
    is.exceptions(ios::eofbit | ios::failbit | ios::badbit);
    try {
       torrent::Bencode b;
       is >> b;
       if( b.has_key("url") )
          d->url = b["url"].as_string();
    } catch(...) {
    }
    

    我以前使用过Sun的xdr格式,但现在我更喜欢这种格式。另外,使用其他语言(如Perl、Python等)也更容易阅读。

        7
  •  1
  •   Goz    15 年前

    在结构中嵌入一个版本号,或者像win32那样,使用一个大小参数。
    如果传递的结构不是最新版本,则修复该结构。

    大约10年前,我为一个电脑游戏保存游戏系统写了一个类似的系统。实际上,我将类数据存储在一个单独的类描述文件中,如果发现版本号不匹配,那么我可以运行类描述文件,找到类,然后根据描述升级二进制类。这显然需要在新的类成员条目中填充默认值。它工作得非常好,可以用来自动生成.h和.cpp文件。

        8
  •  1
  •   bta    15 年前

    我同意S.Lott的观点,最好的解决方案是将你所要做的事情的物理层和逻辑层分开。实际上,您正在将接口和实现组合到一个对象/结构中,这样做时,您就错过了一些抽象的能力。

    但是如果你 必须 为此,请使用单个结构,您可以做一些事情来帮助简化工作。

    1) 实际上需要某种版本号字段。如果你的结构正在改变,你需要一个简单的方法来观察它并知道如何解释它。沿着这些相同的行,有时将结构的总长度存储在某个结构字段中是很有用的。

    2) 如果您想保持向后兼容性,您需要记住,代码将在内部引用结构字段,作为与结构的基地址(从结构的“前”开始)的偏移量。如果要避免破坏旧代码,请确保将所有新字段添加到 后面 并保持所有现有字段不变(即使不使用它们)。这样,旧代码将能够访问结构(但最终会忽略额外的数据),新代码将可以访问所有数据。

    3) 因为你的结构可能会改变尺寸,不要依赖 sizeof(struct myStruct) 总是返回准确的结果。如果你遵循上面的2,那么你可以看到你必须假设一个结构在未来可能会变大。呼吁 sizeof() 计算一次(编译时)。使用“结构长度”字段可以确保 memcpy 您正在复制整个结构的结构,包括末尾您不知道的任何额外字段。

    4) 不要删除或收缩字段;如果不需要,请将其留空。不要更改现有字段的大小;如果需要更多空间,请创建一个新字段作为旧字段的“长版本”。这可能会导致重复数据问题,因此请确保对结构进行大量考虑,并尝试规划字段,以便它们足够大,能够适应增长。

    5) 不要在结构中存储字符串,除非您知道将字符串限制为某个固定长度是安全的。相反,只存储一个指针或数组索引,并创建一个字符串存储对象来保存可变长度的字符串数据。这也有助于防止字符串缓冲区溢出覆盖结构的其余数据。

    我研究过的几个嵌入式项目使用这种方法来修改结构,而不破坏向后/向前的兼容性。它是有效的,但它远不是最有效的方法。不久之后,您将浪费空间,浪费了过时/废弃的结构字段、重复数据、零碎存储的数据(这里的第一个字、那边的第二个字)等。如果您被迫在现有框架内工作,那么这可能对您有用。但是,使用接口抽象出物理数据表示将更强大/更灵活,并且不那么令人沮丧(如果您有使用这种技术的设计自由)。

        9
  •  0
  •   Nemanja Trifunovic    15 年前

    你可能想看看 Boost Serialization 图书馆处理这个问题。