代码之家 › 专栏 › 技术社区 › Jason Baker

信息是数据的子集吗?

information-theory

5

Jason Baker · 技术社区 · 15 年前

我很抱歉,因为我不知道这是否更像是一个数学问题 mathoverflow 或者是属于这里的计算机科学问题。

也就是说,我相信我明白 difference between data, information, and knowledge . 我的理解是信息承载着数据和意思 . 我不清楚的一件事是是数据。信息被认为是一种特殊的数据,还是完全不同的东西?

5 回复 | 直到 10 年前

1

6

mjv 15 年前

单词 data , information 和 knowlege 是用来分类的基于价值的概念, 以主观的方式 ,特定信息集的一般“简洁性”和“有用性”。
这些词没有确切的意思 因为它们与信息处理的根本目的和方法论有关;在信息理论领域,它们根本没有意义,因为这三者都是同一件事:一个“信息”集合(在信息理论意义上)。
但它们是有用的, 在上下文中 ,总结信息集的一般性质,如下所述。

信息是获得 (或有时被诱导)从数据,但它可以更丰富,以及一个更干净(其中一些值已被纠正)和“更简单”(其中一些无关的数据已被删除)。所以在集合论意义上, 信息是不一个子集数据 ,但是一个单独的集合[通常与数据有点相交,但也可以有自己的元素]。

知识 (有时被称为洞察 )是另一个层次,它基于信息,也不是信息的集合论子集。事实上,知识通常不直接引用信息元素,而是讲述关于信息/数据的“元故事”。

毫无根据的观点认为,沿着数据-信息-知识链,较高的层次是较低层次的子集,这可能源于这样一个事实,即减少信息量的多少。但是 定性的 这个信息是不同的,因此没有真正的[集合论]子集关系。

例子 :

华尔街的原始股票交易数据是… 数据
一片“数据海洋”!有些人很难直接从这些数据中找到他/她需要的东西。这些数据可能需要规范化。例如,价格信息有时可以用1/32美元精度的文本字符串来表示,在其他情况下,价格可以是1/8美元精度的真正二进制整数。同样,显示买方id或卖方id的字段可能包括输入错误,因此指向错误的卖方/买方。等.
上面的电子表格是… 问询处
数据采用了各种处理方法:
-清洗/校正各种数值
-交叉引用(例如查找相关代码,例如添加列以在“买方ID”列旁边显示个人/公司的实际名称)
-合并:当与同一事件有关的重复记录(例如来自不同来源)被用来相互证实,但也被合并到一个记录中时。
-聚合:例如,将给定股票的所有交易值相加(而不是显示所有单独的交易)。
所有这些(然后是一些)都将数据转换成了信息,即一系列易于使用的信息,在这些信息中,人们可以很快找到一些“数据”,例如2009年6月8日IBM股票的开盘价和收盘价。
请注意,虽然使用起来更方便,部分更精确,也更简单,但其中并没有真正的(它能感觉到的)信息,无法通过相对简单的(如果只是艰苦的)过程从原始信息中定位或计算出来。
金融分析师的报告可能包含… 知识
例如,如果报告指出[虚假的例子]每当油价超过某个临界点,黄金的价值就开始下降,但随后又迅速飙升,大约在咖啡和茶的价格稳定的时候。这种独特的见解构成了知识。这些知识可能一直隐藏在数据中,但只有当应用一些奇特的统计分析和/或需要人类专家的帮助来发现或确认这些模式时,这些知识才变得明显。

顺便说一下,在信息论意义上的“信息”一词中,“数据”、“信息”和“知识”都包含[信息意义]信息。
一个人可能会走上滑道,说“当我们向上爬的时候,熵会减少”,但这只是粗略的事实,因为

熵的减少与“对人类有用”没有直接或系统的联系
(一个典型的例子是,压缩文本文件的熵较小,但阅读起来却没有乐趣)
信息的损失是有效的(除了熵损失之外)
(例如,当数据被聚合时,有关单个记录的[it sense]信息将丢失)
尤其是在信息-知识方面,戒酒水平有变化

最后一点(如果我还没有把每个人都搞糊涂……)是 data->info->knowledge 链条是有效的 相对的 信息的预期用途/目的。
ewernli 在下面的评论中提供了拼写检查器的例子,即当重点放在英语正字法上时,华尔街天才最有见地的论文仅仅是一串单词,实际上是“原始数据”,其中一些需要改进(沿着正字法的目的链)。
同样,一个语言学家使用成千上万的报纸文章,通常(我们希望……)至少包含一些见解/知识(在一般意义上),可能只是考虑这些文章的原始数据,这将帮助他/她自动创建法德词汇(这将是信息),和当他在这个项目上工作时,他可能会发现两种语言中常用词的使用有一个系统的语义转换,从而对不同的文化有了深入的了解。

2

1

John Smith 15 年前

首先,非常仔细地定义信息和数据。

什么是信息,什么是数据,很大程度上取决于上下文。一个极端的例子是你在一个聚会上发电子邮件的照片。对你来说,这是信息,但对isp来说,这只是要传递的数据。

有时仅仅添加正确的上下文就可以将数据更改为信息。

所以,回答你的问题:不,信息不是数据的子集。可能至少是以下情况。

超集,当您添加上下文时
一个子集,大海捞针的问题
数据的函数,如在摘要中

可能还有更多的情况。

3

1

kiwicptn 15 年前

我就是这样看的…

数据又脏又原始。你可能吃得太多了。

... Jason ... 27 ... Denton ...

信息是你需要的、有组织的、有意义的数据。

Jason.age=27
Jason.city=Denton

知识就是为什么会有维基、博客:用来跟踪洞察力和经验。注意这些是人类(和社区)的属性。除了一个奇怪的科学项目,Facebook上没有电脑告诉人们相信在。

4

1

Steven A. Lowe 15 年前

信息是增强数据:

数据是惰性的
信息是 可诉的

注意,没有数据的信息仅仅是一种意见;-)

5

0

Dan Bryant 15 年前

如果您有某种方式来表示使其成为信息的附加内容,则信息可以是数据。试图“理解”书面文本的程序可能会将输入文本转换为允许对文本含义进行更复杂处理的格式。这种转换格式是一种表示信息的数据,在整个处理系统的上下文中可以理解。在系统外部,它显示为数据,而在系统内部,它是被理解的信息。