l通过批处理和流处理回顾当今常用的有限和无限数据的主要数据处理方法,大致将无限方法分为:时间无关、近似、处理时间窗口和事件时间窗口。
小概率事件就是所谓的奇迹,讽刺的是,人类作为宇宙中的奇迹,却不相信奇迹。人类的概率认知是判定可能,实际上当你判定可能时,就已经被限制于可能与不可能的通道中。更高的生存智慧是用无限去创造奇迹,当你将无限加入到对概率的描述时,实际上就让可能与不可能发生自指关系。这与增加概率的思维完全不同,此时无限化就是一种构建自指关系的智慧。
不幸的是,当按事件时间窗口时,情况也不完全乐观。在无限数据的情景中,无序和变量偏差会引发事件时间窗口的完整性问题:在处理时间和事件时间之间缺乏可预测的映射,如何确定何时观察到给定事件时间的所有数据X?对于许多现实世界的数据源,你根本做不到。但是当今使用的绝大多数数据处理系统都依赖于某种完整性概念,这使它们在应用于无限数据集时处于严重劣势。
首先,我们对时间域的重要概念有一个基本的了解,然后我们将更深入地了解我所说的具有不同事件时间偏差的无限、无序数据的含义。然后,我们将在本章的剩余部分研究使用批处理和流系统进行有限和无限数据处理的常用方法。
无限数据源上的事件时间窗口的另一个好处是,你可以创建动态大小的窗口,例如会话,而不会像在固定窗口上生成会话时那样得到拆分(正如我们之前在“无限数据集:流”中的会话示例中看到的那样),如图1-11所示。
Marvel Comics
大事件-无限危机
其他