物联网数据的精炼应用是跨越数字化转型鸿沟的基础
随着公司根据从物联网设备获得的数据实施更多的用例,甚至完成业务模式转型,需要一种对这些数据进行数据质量管理的结构化方法变得至关重要。太多的公司试图在质量低劣的数据基础上扩大数字化转型,这会导致很多挫败感,并且几乎没有实际的商业利益。
我有时会用著名的“跨越鸿沟”图进行类比。事实上,初创公司从早期创新者转向被大多数市场采用所面临的挑战有相似之处。当应用于数字化转型时,挑战在于跨越从成功的数字化试点项目到全面实施的鸿沟。
许多公司无法在试点阶段之后扩大数字化转型计划。
行业公司最近的研究证实,数据质量是扩展工业分析的主要障碍之一。换句话说,众所周知的“垃圾进——垃圾出”的口号仍然很盛行。
了解数据质量
现在,尽管数据质量对我们大多数人来说具有直观的意义,但实际上它是一个具有多种可能定义的弹性概念。这些范围可以更窄,例如:
当数据正确地代表了它想要描述的潜在现实世界现象时,数据就具有良好的质量。
根据这个定义,数据需要有效、准确、一致和完整等。数据质量的另一个常见且同样有用的定义如下:
当数据适合目的时,数据的质量就很好。
在第二个定义中,数据结构化、可解释性和情境化的方面也被纳入考虑范围,只要这些方面与预期用例相关。
物联网数据精炼厂
就像炼油厂中原油的情况一样,质量可能较差的原始数据可以得到提炼。可以将其视为通过一系列“质量门”的数据,如下所示:
门1:可访问
数据在可供使用时到达此门。此步骤需要成功连接到数据源并能够查询/读取样本。
门2:结构化和情境化
通过此门的数据是结构化和情境化的。对于物联网数据,此步骤通常意味着已添加设备和资产元数据以及其他关键上下文。
门3:已验证
下一步是数据的质量验证。此时,数据质量是根据许多关键维度进行评估的,包括准确性、一致性和及时性。
门4:清理
评估数据质量通常是不够的。许多数据产品需要数据清理作为管道的一部分来创建可供使用的数据。
门5:带注释
除了清理和结构化之外,可能还需要由主题专家(SME)或数据管理员提供的附加标签,以使数据适合使用。例如,可以标记资产关闭的时间段或在检查问题后添加根本原因信息。
门6:验证
对于关键数据(例如关键报告或计费中使用的数据),让数据管理员明确验证数据并承诺适合使用的事实通常是一种很好的做法。
门7:共享
此时,数据已准备好共享。共享可以发生在内部或外部、与供应商或客户。
门8:可视化
数据可视化和探索是下一步。分析师可以在PowerBI或类似的描述性分析环境中研究数据。
门9:建模
一些数据用于建模。此任务通常由数据科学家执行。
门10:预测
最后,模型可用于对新传入数据进行预测。
随着数据通过大门,它变得更加精致、更加值得信赖、更加有价值。我们确实可以将这个逐步过程视为“数据精炼厂”,并与炼油厂或蒸馏过程进行类比。
在真实的炼油厂中,生产各种产品。例如,靠近蒸馏塔底部的地方生产柴油和煤油等成分,用于重型卡车和喷气式飞机。汽车中使用的汽油混合成分等较轻的成分被提取到蒸馏塔的顶部。
同样,我们的数据精炼厂可能会产生各种数据产品。并非所有这些产品都同样精致。重要的是,我们知道每个产品在数据特征和质量方面的期望。没错,我们不想不小心把煤油放进我们的跑车里!
数据产品占据中心舞台
当公司意识到有必要明确定义数据产品作为数据基础设施和最终用户应用程序之间的一层时,就会出现宣泄的时刻。
数据产品由K2view定义为