什么是数据网格

2022-09-22 20:39:22 苏腾韦

导读数据网格是一种分散的数据管理方法，其中数据本身保留在收集它的业务域中。然而，数据网格技术使这些数据可供不同位置的合格用户使用，而无

数据网格是一种分散的数据管理方法，其中数据本身保留在收集它的业务域中。然而，数据网格技术使这些数据可供不同位置的合格用户使用，而无需从当前位置移动或以其他方式下载数据。

数据网格显然不是孤岛。事实上，它是数字化转型努力广泛分发数据的核心。整个组织的SQL客户端都可以使用分布式查询引擎对其进行查询。在这个私有的连贯业务数据之上是分布式查询引擎，它可以访问和统一数据以实现互操作性，而不是集中存储。

换句话说，数据网格使数据民主化。它创建了“作为产品的数据集”，一种标准化的产品，任何人都可以使用。它是安全的，符合当地法规，并且突然变得更具可扩展性。

简而言之，通过数据网格架构，业务领域用户上升到优先级列表的顶部。这使他们能够决定哪些数据可以和不能是什么，从而将他们从昂贵的基础设施限制中解放出来，这些限制阻止组织访问其所有数据的累积智慧。

另请参阅：数字化转型指南：定义、类型和策略

数据网格的挑战和潜力

这是一个预测：到 2025 年，我们这些生活在不断变化的数据聚合、传输、ETL、存储、商业智能和可访问性世界中的人将会像看待今天的云计算一样看待数据网格。这是一种同时缩减开销(时间和金钱)、减少繁重的工作(维护、升级、备份)并提供以前不存在的最终用户能力的策略。

简而言之，数据网格是一种技术演进，其技术和业务优势使其显而易见且不可避免。这种不断发展的范式旨在解决哪些挑战?

来自太多来源的太多数据

随着企业接受全面的数字化转型，涌入的数据海啸令人震惊。数据点在全局级别上以前所未有的粒度级别动态流入。

虽然历史财务/运营数据一直被用作推动管理层业务决策的分析工具，但我们现在看到 BI 为营销、销售和产品开发团队提供由始终在线的交易数据驱动的改变游戏规则的洞察力也是。这些面向客户的团队最终可以根据客户采取的每一项行动，立即了解哪些有效，哪些无效。

拥有它是一种非凡的力量，但他们必须处理的数据量很难收集、存储、查询和管理。

数据湖

没有人会争辩说孤立的数据是一件好事。已经出现了数百家初创公司，提供打破这些孤岛的解决方案。但是，虽然过去十年的目标是将数据源统一到一个存储库中以产生“单一事实来源”，但该存储库突然——令人惊讶地——感觉就像昨天的策略。为什么?因为它引入了一些限制，而巨大的单一来源日益膨胀。

数据网格通过降低孤岛的封闭质量来帮助解决这个问题。数据网格可帮助整个组织的专家使用数据。

大型企业数据管理

显然，大型企业数据管理是混乱的。特别是，将实时、流动的数据集成到静态或历史数据中是一项挑战。

从边缘源传入和传出数据湖的数据- 并在到达后管理其存储 - 既耗费时间和资源，又非常昂贵。瓶颈变得更加频繁，业务敏捷性下降。

单一的、聚合的数据集合不能轻易地遵守因国家/地区而异的数据驻留和隐私法规合规性;数据治理在地理上是多样化的，而硬件则不是。

最后——通常也是臃肿数据湖最痛苦的特征——是查询开销无法扩展的现实。随着越来越多的用户需要查询同一个数据库、添加源或操作那里的内容，响应时间变慢了。当然，这假设数据湖包含真正的数据虚拟化，以无缝允许任何有权连接到任何数据源或平台的人，根据我们最近的调查，这是一个重要问题。

简而言之，把你所有的鸡蛋放在一个篮子里有一些吸引力，但那将是一个很难携带的沉重篮子……或者很难找到合适的鸡蛋。输入数据网格。它保留了集中式标准化数据湖的优势，同时引入了当前的可扩展性和访问权限。您可以将其视为“分布式数据湖”。

数据网格如何赋能用户?

数据网格提供大规模的自动化、全面、即时分析。数据科学家——以及缺乏专业知识和培训的数据消费者——现在将能够访问业务数据，针对自己的业务需求进行自己的分析。

这种具有单点访问控制的自助服务策略首次代表了以人为本的数据管理计划;一种更快、更有效的方式来获得答案，而不会给 DevOps 团队带来负担，希望它们的可用性。这对数据团队来说是一个主要好处。

Thoughtworks 的新兴技术总监 Zhamak Dehghani于 2019 年在 O'Reilly 会议上创造了这种范式(她后来在写关于这个主题的书时将其命名)，将其称为混合体：“一种分散的社会技术方法——关注组织设计和技术架构。”

访问驱动器见解

从某种意义上说，数据网格也是我们对云计算和数据虚拟化所期待的“任何人/任何地方”模型的下一个阶段。

业务域自己的应用程序和访问工具通常是为其自己的用户及其特定需求而设计的。在理想情况下，它的数据是本地的，因此延迟最小。

但是，如果一个业务部门的成员从另一个业务部门寻求数据，他们就会受到自己框架的限制。如果他们确实能够访问该集中式数据湖，其远程位置(和大小，其中大部分不是业务部门自己的数据)会增加延迟。

使用数据网格，系统交互、共享其现场数据并将结果提供给不同的业务用户组比以往任何时候都更容易。这些可能是完全独立的团队(例如，人力资源和研发)或具有相同目标和通常相同数据的跨职能团队(QA 与产品管理合作，或销售与营销合作)。这种新的毫不费力的透明度保证了新的生产力水平。

数据网格的三种类型是什么?

随着这种方法的实施，请留意数据网格的三种类型或“风格”。大多数公司将使用这些的组合：

基于文件：将数据编译、打包并简单地以静态文件的形式提供。这是最接近当今简单的云存储方法的方法，但将存在于新的通用点对点共享模型下。

事件驱动：无论是哪个业务部门或部门，消费者都可以在数据以对他们有意义的方式发生变化时“注册”以获取警报。同样，这不是火箭科学，但只有在以前孤立的数据在整个组织中公开和访问时才可用。

支持查询：显然是最强大的风格，任何用户都可以提交跨多个数据库的联合查询，只有在组合结果时才能创建洞察力。这是为最终用户提供新功能的圣杯，并为数据科学家提供了一些假期时间。

请注意，数据网格并不完全与公司业务员工有关。当数据来自一个优化的、专用的、分布式的源而不是一个庞大的、多用途的源时，最终用户将感受到响应的速度。作为回报，这些用户在此过程中提供的点击流和网络数据可以作为一个纯粹的反馈循环被立即吸收和处理，以提高性能、产品功能并最终提高利润。

赋能数据民主化

虽然广泛的实施和采用不会在一夜之间发生，但许多组织正在采用数据网格架构来民主化和扩展他们的数据。

这一举措让数据团队有责任成为真正的自治：他们需要自己摄取和清理数据，创建ETL 管道(并维护它们)，并管理访问控制。同时，他们在这些完全拥有的步骤上投入的越多，他们期望的结果就越好。是的，这意味着一个新的“温暖而模糊”的互利共享时代，因为每个领域都可以通过简单地转换数据并将其提供给他们的社区来帮助其他领域。

我将以 Dehghani 的离别想法作为结尾，她描述了分布式数据网格架构的总体价值，在集中式访问系统下拥有域拥有的数据：“在过去的几十年中，已经超越其运营规模的技术有一个共同点：它们最大限度地减少了协调和同步的需要。”

标签：