当公司根据不可靠的数据做出决策时,不正确的见解会严重影响利润。如果没有正确的信息,您将无法对最终用户和产品做出明智的决定,这就是为什么保持高水平的数据完整性应该是您的首要任务。
本文介绍了数据完整性以及保持文件清洁、可靠和准确的价值。继续阅读以了解什么是数据完整性,并了解数据驱动型组织如何确保文件在数据生命周期的所有阶段都保持健康。
数据完整性定义
数据完整性是指在文件的整个生命周期(捕获、存储、检索、更新、备份、传输等)中确定数据可靠性和一致性的特征。无论有人编辑或复制文件多少次,一条完整的数据都不会有任何意外更改。
作为一个术语,数据完整性的范围很广,并且可以根据上下文具有不同的含义。该短语可以描述:
● 数据的状态(例如,有效或无效)。
● 确保和保持数据有效性的过程(例如,错误检查或文件验证)。
数据完整性应该是任何收集、存储、处理或检索数据的系统的一个关键方面。公司通常通过围绕数据交互(删除、插入、编辑、更新等)的各种规则和程序来强制执行完整性。
数据完整性的主要目标是防止对业务文件的任何意外更改(恶意或意外)。一条具有完整性的数据应具有以下特征:
● 可归因(公司应该知道如何以及何时创建或获取数据)。
● 可追溯(团队必须知道文件在其整个生命周期中发生了什么)。
● 原件(没有不必要的文件副本)。
● 准确(所有包含的信息都是正确且无错误的)。
● 清晰(文件完整并且具有明确定义的属性,可以与其他数据保持一致)。
在某些设计中,数据完整性还可以指有关法规遵从性的数据安全,最常见的是GDPR方面。
数据完整性与数据质量
数据质量(或数据准确性)的目标是保证文件的准确性。文件质量旨在确保信息正确且存储在数据库中的文件符合公司的标准和需求。
公司可以通过衡量数据可靠性和准确性的各种流程来评估数据质量。数据质量的一些关键指标是:
● 完整性(基于特定变量和业务规则的数据全面性的指示)。
● 唯一性(衡量数据集中或与另一个数据库相比项目的重复性)。
● 有效性(与已定义的业务规则和要求一致的程度)。
● 及时性(数据是否是最新的并且在可接受的时间范围内可用)。
● 准确性(数据项描述对象的正确程度)。
● 一致性(表示相同对象的数据项之间不存在差异的度量)。
数据完整性和质量之间有很多重叠之处。完整性还需要完整和准确的文件,但仅仅拥有高质量的数据并不能保证组织会发现它很有帮助。
例如,一家公司可能有一个有效且最新的用户名和地址数据库。但是,如果您还没有提供有关最终用户及其与公司关系的上下文的支持数据,那么该数据库就没有任何价值。
数据完整性与数据安全性
数据完整性旨在使文件保持有用和可靠,而数据安全性则保护有价值的信息免遭未经授权的访问。数据安全是完整性的一个基本子集,因为没有顶级保护就不可能拥有高水平的可靠性。
公司依靠各种技术来保护文件免受外部和内部威胁。常见的策略包括:
● 严格的身份和访问管理。
● 网络分割。
● 数据备份。
● 静态加密。
● 威胁识别系统(即入侵检测系统)。
● 各种容灾能力。
安全性对完整性至关重要。数据安全性通过保护文件免受威胁、维护隐私和确保没有人可以泄露有价值的信息来提高完整性。
为什么数据完整性很重要?
对于大多数公司而言,泄露的数据毫无用处。例如,如果有人更改了您的销售数据,并且没有记录为什么编辑发生或谁更改了文件,则无法知道您是否可以信任该数据。您根据该文件做出的所有决定都不会来自可靠的信息,并且您很容易在以下方面犯下代价高昂的错误:
● 预测客户行为。
● 评估市场活动和需求。
● 评估扩张机会。
● 调整销售策略。
没有可靠的数据会严重影响您的业务绩效。根据麦肯锡最近的一项研究,基于数据的决策是顶级组织统治市场的方式。基于可靠数据的数据驱动型公司是:
● 在客户获取方面超过竞争对手的可能性大约高出 23 倍。
● 留住用户的可能性高出 9 倍以上。
● 利润是最接近的竞争对手的 19 倍。
不幸的是,大多数高级管理人员对其组织使用数据的方式没有高度信任。毕马威国际最近的一项研究揭示了以下数字:
● 只有 35% 的 C+ 高管表示他们高度信任公司使用数据和分析的方式。
● 超过 92% 的决策者担心数据和分析对组织声誉的负面影响。
数据完整性类型
保持高水平的可靠性需要了解两种不同类型的数据完整性:物理完整性和逻辑完整性。
物理数据完整性
物理完整性是指确保系统和用户正确存储和获取文件的过程。此类数据完整性的一些挑战可能包括:
● 各种人为错误导致的问题。
● 机电故障。
● 设计缺陷。
● 停电。
● 自然灾害。
● 极端温度。
● 黑客破坏数据库(例如,使用DDoS 攻击或SQL 注入)。
● 材料疲劳和腐蚀。
● 各类网络安全攻击。
公司可以确保高水平的身体完整性的一些最常见的方法是:
● 设置冗余硬件。
● 使用集群文件系统。
● 依靠纠错内存。
● 部署不间断电源。
● 使用某些类型的RAID阵列。
● 在关键子系统上使用看门狗定时器。
● 依靠纠错码。
逻辑完整性
逻辑完整性与特定上下文中一段数据的正确性有关。逻辑完整性的常见挑战是:
● 人为错误。
● 软件错误。
● 设计缺陷。
确保高水平逻辑完整性的标准方法包括:
● 检查约束。
● 外键约束。
● 程序断言。
● 运行时完整性检查。
处理关系数据库时,逻辑完整性具有三个子集:
● 实体完整性:实体完整性使用主键(标识一条数据的唯一值)来确保表没有重复的内容或空值字段。
● 参照完整性:这种类型的数据完整性是指使用外键的概念来控制数据的更改、添加和删除的过程。
● 域完整性:域完整性确保域中每条数据的准确性(域是列可以包含和不能包含的一组可接受的值,例如只能有数字的列)。
除了这三个子集,一些专家还对用户定义的完整性进行了分类。此子类别是指适合业务需求但不属于实体、引用或域完整性的自定义规则和约束。
数据完整性风险
各种因素都会影响业务数据的完整性。一些最常见的风险包括:
● 人为错误:用户和员工是影响数据完整性的最重要风险因素。输入错误的数字、错误地编辑数据、复制文件和意外删除信息是危害完整性的典型错误。
● 硬件相关问题:服务器突然崩溃和 IT 组件受损可能导致数据呈现不正确或不完整。这些问题也会限制对数据的访问。
● 格式之间的不一致:格式之间缺乏一致性也会影响数据完整性(例如,依赖单元格引用的 Excel 电子表格中的一组数据在不支持这些单元格类型的不同格式中可能不准确)。
● 传输错误:当一条数据无法从数据库中的一个位置成功传输到另一个位置时,就会发生传输错误。
● 安全故障:安全漏洞很容易危及数据完整性。例如,防火墙中的错误可能允许未经授权访问数据,或者备份协议中的错误可能会删除特定图像。
● 恶意行为者:间谍软件、恶意软件和病毒是严重的数据完整性威胁。如果恶意程序入侵计算机,第三方可以开始更改、删除或窃取数据。
不遵守数据法律也可能导致严重的完整性问题。不遵守HIPAA和PCI等法规也将导致巨额罚款。
数据完整性违规示例
以下是公司可能危及文件完整性的一些现实场景:
● 公司有人不小心试图将数据插入错误的表中。
● 当有人在两个数据库之间传输数据时,网络出现故障。
● 员工输入了超出可接受范围的日期。
● 最终用户以错误的格式输入电话号码。
● 应用程序错误尝试删除错误的文件。
● 用户删除另一个数据库正在引用的表中的记录。
● 黑客设法从保护不善的数据库中窃取所有用户密码。
● 一场大火席卷了数据中心,烧毁了存储有价值数据库的计算机。
● 过去一个月,常规数据库备份一直失败,而没有提醒安全团队。
● 黑客入侵数据库并使用勒索软件加密敏感数据。
如何确保数据完整性
以下是您可以用来提高组织中数据完整性的建议和最佳实践列表。
了解数据的生命周期
您必须了解有关数据的所有信息,才能完全控制其完整性。首先回答以下问题:
● 贵公司存储哪些数据,为什么?
● 公司如何收集数据?
● 不同类型的数据在逻辑上是分开的吗?
● 你的信息来自哪里?
● 团队如何分析和使用数据?
● 谁创建了有价值的文件?
● 谁有权访问敏感文件?
● 哪些员工可以修改数据?
● 公司删除过期数据的流程是怎样的?
在此阶段,您还应该考虑任何相关法规(GDPR、CCPA、HIPAA 等)。只有在您了解公司收集哪些数据以及员工如何处理文件后,您才能准备好开始提高整体完整性。
创建审计跟踪
审计跟踪记录一段数据在其生命周期中的每次交互。每次用户传输或使用文件时都会进行审计记录,因此您将拥有高水平的可见性。典型的端到端路径应具有以下特征:
● 自动生成。
● 防止篡改的不变性。
● 跟踪和记录每个事件(访问、创建、删除、修改等)的能力。
● 每个事件的时间戳。
● 将事件与单个用户帐户对齐的能力。
如果您遭受数据泄露或遇到数据瓶颈,审计跟踪将有助于追踪问题的根源并加快恢复时间。
严格的访问控制
使未经授权的个人远离敏感文件对于完整性至关重要。你应该:
● 映射所有员工和系统以了解谁有权访问哪些文件。
● 验证用户时使用双重身份验证 (2FA)。
● 在需要知道和需要使用的基础上授予访问权限。
● 使用久经考验的身份验证协议,例如Kerberos。
使用错误检测软件
错误检测软件有助于自动监控数据完整性。这些程序通过以下方式提供帮助:
● 隔离轮廓。
● 减少意外错误的可能性。
● 协助员工维护数据卫生。
● 执行数据编辑和管理规则。
● 找出错误背后的原因。
● 推荐步骤以避免将来出现错误。
您还可以使用异常检测服务将数据完整性风险保持在可管理的水平。
识别并消除安全漏洞
寻找并主动消除安全漏洞对于保持高水平的文件完整性至关重要。根据您的预算和团队的技能组合,您可以在内部级别搜索漏洞,也可以聘请外部安全专业人员团队。
使用验证
计划、映射和规定公司如何使用数据至关重要,但您还应该使用验证来确保员工遵循指示。如果 IT 系统和人员按照业务范围的程序运行,您应该部署定期测试、验证和重新验证的程序(甚至可能是员工)。
每当已知或未知来源提供您的数据集(最终用户、应用程序、员工等)时,您还应该使用输入验证。
传达数据完整性的价值
对您的员工进行有关信息完整性的教育与强制他们处理数据的方式一样重要。员工应该知道如何:
● 正确使用、存储、检索和编辑数据。
● 识别并应对数据完整性的潜在威胁。
● 报告对业务数据不负责任的行为。
● 查找有关正确文件管理的所有说明和指南。
搜索和删除重复数据
您需要清理杂散数据并删除敏感文件的不必要重复项。杂散副本可以轻松地在文档、电子表格、电子邮件或共享文件夹中找到一个主页,没有适当访问权限的人可以看到它。
虽然您可以让人工查找和删除重复数据,但更安全的长期赌注是依靠可以在本地和云端自动清理数据的工具。
备份敏感数据
您应该使用备份在所有情况下保持完整性。备份文件有助于防止数据丢失,如果您使用不可变备份,您可以安全地以原始状态存储数据。这样,再多的编辑或删除文件的尝试都不会导致永久性数据丢失。
提高诚信并促进您的决策
知道如何保持高度诚信的公司在当今市场上蓬勃发展,而那些无法正确管理信息的公司往往会失去重要的竞争优势。提高您的数据完整性水平,开始做出自信的、数据驱动的决策,引导您的公司朝着正确的方向发展。