“垃圾进,垃圾出”简而言之定义了数据在数据科学或机器学习中的重要性。错误的输入将产生毫无意义的结果,而筛选数据可确保我们获得可理解的结果。在开始构建模型和产生见解之前,我们需要确保所处理数据的质量尽可能接近完美。这就是数据筛选和回归假设检查对所有人来说都非常重要的地方数据科学家。
筛选数据涉及寻找与研
究问题不直接相关但可能对统计模型结果的解释方式或分析策略是否需要修改产生影响的数据特征。这涉及仔细研究变量和缺失值的分布方式。识别变量之间关系的能力对于做出建模选择和解释结果很有用。
数据筛选有多个步骤,例如验证数据准确性并检查缺失数据和异常值。但数据筛选的一个非常关键的方面是检查假设。参数统计在很大程度上依赖于假设,这为统计模型和测试的应用和理解奠定了基础。
使用参数统计时
必须假设总体的基本分布或所研究变量之间的关系。这些假设使数据科学家能够从数据中得出合理的推论。合理的假设可以增强统计方法的准确性和可靠性。
在迁移工作负载时
建立备份和恢复流程是关键。总而言之,轻松的数据可移植性对于灾难恢复也很重要。在勒索软件等重大事件中,原始环境通常无法恢复受损的工作负载(通过备份),因为它通常被封锁为犯罪现场,并且环境可能仍然受到损害。为了快速恢复并避免代价高昂的停机,有时需要将工作负载恢复到新的临时环境,例如不同的云。
当组织努力管理其 环境并避免财务和网络安全意外时,不断评估您拥有的数据和应用程序以及它们的保存位置非常重要。但为了根据需要进行管理和调整,企业必须考虑可移植性。通过这样做,企业可以创建更灵活、更具成本效益的云环境,从而更容易从勒索软件等灾难中恢复过来。