从数据采集到信息挖掘我们应该重视什么？--陈奇网络工作室

服务器

说到人工智能、深度学习，首先考虑的是算法和模型，以及提供最根本动力源的数据。人工智能技术的快速进步和广泛应用，使我们应对数据的方式从以收集为中心转变为以信息获取为中心。

如果不把存储的数据转换成可用的信息，这些数据——从狭义上说只是一堆字节。在完成这一转变过程之前，收集足够的数据可能需要多年，包括医学新技术、药物或设备试验等；基于不常发生的外部因素的集体行动；气候变化。

首先，数据保留的重要性是不可否认的

关于数据，有一句非常别扭的话。我不知道你有什么不知道的。有一个很好的例子。 “垃圾DNA”。该术语是20世纪70年代一位遗传学家发明的，表示基因组中95 % u 2014.98 % u 7684不编译任何蛋白质或酶的DNA。当时的生物学家认为，既然几乎所有的具体生理功能都是由蛋白质实现的，那么不编码蛋白质的DNA应该是无用的，可以称为“垃圾DNA”。到本世纪初，发现一些垃圾DNA调控着染色体的复制方式和时间。

对当时的人们来说，保存数据的成本非常高。当然DNA测序的成本更大，这也是当初人们保留垃圾DNA数据的原因之一。收集数据的成本很高，存储数据的成本也很高，所以我们应该更加感谢那些以前做了正确事情的人。他们不惜代价保存这些旧数据，所以我们有机会从中找到更多的信息。

据了解，一些天气预报中心每天都保存着收集到的所有数据，包括预报模型的输出。当这些网站有新的预测模型时，他们用新模型运行旧数据，查看模型的输出和观察，看新模型是否优于旧模型，以及有多好。对一个城市来说，这项工作看起来很简单，但对整个地球来说，这是大量数据和信息的比较。

因此，存储和数据架构师通常面临的挑战是通过开发能够满足性能、可扩展性和治理需求的体系结构来存储这些数据。

从数据采集转向信息挖掘

自从有了数据收集之后，其唯一的目的是使收集到的所有数据都具有实际意义。手动数据收集和分析需要时间，将数据转换为信息也需要时间和费用。

信息时代始于1890年美国人口普查时，使用霍尔内斯穿孔卡。虽然它们是空白的，但是和见过的格式化卡不同。这里的重要问题是，到1890年为止有大量的数据，但没有用于分析的工具，转换成信息的成本很高。

很明显，1890年人口普查产生的信息以今天的标准来看是非常基础的。但是，根据20世纪90年代的标准，是革命性的。通过这种方法，人们可以非常迅速地看到人口普查的结果并做出决定(例如，基于数据的可操作信息)。

今天，1890年人口普查数据的表示并不称为信息。信息定义——应该基于现代标准，而与数据相比，3354在许多其他领域中的定义也发生了变化。

信息分析市场的规模和范围不断扩大，从自动驾驶到安全摄像头分析，再到医疗发展。无论是哪个行业，还是我们生活的每个角落，都在发生着迅速的变化，变化的速度也在加快。它们都是数据驱动的，所有新旧收集的数据都将用于开发新的可用信息类型。围绕数据收集和信息发展的需要，出现了很多问题。

除了保持数据的活性外，法规遵从性也很重要

很多需求都是基于你拥有的信息和数据类型。例如，您可能希望使用所谓的数据解释字符串( Dar )。 Dar对存储设备进行加密，因此从系统中删除时，几乎无法访问数据。 (其难度取决于加密算法和大小、复杂度等)。这种类型的需求可以概括为“易用性需求”。这意味着，所有这些问题都必须得到解决，以确保业务运营所需的性能、可用性和数据完整性，以及体系结构、设施等在数据发挥价值的整个过程中的强大需求，同时保持数据和信息的活性。

此外，数据和信息必须基于行业最佳做法和当地法规，例如欧盟最近发布的通用数据保护注册( gdpr )。这意味着使用数据时必须始终保持合规性。这导致的架构和过程的变化也是架构师需要应对的重要事项。

最后的想法

实现合规并不容易，也不便宜。虽然决定其成本的因素有很多，但在规划并构建了体系结构之后，试图强制其遵循，总是比事先做要花费更多的成本。

我们认为，在定义法规遵从性需求时，应该着眼于未来，而不是只看现在。因为事后塞满东西的成本和课题会变多。这意味着您需要不断考虑行业的法规遵从性需求和最佳做法。数据在未来只会变得更重要，我们总是面临着挑战。试着先决定应对措施怎么样？

详情请访问云服务器、域名注册、虚拟主机的问题，请访问西部数码代理商官方网站： www.chenqinet.cn

相关推荐