陈奇网络工作室

从数据采集到信息挖掘我们应该重视什么?

服务器

说到人工智能、深度学习,首先考虑的是算法和模型,以及提供最根本动力源的数据。 人工智能技术的快速进步和广泛应用,使我们应对数据的方式从以收集为中心转变为以信息获取为中心。

如果不把存储的数据转换成可用的信息,这些数据——从狭义上说只是一堆字节。 在完成这一转变过程之前,收集足够的数据可能需要多年,包括医学新技术、药物或设备试验等; 基于不常发生的外部因素的集体行动; 气候变化。

首先,数据保留的重要性是不可否认的

关于数据,有一句非常别扭的话。 我不知道你有什么不知道的。 有一个很好的例子。 “垃圾DNA”。 该术语是20世纪70年代一位遗传学家发明的,表示基因组中95 % u 2014.98 % u 7684不编译任何蛋白质或酶的DNA。 当时的生物学家认为,既然几乎所有的具体生理功能都是由蛋白质实现的,那么不编码蛋白质的DNA应该是无用的,可以称为“垃圾DNA”。 到本世纪初,发现一些垃圾DNA调控着染色体的复制方式和时间。

对当时的人们来说,保存数据的成本非常高。 当然DNA测序的成本更大,这也是当初人们保留垃圾DNA数据的原因之一。 收集数据的成本很高,存储数据的成本也很高,所以我们应该更加感谢那些以前做了正确事情的人。 他们不惜代价保存这些旧数据,所以我们有机会从中找到更多的信息。

据了解,一些天气预报中心每天都保存着收集到的所有数据,包括预报模型的输出。 当这些网站有新的预测模型时,他们用新模型运行旧数据,查看模型的输出和观察,看新模型是否优于旧模型,以及有多好。 对一个城市来说,这项工作看起来很简单,但对整个地球来说,这是大量数据和信息的比较。

因此,存储和数据架构师通常面临的挑战是通过开发能够满足性能、可扩展性和治理需求的体系结构来存储这些数据。

从数据采集转向信息挖掘

自从有了数据收集之后,其唯一的目的是使收集到的所有数据都具有实际意义。 手动数据收集和分析需要时间,将数据转换为信息也需要时间和费用。

信息时代始于1890年美国人口普查时,使用霍尔内斯穿孔卡。 虽然它们是空白的,但是和见过的格式化卡不同。 这里的重要问题是,到1890年为止有大量的数据,但没有用于分析的工具,转换成信息的成本很高。

很明显,1890年人口普查产生的信息以今天的标准来看是非常基础的。 但是,根据20世纪90年代的标准,是革命性的。 通过这种方法,人们可以非常迅速地看到人口普查的结果并做出决定(例如,基于数据的可操作信息)。

今天,1890年人口普查数据的表示并不称为信息。 信息定义——应该基于现代标准,而与数据相比,3354在许多其他领域中的定义也发生了变化。

信息分析市场的规模和范围不断扩大,从自动驾驶到安全摄像头分析,再到医疗发展。 无论是哪个行业,还是我们生活的每个角落,都在发生着迅速的变化,变化的速度也在加快。 它们都是数据驱动的,所有新旧收集的数据都将用于开发新的可用信息类型。 围绕数据收集和信息发展的需要,出现了很多问题。

除了保持数据的活性外,法规遵从性也很重要

很多需求都是基于你拥有的信息和数据类型。 例如,您可能希望使用所谓的数据解释字符串( Dar )。 Dar对存储设备进行加密,因此从系统中删除时,几乎无法访问数据。 (其难度取决于加密算法和大小、复杂度等)。 这种类型的需求可以概括为“易用性需求”。 这意味着,所有这些问题都必须得到解决,以确保业务运营所需的性能、可用性和数据完整性,以及体系结构、设施等在数据发挥价值的整个过程中的强大需求,同时保持数据和信息的活性。

此外,数据和信息必须基于行业最佳做法和当地法规,例如欧盟最近发布的通用数据保护注册( gdpr )。 这意味着使用数据时必须始终保持合规性。 这导致的架构和过程的变化也是架构师需要应对的重要事项。

最后的想法

实现合规并不容易,也不便宜。 虽然决定其成本的因素有很多,但在规划并构建了体系结构之后,试图强制其遵循,总是比事先做要花费更多的成本。

我们认为,在定义法规遵从性需求时,应该着眼于未来,而不是只看现在。 因为事后塞满东西的成本和课题会变多。 这意味着您需要不断考虑行业的法规遵从性需求和最佳做法。 数据在未来只会变得更重要,我们总是面临着挑战。 试着先决定应对措施怎么样?

详情请访问云服务器、域名注册、虚拟主机的问题,请访问西部数码代理商官方网站: www.chenqinet.cn

相关推荐

后台-系统设置-扩展变量-手机广告位-内容页底部广告位3