说到数据质量你会想到什么(谈一谈数据的时空观)
编辑导语:数据的时空观是我们认识数据价值的一种新角度,它研究的是数据在时间和空间两个维度上的价值规律与作用机制,那么该如何理解数据的时空观?本文作者基于数据的时空观问题展开了分析,看看如何才能从时空观中看出数据的取舍之道。
之前谈过数据的价值观,今天想谈一谈数据的时空观。
说到时空观,好像也是大数据领域比较忌讳的。因为一说到时空观就要扯到相对论了,在大数据领域来聊相对论的话题,大部分专家是不敢搬起石头砸自己的脚的。
没关系,反正笔者是大数据领域的一个小角色,胡说八道的聊几句,也不会掉自己的身价。
所以,今天笔者就打肿脸充胖子,在这里说说自己对数据时空观的理解。
一、什么是数据的时空观开门见山,先说说什么是数据的时空观。
笔者认为:数据的时空观是关于数据在时间和空间两个维度上的价值规律与作用机制的基本看法与认知。这里提到的数据是一种宽泛的说法——既包括传统的结构化数据,也包括音视频、文本等非结构化与半结构化数据。
由以上定义可知,数据的时空观要研究的是数据在时间序列和空间位置上价值变化规律。
时间和空间本身就是人类认知世界经常分析的两个维度:时间和空间一方面可以对应到数据的纵向深度和横向广度,另一方面还可理解为数据在三维立体世界中的生命力,数据的时空价值本身就是数据生命力的体现。
二、如何理解数据的时空观1. 数据的时间观:数据是有温度的
时间赋予数据以温度。
绝大部分数据是有时间上的延续性的,随着时间的推移,数据的温度或热度也随着变化。越是久远的数据,其“体温”就越低,而此时此刻的数据则是鲜活的,新鲜出炉的数据就有较高的温度。
企业根据数据的温度差异,可以对不同温度的数据进行差异化处理。
比如:在用户画像领域,可以将用户的数据分为冷数据、温数据和热数据三种类型。
- 冷数据:一般指三个月前的数据,这些数据通常比较稳定,长期以来不怎么变化,例如:年龄、性别、常住地、职业等;
- 温数据:指近三个月内的数据,是半冷不热的数据,比如:近一个月下载过哪些APP、玩过哪些游戏等等,这些都是具有一定时效性的数据;
- 热数据:指实时的数据,即此时此刻用户在做些什么,这些数据都有极高的时效性,把握这些热数据所产生的商机往往能考验企业与个人的灵敏度和实时营销能力。比如:对于滴滴司机来说,抢到更多的实时订单就意味着空载率越低,其在单位时间内的运营效率就越高,实时订单就是热数据,司机获得高价值的热数据越多,也就能赚到更多的钱。
商业领域,数据价值一般随着时间的流逝在衰减。
艾宾浩斯遗忘曲线告诉我们,遗忘是人类的天性,时间越久远的事物,人类大脑能记住的就越少。
而在商业领域,随着人类采集和存储数据的技术日益成熟,数据存储成本的快速降低,需要人类大脑记住的数据反倒越来越少了,数据的记忆工作大部分都交给了电脑、云盘、服务器等工具。
随着时间的推移,数据量在增加,数据存储成本也在增加。
但是,从数据价值的时效性来看,越是新鲜的数据其价值一般会越高,而同样的数据如果是半年前的,那么其价值就会大打折扣。伴随着时间的流逝,数据的价值一般呈衰减态势。
在某些特定领域,时间能为数据主体带来增值。并非在所有的领域,时间都会让数据及其主体的价值产生衰减效应。
比如:一些古董或考古文物,对于此类物品有浓厚兴趣的玩家,其年代越久远,物品的价值就越高。
数据此时虽说只是一种记录或者证明,但是数据珍藏的时间越长久,承载数据的主体其稀缺度就越高,在市场上的估价就越高。
再比如:在很多悬疑侦破类电视剧中,很多历史上的案件因为缺乏实际有效的证据而被搁置为悬案。此时历史上的证明资料,可能就是一段视频文件,这些视频资料的数据因其重要性和难获得性,其对于案件侦破的价值就显得非常高。
当然,还有一些经典的影像资料、音乐作品、艺术作品等,这些作品及其所承载数据也是随着时间的流逝而会呈现价值增值的。
数据的时间价值是相对的。
价值本身是一个相对的概念,数据在时间维度上的价值也是相对的:一方面与数据本身的价值有关,另一方面也与个人或组织对于数据本身的感知有关。
数据的时间价值是有人文情怀在起作用的,所谓“如人饮水,冷暖自知”,同样是一段小时候的个人视频记录数据,每个人在不同的年龄段去打开观看时,可能会有不同的体验。
所以,对数据价值的体验与个人或组织的经历、状态等都有关系,数据的时间价值因人而异、因事而异。
2. 数据的空间观:数据是有亲疏度的
空间赋予数据以距离感和亲疏度。
按此角度,数据可粗略分为:远距离数据和近距离数据。
同样的数据对处在不同空间位置下的企业或者个人,其影响度是完全不同的。一般来说,距离越远,数据的鸿沟越大,信息的不对称就越严重。
具体来说,数据在空间上的变化体现在两个方面:物理距离和业务距离。
1)物理距离
指在地理位置上或者经纬度上的差距,这个是在客观世界里的真实存在的距离。
比如:如果你身在新疆地区,同样是新增10个新冠肺炎确诊病例,在新疆地区的人对这个数据的感受与身在北京的人是不一样的,对于身在疫情重灾区的美国的留学生来说更是不一样。
可见,数据所反映事物的影响力与我们当前所处的空间位置有一定的关系,当然也与接收数据的主体对事物的关心程度有关系。总体趋势是物理距离越近,数据的价值或影响力就越大。
利用物理距离可以圈定电子围栏,锁定围栏中的目标用户可以进行精准“打击”。
比如:美团和高德地图软件中都有“附近”这个选项,进入其中就能发现距离当前位置最近的商户信息,此时如果客户有订餐或就餐需求,就可以选择距离较劲的、符合自身口味的餐厅去就餐。
同样道理,美团或高德也可以在APP端推送餐厅的信息给围栏内的客户,为平台上商户进行引流。
物理距离越近,与客户越亲近,为客户提供的服务就越容易获得,客户消费就越便利,这对平台、商户和客户都是有好处的,这其中数据实际上拉近了商户与客户之间的物理距离。
数据离客户或商家越近,其价值就越高。
2)业务距离
一般是指商业领域里数据与业务之间的距离,更具象化的说法是某项指标如果属于前端业务领域的,那么它就离业务比较近,如果属于后台部分的,那么它可能离业务的距离就比较远。
比如:订单量、销售额这样的数据离业务比较近,对业务人员的价值或影响力比较大,而员工在职人数、会议次数等数据则离业务比较远,对业务人员来说没有多大的价值。
一般来说,某项数据离实体业务越远,其在企业内的重要性就越低,其价值也就越低。
在某些领域,物理距离反而能增加事物的神秘感和探索价值。都说距离产生美,有时候距离也能产生价值。
比如:对于太空迷和天文学家来说,遥远的太空和外星球是很有吸引力的,有关外太空的深度数据因其稀缺性和难以获得性,对于太空迷和天文学家是很有价值的。
所以说,在太空探索等特殊领域,物理距离是无法逾越的障碍,但是物理距离反而可以增加太空的神秘感和探索价值。
借助AR/VR技术可以缩短外太空与人类之间的距离,让我们能产生身临其境的感觉。可以预见,在5G与AI技术加持下,物理距离将不再是限制事物释放数据价值的障碍了。
3. 数据价值的转换:以时间换空间
时间和空间本身是数据的两个维度。
在现实生活中,实现物理空间的跨越往往需要时间,而数据从一个位置传送到另外一个位置时通常是瞬时完成的。
所以,数据可以节省现实世界里实体的空间变化所耗费的时间,也就是用时间换取空间,数据给到了合适的人手中,物理空间上完成了转换,数据价值也完成了传递。
用时间换取空间的例子很多,比如在泰国高分神剧《天才枪手》中,小林想到的跨时区作弊方法,就是利用了SAT考试在不同时区的时间差,在这个时间差内完成考题答案(数据)的空间传输。
小林先去澳大利亚参加考试,把所有的考题和答案背诵下来,然后通过藏起来的手机将答案(数据)传送,老板们通过铅笔来把答案带进考场铅笔上有不同的条形码粗细代表各不同的选项,而旁边的数字就是填空题的答案。
一场完美的作弊就是这样完成的,虽然实际执行过程中出现了一些意外情况。
总之,数据价值可以实现时间和空间的转换,数据在时间维度的价值可以转化为在空间维度上的优势。
在适当的场景下,空间维度的价值也可以转化为时间维度的价值,这就是数据价值在时空上的统一与转化。
4. 数据的时空交互:价值的具象化与数据可视化
数据同时在时间和空间上的积累,最终能演化出什么样的价值呢?
笔者认为,数据在时空上长期的积累至少能证明我们做事情的专注和坚持,这无论对个人还是企业来说,都是一笔可贵的财富,世上没有白走的路,每一步都算数。
正如《西游记》中唐僧不远万里赴西天取经,正是因为佛祖看到了唐僧师徒经过了九九八十一难的数据积累,正是因为佛祖看到了唐僧师徒四人17年(时间数据)跨越了千山万水(空间数据),才最终给唐僧下发了经书,唐僧等人才得以修成正果。
在《西游记》中,数据在时空上的价值得以具象化,最终换取了佛经和正果。
数据同时在时间和空间维度上都有变化时,数据将呈现怎样的状态呢?
此时,数据可视化将会告诉我们答案。
- 从时间上,数据可视化技术可以呈现数据在时间维度上的变化轨迹;
- 从空间上,数据可视化技术将为我们呈现数据在不同位置的浮动和涌现。
比如:天气预报充分融合分析了天气相关指标的时空特性,是时空大数据产品的典型代表。
三、从时空观看数据的取舍之道综上所述,数据从时间维度来看是有温度的,从空间维度来看则是有亲疏度的。
通常情况下,数据离我们的时间越长,离我们的距离越远,数据的价值就越低。由此,引出了另一个话题,那就是数据的取舍。
既然数据的价值跟时间和空间有关系,那么那些时间上离我们很久远的、距离上离我们比较远的数据就是垃圾数据,也就是价值不大的数据,这些垃圾数据经年累月的积累下来,就会占据大量的存储空间、耗费大量的存储成本。
在数据爆炸的今天,我们应该学会对数据进行适当的取舍了,是时候要放弃一部分低价值数据了。
对于企业来讲,做数据资产管理不可贪多求全,适当放弃低价值数据方是正途,建议企业应该更加重视与业务距离较近的热数据,而对与业务距离较远的、非热数据应采取有选择性的放弃策略。
四、关于数据的时空观的小结
数据的时空观是我们认识数据价值的一种新角度,它研究的是数据在时间和空间两个维度上的价值规律与作用机制。
时间赋予数据以温度,将数据分为冷数据、温数据和热数据。
从数据价值的时效性来看,越是新鲜的数据其价值一般会越高;空间赋予数据以距离感和亲疏度,将数据分为远数据和近数据,总体趋势是物理距离或业务距离越近,数据的价值或影响力就越大。
数据在时间上的价值与空间上的价值有时是可以相互转化的——数据价值在时空特性上可实现统一,可以具象化和形象化。在数据爆炸的时代背景下,企业应懂得数据的取舍之道,学会有选择性的放弃低价值数据。
以上就是我对数据时空观的粗浅看法,我在这里等候各位专家拍砖过来。
扩展阅读:我的数据价值观:是什么?有什么价值?如何产生价值?
作者:黄小刚,大数据产品设计与运营
本文由 @黄小刚 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。