数据存在的意义

2019-07-23#观点

数据的意义,存在的意义。关于这个话题我思考很久了,聊一聊自己的想法。有点罗嗦有点长,有点没有逻辑性,有点不负责猜想。

一个厌恶社交网络的人死后

大多数人都有这样的同学,他不善表达,也不扩展圈子。跟你几乎没有交集,如果不是听人谈论,他一个星期没来上课,你可能都不会发觉。他在你的生活中没有存在感。

突然有一天你听到以前的同学谈论,他意外死了。你才发现,你甚至都没有他的联系方式。哦不对,你加过他微信好友。打开朋友圈,空无一物。他似厌恶社交网络,从来不在网络上发表观点。当然他也不是什么名人,平平淡淡的生活也写不出什么个人传记。

你对他的印象停留在上学时,姓名以及其它一些标签,[“胖子”, “死宅”, "有一次上课睡觉被老师抓住..."]。

没了。

他以这样的方式,这样的数据活在你的记忆里。

XXX 死了的消息在班级群里传播开,多了很多条 "RIP"的群消息后, 便没了下文。同学们又回归了日常社畜生活。除了亲人朋友没人会悲伤,亲人朋友悲伤一段时间过后,这种情绪也渐渐消失了。

于是乎关于他名字和标签的数据,躺在与他相识的人的记忆里,很少被访问到的角落里。

被消费的信息

YYY 是 XXX 的同学,一天 “XXX 死亡” 的消息,出现在班级群里。YYY 早上打开微信看到这条消息一阵唏嘘,跟着群里的消息象征性地回复了一句 “RIP” 。吃早饭时不忍想到这件事情,心里难免胡思乱想。摇了摇头后,YYY打开了微博,ZZZ 演唱会上热搜榜了。

对于 YYY 而言 ,"XXX 死亡", "ZZZ 演唱会" 不过是一天信息流中的一部分。

如果 YYY 一个星期不进食,他可能会死掉。如果 YYY 一个星期不浏览信息,他应该会感到无聊。

如果 YYY 活在一个周围全是空白的房间里,每天都吃饭,但是每天都不能浏览信息,也不能发出信息。对于外人而言,YYY 应该也算死掉了吧。对于YYY 自己而言应该是生不如死。

人类除了消费食物,也要消费信息。这似乎是生来既有的本能,消费食物支撑身体,消费信息支撑精神。

一个人一生的数据

一个人对于社会而言,扮演者消费者和生产者两种角色。消费物资,消费信息。生产物资,生产信息。

每个人都在这样的循环里度过一生,社会在这样的循环里运作。驱使着这个循环运作的动力便是人类与生俱来的欲望——消费生产和复制。

一个人的一生 = 他消费的数据 + 他生产的数据 + 他继承的数据

CCC 是 AAA 和 BBB 的儿子,他继承了 AAA 和 BBB 的基因,共享部分 AAA 与 BBB 的数据。

CCC 看过的电影书籍电视,吃过的食物。都是他消费的数据。

CCC 写过的养家糊口的代码,这是他生产的数据。

CCC 和 DDD 结婚生子,产下一女 EEE。

下一个循环...

复制是一种特别的生产行为,它保证了整个循环可以无限迭代下去。

每个人的数据组成都是独一无二的,每个人都是独一无二的。

*物资、信息和数据,上下文中的这几个词汇可能指的是同一个东西。

存在的意义

意义?价值?

身体死亡之后。人一生的数据 = 他消费的数据 + 他生产的数据 + 他继承的数据

身体上的死亡表示一个人无法消费数据了,也无法生产数据了。但是已经生产的数据还继续存在着,如果一个人生产的数据也消失了,没有再传播了,他就不存在了。

一个人的一生一直在满足自我数据复制的欲望。

一个人的成就是否可以用数据量的总和来衡量?是否满足如下公式?

成就数据量 = 生产数据 * 数据影响的人口(生产数据存在于人的记忆中)

举个例子。

乔布斯生产了苹果,个人传记。

  • 苹果,存在于10亿的人的脑海中。
  • 乔布斯传记,存在于 1千万人的脑海中。

乔布斯的成就 = 苹果的信息量10亿 + 乔布斯传记的信息量1千万

这些数据真实存在于被乔布斯影响的人的脑海中,存在于人脑有限的存储资源中。

数据存在的意义在于复制,存在即为了复制,为了占有更多的存储资源。

一个人的价值 = 消费的数据量 + 成就数据量

这里的消费没有歧视的意味,相反消费是整个循环得以运作的关键,只有生产没有消费是没法运作起来的。

所以提高个人价值最好的方法就是生产传播数据,成就量会随着影响人口的数量爆炸增长,而一个人的消费数据量是有限的。

所以,程序员造个轮子就要求 Star。

所以,人们都在努力赚钱,消费更多的东西。

...

数字化延长了一个人的价值

好了,经过一番枯燥的推导之后,终于可以回到现实了。上面的理论对现实有什么指导意义。

当一个人生产的数据可以被除了人脑的外物存储时,他的价值被延长和扩大。他的数据可以存在的更久,更容易被传播,产生更大的影响力。

嬴政已经死了,但是他的影响力还在。他的数据被记录在史记中,记录在历史课本中,传播并记录到千千万万的人脑中。

假设我们已经死亡的 XXX 同学,经常在朋友圈发布自己的动态。即使在他死亡后,我们依然可以通过这些数据了解到他,他已经以某种形式存在着(可能好像也没什么用),燕过尚且留痕,这可能就是存在的意义吧。

如今的数字化生活轻易地记录了我们消费的数据,生产的数据,消费数据过程生产的数据。无形中,我们并不需要做什么,我们的数据已经被数字化了。

可是我们数据的价值被延长了吗?不一定。

被瓜分的数据

你在网易云听歌,在 iCloud 存储相片,在B站看番,在朋友圈分享动态,在淘宝购物,在各种互联网服务下生活。你的数据被各个服务厂商瓜分,它们通过你的数据,分析你,给你推荐,使你消费,使他盈利。

这就是你的数字化生活。

这带来了一定的便利,但是有一个明显的缺点。很大一部分数据你是不可控的。

你的微信帐号被封了,意味着你多年来的某些数据消失了。

你的网易云歌单灰了一大片,对此你却毫无办法。

不可控的数据没法延长价值,上面这些到底是谁的数据?

你应该使用开放数据的服务

我们是无法完全摆脱掉这些服务的,但是你可以选择相对较好的开放的服务。你可以在 twitter 上 分享你的动态,然后通过 API 定时导出,这样即使 twitter 倒闭或者帐号被封,数据依然在你手上。封闭的微信是无法给你数据的,那不是你的数据,那是微信帮你存储在它那里关于你的数据。

我现在已经不想用没有 API 的服务了,即使不提供 API ,数据也一定要能导出,能导出的数据才是你的数据。

如何管理个人数据

应该集中管理个人数据,显然这需要花一点功夫,因为你的大部分数据都在服务商手中,这与当今的趋势背道而驰。

集中管理数据的好处

  • 你可以从宏观上把控数据,all-in-one。做个人数据帝国里的皇帝,而不是大厂数据帝国里的生产工。
  • 可以自己统计数据,还在等着一年一度的网易云音乐年度总结?不不不 全都自己来。有了数据怎么统计还不是自己说了算。
  • 关联数据的潜在联系,不同类型数据的碰撞说不定可以产生新的 idea。

管理工具

数据管理最好的工具

  • 数据库是最好的数据管理工具
  • Excel 是有效率的交互方式
  • Web 是现代化的通用平台

非 Notion 莫属了,结合上面这些优点的终极生产力工具。all-in-one workspace 的产品理念和数据集中管理观点不谋而合。似乎 notion 就是为这而生的,最最最中的要的是,notion 提供数据导出

展现形式

传播个人数据,扩大影响力,提升个人价值。

这也是我建立这个博客的初衷。所以这里的答案就是建博客,不是通常意义上写文章的博客,而是将分散的互联网服务产生的数据聚合在一起的展示站点。

notion 的表格是管理数据用的,博客页面展示数据。

上图中,每行对应的都是一张数据表,博客上都有对应的展示页面,就像下面这样。

聚合数据

movie 表格中结合了 电影、美剧和B站番剧等数据,电影是从淘票票的历史记录中找到的,美剧凭借印象自己一部一部加上去的,B站的番剧信息是通过请求 API 转换成 CSV 导入的。还有一些B 站没有的番剧自己手工加上去。

有了这张表就可以自己做统计了,今年看了多少部电影?去电影看得是多少部?和去年的数据对比。等等,都可以自己做了。

关于数据统计这一块,这个功能会在今年(2019)完成,届时就可以在博客上看到直观的数据统计了。

为什么不用豆瓣?

  • 定制性,notion 的表格可以随意加字段。
  • all-in-one

自动化数据采集

可以看到完整的数据是多难聚合起来,需要大量的手工操作。目前我打算基于手机的通知机制,做自动化的数据采集,并同步到 notion 表格中。

大体思路如下。

  1. IFTTT 在手机收到通知消息/邮件时发送消息到后端服务。
  2. 后端服务通过模式匹配,分析出相应的活动。并添加到 notion 表格中。

例如

  1. 我在淘票票上买了复联的电影票,购票成功会有短信通知,发送通知内容到后端服务
  2. 匹配到短信内容是电影相关,查询复联电影相关 meta 信息。写入数据到 notion 表格

又例如

  1. 匹配邮箱中的图灵的订单邮件,解析出购买的图书信息。
  2. 通过豆瓣查询图书的 meta 信息,添加记录到 notion 表格。

以上这些都是可以实现的。虽然此类数据产生的频率较低,但是自动化的操作还是能省下不少重复劳动的时间。并且由此可以积累出个人活动的时间线数据。

最后

我不怎么喜欢在社交网络上发表观点,碎片化的信息洪流,萍水相逢的点赞之交让社交变得无趣。80%的社交也都是没有意义的。自建博客更像是网络空间的自留地,从构建到输出全都掌握在自己手里,自由自在。

程序员的博客都是以技术文章为主,那是生产型的数据,是干货。但是这样的博客未免太过扁平。消费类型的数据更容易展现一个人的喜好和兴趣,这使人更加真实。或许一个技术博客主也拥有一个活跃的社交帐号,但是这样数据就分散了,还是 all-in-one 比较好。

关于数字化生活,这是我近期并且未来长期关心的问题。此博客就是以此为出发点构建的,“数据该怎么分类,该以何种形式展示”这些问题也一直困扰着我。不过随着博客功能的日渐完善,思路也逐渐变得清晰起来。

希望今年能够逐渐完善生活中各方面的数据,充分利用数据的力量,让生活变得有条理起来。以可视化数据做阶段性的总结,看到自己成长的轨迹。