要深入理解大数据,必须提高数据的可视化水平。在这个过程中,数据可能更具可塑性、可行性,最终更人性化。
在谷歌图片搜索有关“大数据”,会出现很多个由三维“0”和“1”组成的图片;有一些解释性的信息图表;甚至出现“黑客帝国”的界面。在人类能够理解的范围内,大数据究竟是什么样子呢?
如果问一家大公司的首席执行官什么是“大数据”,他们可能会描述一些类似于黑匣子(飞机上的飞行记录器)的东西,或者在白板上画一朵云。如果问数据科学家,他们可能会向你解释一下4v的概念,试图使用信息图表(其实只是事实的可视化集合),当然还带有相应地说明。之所以不同人给出不同答案是因为“大数据”是一个有着多种含义、象征,应用于不同组织的模糊术语。
可以理解的是,要想弄明白大数据是发源于哪、什么时候盛行是很难的。从最早开始有记录直到2003年,人类共创造了5EB的数据(五十亿千兆字节)。到了2011年,每两天就会产生这么多的数据。与前几代数据相比,我们正真实现了飞跃式地发展。谈到今天的大数据,数据的呈现方式有助于传递信息,不过它需要的不仅仅是漂亮和表面文章。它必须有效,展现多个维度,还要考虑实用性。
新的软件和技术使得我们能够更深入的理解和利用这些庞大的数据集。然而,我们要去真正收集和加工有价值的大数据,唯一方法是要提高数据可视化的水平。 我们怎样进行可行性分析、深入了解、全面可视化地表示信息呢? 答案是我们需要使数据更人性化。
新的可视化 新的挑战
让大数据有意义,使之更贴近大多数人,最重要的手段之一就是数据可视化。数据可视化是寻路仪,从字面上理解,就如同街头的路标指引你到公路,从象征意义上理解,其颜色、大小或抽象元素的位置都会传达信息。在某种意义上,恰当的可视化标识可以提供较短的路线,帮助指导决策,成为通过数据分析传递信息的一种重要工具。然而,要真正可行,数据可视化应有适当地交互性。它们必须设计良好、易于使用、易于理解、有意义、更容易被人接受。
Michal Migurski说:“数据可视化是一个相对的概念… …通常说它是即将出现在地平线上的新事物。”随着技术的变化而改变,我们不断地开发新的工具以利用它实现跨行业应用。一些熟悉的可视化包括信息图示、臭名远扬的看板,当然还有地图。
现今无所不在的信息图示是解释复杂问题的好方法。在此类别中,Vi是一个很重要的资源。图表通常是在精心制作的海报或演示文稿中来传达意思,但因它们往往是固定时间,当需要提供实时信息就表现地不如人意了。看板(dashboard)或许是一个有用的工具,但它们往往设计的不好。同样的图表和图形重复地出现。
当看板被望文生义地理解为类似车辆仪表盘和里程计时就更糟了。最致命的是当想要通过看板传达有关人的信息时,他们往往不够人性化。最后,地图作为一个依赖于地理的重要的信息层,是我最喜欢的可视化之一。当你可以依靠一个国家或省的地形等可识别的图形处理数据,地图是很有用的,但如果不是地理数据怎么办?
想想谷歌地图,它可以说是现今世界上最全面和最成功的数据可视化集。它提供多种形式的广泛的数据集,不断更新而且相当容易使用。其界面提供满足个人需求和查询数据的多个视图,可以跨设备使用。它还提供了一个强大的API,使其不再仅仅是个软件,而成为一个平台。它的 API能够实现从基础地图功能到呈现难以穷尽的地理信息。
看看Weldon Cooper Center服务大众的 Racial Dot Map(基于谷歌API创建),使用颜色编码描绘了在美国分布的种族多样性(类似于在热图上看早晨的天气报告)。你也可以放大一个特定区域或地区来获取细节(每个人代表一个点,按种族用颜色编码)。
有了谷歌,如何显示信息和组织信息成为了大家关心的问题。但这需要一个群落具有稳健性(400多位谷歌员工在为地理信息产品服务)。然而对于数据可视化来讲,来源越少,风险越小。
数据光谱的另一端,可以看看纽约时报是怎样用视觉效果为它的报道增光加彩的。例如,一篇关于NASA的开普勒任务的报道,记录了超过190个被证实围绕遥远恒星运转的行星,它们在行星轨道上运行的速度,到距离恒星的距离、恒星温度和星系的大小都被加入了浅显易懂的可视化效果。
另一个例子就是用图形描绘丝绸之路,描述这著名的贸易路线的现代版本。彩色照片和精心编辑的视频,按沿路线上的重要地点分组,传达丝绸之路的内涵,旁边有信息图表帮助从地理上理解这些照片和视频。
通过这些可视化成果,你也会开始认识到一些限制,我们是否能够呈现出所有可以想象到的数据(想象一下检查19亿而不是使190颗的系外行星),或者是否需要从多个维度上理解数据。这些例子就像发展大数据可视化的路标。我们从这些零散的示例到更大数据集的应用中又可以学到什么?
大数据才刚刚开始出现,我们管理后端的方式也在不断变化。我们要通过有意义的、交互性的方式,利用强大的工具来可视化数据。我们需要跨学科的团队,而不是单个数据科学家、设计师或数据分析员,我们需要重新思考我们所知道的数据可视化。图表和图形还只能在一个或两个维度上传递信息,那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?我们的大数据可视化(BDV)工具需要实现更多过功能和更新,而不仅仅是个软件。
在此过程中,数据可以变得更具可塑性、可行性,最终更加人性化。通过灵活的数据和可视化框架,我们希望能容纳多种意见,使我们能够利用数据适应不断变化的需求和查询。接受大数据的模糊性,但要提供并找到让它和你联系的更加紧密的工具。数据的可视化解释会因你的目标和对目标的回应的不同而不同。因此,虽然会存在视觉上的相似之处,但没有两个可视化结果是相同的,就像世界上不可能有完全相同的两片叶子。
大数据文摘精彩文章:
回复【金融】 看【金融与商业】专栏历史期刊文章
回复【可视化】感受技术与艺术的完美结合
回复【安全】 关于泄密、黑客、攻防的新鲜案例
回复【算法】 既涨知识又有趣的人和事
回复【谷歌】 看其在大数据领域的举措
回复【院士】 看众多院士如何讲大数据
回复【隐私】 看看在大数据时代还有多少隐私
回复【医疗】 查看医疗领域文章6篇
回复【征信】 大数据征信专题四篇
回复【大国】 “大数据国家档案”之美国等12国
回复【体育】 大数据在网球、NBA等应用案例
回复【平安】 中国平安相关大数据案例、新闻
回复【志愿者】 了解大数据文摘及如何加入
长按指纹,即可关注“大数据文摘”
专注大数据,每日有分享
覆盖千万读者的WeMedia联盟成员之一