数据可视化(英语:Data visualization)被许多学科视为与视觉传达含义相同的现代概念。它涉及到数据的可视化表示的创建和研究。 为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图表和其他工具。可以使用点、线或条对数字数据进行编码,以便在视觉上传达定量信息。 有效的可视化可以帮助用户分析和推理数据和证据。它使复杂的数据更容易理解和使用。用户可能有特定的分析任务(如进行比较或理解因果关系),以及该任务要遵循的图形设计原则。表格通常用于用户查找特定的度量,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。
数据可视化既是一门艺术也是一门科学。有些人认为它是描述统计学的一个分支,但也有些人认为它是一个扎根理论开发工具。互联网活动产生的数据量的增加和环境中传感器数量的增加被称为“大数据”或物联网。处理、分析和交流这些数据对数据可视化来说是道德和分析方面的挑战。 数据科学领域和被称为数据科学家的从业人员可以帮助应对这一挑战。
数据可视化领域的起源可以追溯到1950年代初的计算机图形学。当时,人们利用计算机创建出了首批图形图表。1987年,由布鲁斯·麦考梅克、汤姆斯·蒂凡提和玛克辛·布朗所编写的美国国家科学基金会报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”),对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于计算机的可视化技术方法的必要性。随着计算机运算能力的迅速提升,人们创建了规模越来越大,复杂程度越来越高的数值模型,从而造就了形形色色体积庞大的数值型数据集。同时,人们不但利用医学扫描仪和显微镜之类的数据采集设备产生大型的数据集,而且还利用可以保存文本、数值和多媒体信息的大型数据库来收集数据。因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集。
短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于计算机建模和模拟的运用。更近一些的时候,可视化也日益尤为关注数据,包括那些来自商业、财务、行政管理、数字媒体等方面的大型异质性数据集合。1990年代初,人们发起了一个新的,称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,当前人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化”。
自那时起,数据可视化就是一个处于不断演变之中的概念,其边界在不断地扩大;因而,最好是对其加以宽泛的定义。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
关于数据来源有很多平台,这里我们采用的数据来自世界银行官网。
数据可视化工具有很多,比如Flourish等等。这里我采用的框架是Github开源框架 Historical-ranking-data-visualization