国际城市规划  2015, Vol. 30 Issue (4): 124-126       
大数据与智慧——评《数据革命:大数据、开放数据、数据设施及其后果》
周江评    
Big Data and Wisdom: Book Review of The Data Revolution: Big Data, Open Data, Data Infrastructures
Zhou Jiangping    

最近几年,大数据是各行各业的流行词汇。无论做啥的,不提大数据,似乎都不好意思出来混。这正应了作家单·艾瑞里(Dan Ariely)在2013年描述人们和大数据关系的一段话:“大数据就像青少年的性生活,每个人都在说,没有人真正知道怎么做,每个人都认为其他人在做,于是每个人都说自己也在做……”在这样的背景之下,大数据的书籍、文章和报道的涌现,转眼间如决堤的洪水,一发不可收拾。

在海量的大数据的资料里,对于一个初接触大数据,但是又不想陷入大数据技术细节的城乡规划人,有没有一份特别值得推荐的呢?笔者在翻阅了十来本朋友、老师和同行推荐的大数据书籍之后,细读了这本《数据革命:大数据、开放数据、数据设施及其后果》(The Data Revolution:Big Data,Open Data,Data Infrastructures and Their Consequences)[1]。笔者觉得它特别值得推荐。从大的方面讲,有几个理由,一是作者罗博·基钦(Rob Kitchin)虽然不是正宗的城乡规划专业毕业的人,但是他是个人文地理学家。人文地理参与城市研究和城乡规划,无论在国内还是国外,早都不再是罕见的事情。在国内,南京大学、北京大学和中山大学等院校的人文地理专业下设城市研究或城乡规划学科方向,早在1970年代末期就已经开始了。因此,从作者的学术背景看,可以说这本书是半个城市研究或者城乡规划的专业人士写的。

二是这本书不是作者赶潮流写出来的。这本书的各个章节其实是他多年一点一滴思考的积累。如同他自己在前言记录的,作者很早就开始多角度、系统、深入地思考主客观世界、数据、知识和行动的问题,而不仅仅是主客观世界、大数据、知识和行动的问题。前一问题,无论有否大数据,其实早已客观存在,也一直值得人们去关注和思考。大数据的出现,并没有完全地改变相关问题的实质和重要意义。例如,作者在书中的第一章就提到了主客观世界、数据、信息、知识、智慧形成的“知识金字塔”(Knowledge Pyramid)。数据是人们为了认识和管理主客观世界而采集的,它是对客观世界的抽象。数据如果不转换为有效的信息,就什么用也没有。例如,很多国家都有各种各样的、零零星星的古代人口数据。但在没有整理、核实和相互连接之前,这些数据并不能告诉人们什么。经过整理、核实和相互连接的数据,即有效的信息,才能形成人类知识的要素。例如前面提到的古代人口数据,经过恰当的整理、核实和相互连接之后,人们可以了解到例如中国在汉代有多少人,唐代有多少人,宋代有多少人等等。这些,就是有效的信息了。它们可以形成人们对中国历史上人口变化的认知。从实用主义的角度出发,知识有两种,一种只是起到辅助人们认识世界的作用;另外一种,可以称为“智慧”,它可以指导人们的行动。这个在作者提到的金字塔里,属于顶端--即数据的终极目的,最好是产生智慧。

三是作者自己的学术实力和过往的著作获奖记录。作者是爱尔兰梅努斯市(Maynooth)国立大学的教授、欧洲研究学会高级研究员和爱尔兰皇家学会社会科学金奖得主。在过去的10多年里,他勤奋不辍,著作等身,共出版了21部专著、130篇学术文章和书中的章节。作者虽然不是美国人,但他著作的影响力超越了国界,获得过美国地理学会、美国图书馆学会的2个顶级奖项。可以说他的学术产出既有数量,也相当有质量。

四是这本书的视角、组织和切入点。这本书从数据的概念讲起,从数据的基础设施,到与数据有关的各个重要概念,最后谈到了数据、大数据、开放数据对于信息科学、人文地理、政府和商业的影响。因此,它几乎是从哲学,尤其是认识论的高度,系统地覆盖了这样几个关于数据的重大问题:什么是数据(含大数据、开放数据等衍生品),数据是怎么来的,应该怎么来,与数据有关的重要概念和范畴是什么,数据对一些重点领域的影响是什么。

至于更详细的推荐该书的理由,可见下文笔者对此书各章的小结和点评。

这本书的前五章,其实都是在系统反思和总结作者认为最合理的数据和大数据的概念。这个概念的确立,对书中之后所有章节有至关重要的影响。因为如果作者概念含糊的话,其后的章节就缺乏一个共同的概念来统领,可能让读者感到混乱。按理说,这样的近乎于纯理论的关于数据的概念讨论会很枯燥——因为讨论去掉了普罗大众、专业人士熟悉的具体问题或具体学科。但是,作者广博的知识面、接触面和长期的学术思考与积累让他在谈概念的时候,感觉不是在说教,也不是在讲理论,而是把人带入广阔的社会、经济、环境、法律、哲学等环境里,去看信息、数据、知识和行动的关系。这几章里,笔者感觉作者其实是在有计划、有步骤地细细阐释几乎是贯穿全书的、他自创的一个概念——data assemblage——笔者翻译为“数据杂集”。他认为在数据杂集里,其实还是可以清晰地看到系统思想、知识的形态、财务、政治经济、政府、立法、物质、设施、实践、组织、机构、主观、社区、场所和市场等要素的。把数据和这些要素的关系讲清楚,那么大数据、开发数据的概念,也就破土而出了。例如,在人们已经耳熟能详的以3V (volume,velocity and variety,即总量、速度和多样性)形容大数据的基础之上,根据数据杂集的理念,作者认为还要特别注意这样几个词:全集性(exhaustive)、分辨率(resolution)、关系型(relational)、灵活性(flexible)和可升级性(scalable)。这几个词从统计学、地理学、计算机科学、社会科学和数据设施的多维角度,推导出了大数据与传统数据之间的其他几个重大差异:样本等于全体;每个样本的精确编码;数据之间的互联更加方便;实现关于对象巨量的特征值的采集和处理;扩大样本和相应的技术支持系统的速度更快。再如,通过引用其他作者的关于客观世界、数据、信息、知识和智慧的论述和图表,他也从哲学的层面让读者更好地理解了数据的定义和意义,以及它的初始的“输入”、“中间产品”和人们期待的终极“产出”,即上文提到的知识金字塔(图 1)。

图 1 知识金字塔 资料来源:译绘自参考文献[1]38, Fig1.1

本书的第六、七、八三章是笔者最喜欢的几章。这几章首先是高屋建瓴地介绍了大、小(传统)数据如何结合和分析,然后分门别类地谈到了对于管治、商业和研究领域的具体做法和建议。作者把数据(含大数据)分析方法归结为了四大类:数据挖掘和模式识别、数据可视化和相关方法、统计分析, 以及预测模型。在这些方法之外, 他认为机器学习能力的提高是一个核心。虽然作者可能不是所有数据分析方法的专家, 但是他的总结概括能力相当了得, 所以读这几章虽然是管中窥豹, 但也会让人偶有醍醐灌顶的喜悦。例如, 笔者曾经对数据挖掘知之甚少, 但是作者第六章的一个简明扼要的表格和相关文字, 让笔者一下明白了数据挖掘是什么, 数据挖掘的相关技法是什么, 数据挖掘可以出来什么样的结果。此表格告诉笔者, 数据挖掘有六大类:数据分组和簇类分析、数据分阶分析、联系分析、分异分析、趋势分析和总结分析。每一类的挖掘, 都有特定的任务和一些专门的技巧。例如数据分阶, 它的任务是根据已知的一些数据分析结果, 把新输入的数据按照已知的结果进行分门别类。在技巧上, 它可以使用贝叶斯分类、决策树、人工智能等方法。

本书的第九、十两章, 可以说是波澜不惊。作者讨论了大数据带来的技术、组织、伦理、政治和法律的挑战。这些问题, 应该说相关领域的人也都反复讨论过[2, 3, 4], 因此作者凭一己之力很难超越一个领域的人的智慧和心得。但是作者在展开这两章的时候, 会经常联系前面的章节, 因此他的讨论还是有些亮点。毕竟如上所述, 作者在前面的章节, 尤其是前五章, 还是有很多创新的。试举一例, 在第九章, 作者根据数据杂集的理念, 开宗明义地谈到了数据的技术和机构的关系。他指出要理解这一关系, 需要关注数据库的涵盖范围、数据可获取性、数据质量、数据整合度、可互通性、数据分析方法、生态性谎言(ecological fallacies)、技术、机构的能力和能量。他认为如果数据质量和生态性谎言得不到很好的处理, 无论采取什么方法论, 数据的分析和解释都会存在问题。生态性谎言是数据的使用者不恰当地使用数据获取信息带来的问题。这个问题的原因可能是技术的, 也可以是人为的。例如, 对某城市的调查, 样本必须随机而且达到一定数量, 才能保证调查结果的可靠性。但是, 如果样本不随机, 那么调查结果可能是有偏差的。但是样本不随机既可能是技术上的失误, 也可以是人为造成的。

书的最后一章, 作者首先小结了全书的主要结论:数据革命正在发生;对于数据, 人们必须始终持有批判和哲学的观点。然后他论述了书中的各个章节与主要结论的关系。作者在书的最后强调, 数据革命来得太快, 很多关于数据革命的批判性的思考其实没有出现, 或者有关思考其实没有跟上数据革命的步伐。他认为如果没有关于数据革命的批判性的思考, 数据革命的成功可能很难。作者的结论和笔者的想法一致。不过, 笔者在此多强调一点:各行各业的人, 在面对数据革命的时候, 更加要认清自己专业的定位, 明确自己专业的核心任务和主要目标, 让数据为自己服务, 而不是被动地跟着数据跑, 为大数据而大数据[5]。这也与作者在讨论客观世界、数据、信息、知识和智慧的关系时提出的看法基本一致:人们采集和使用数据的终极目标是得到智慧;因此, 数据是手段, 不是目的。所以, 如果人们有把握得到智慧, 数据其实可大可小, 甚至可以使用已有的知识来产生智慧, 暂时脱离数据。

统揽全书, 笔者认为它给城乡规划人的几点最重要启示如下。首先, 在大数据的时代, 更加离不开一些抽象的, 但基础性的关于数据和城乡规划的哲学思考。例如, 数据和城乡规划领域内的知识和行动究竟是什么关系?再如, 从大的方面看, 城乡规划目前使用的数据是哪些, 谁在使用, 如何使用?应该如何使用?第二, 城乡规划也离不开“数据杂集”的概念。具体地说, 这个概念在城乡规划领域里应该怎样定制?即数据与城乡规划中的系统思想, 知识的起源、形态和层级(图 1)等要素之间究竟是怎样的辩证关系?这些问题不回答好, 城乡规划人是没法深刻理解数据对于城乡规划的含义和意义的。三是关于城乡规划的逆向思维--即在大数据的时代, 城乡规划将要经历哪些变革。例如, 在手机、微信和微博等带有空间定位的大数据出现以前, 要连续几周采集一个百万级别城市的居民的出行轨迹几乎是不可能的。但是, 由于以上数据的出现, 想要规划和引导人的出行, 已经不是说没有数据的问题了, 而是海量的数据如何使用和增值的问题。

注释:

① 引用自单· 艾瑞里Facebook 发布的内容.参见http://www.facebook.com/dan.ariely/posts/904383595868
参考文献
[1] Kitchin R. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences[M]. Sage, 2014.
[2] O’Reily Media, Inc. Big Data Now: 2012 Edition[R]. Beijing, Cambridge, Farnham, Köln, Sebatopol, Tokyo: O’Reily, 2012.
[3] Grin J. Open Data Now: The Secret to Hot Startups, Smart Investing, Savvy Marketing, and Fast Innovation[M]. McGraw-Hill, 2014.
[4] Townsend A M. Smart Cities: Big Data, Civic Hackers, and the Quest for a New Utopia[M]. W. W. Norton & Company, 2013.
[5] 武汉市国土资源和规划局. 简报第8 期:固本守元、协同创新[Z]. 2015.