文章目录
  1. 1. 数据、信息、知识和智能
  2. 2. 智能革命
  3. 3. 挑战

上个月刚刚读完吴军的《智能时代》,本文总结并记录一些笔记及感想。

数据、信息、知识和智能

在谈论数据时,人们经常将其与信息相混淆。其实信息来源于数据,但是并非所有的数据都承载着有用的信息。例如,对于dd if=/dev/zero of=ggg.txt bs=1k count=10000这样的一个10M文件来说,里面的每一个bit都为0,所以并不能提供什么有意义的信息。而且,无意义和伪造的数据都会干扰和影响我们。通过对信息的处理,可以获取知识,以推动人类文明的发展。例如:通过测量星球的位置和对应的时间,我们可以得到数据;通过处理这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,则是知识。而人类的智能往往体现在:获取数据→分析数据→建立模型→预测未知上。

现在我们所说的人工智能有两个定义:狭义的人工智能指的是20世纪五六十年代的研究机器智能的特定方法,即传统人工智能方法,专注于让机器像人一样地去思考;广义的人工智能指的是任何可以让计算机通过图灵测试的方法,即让一台机器和一个人在幕后,一位裁判同时与他们交流,看看裁判是否能够分辨出自己交流的对象是机器还是人。以翻译为例:传统的方法就是针对某两种语言编写大量的规则,以反映人类的思考方式;而现代的方法则是通过数据驱动,用机器学习的方式训练出翻译模型的各种参数。在互联网出现以前,很难获取到大量的有效数据,因而实用性不高。但是在如今的大数据时代,获取大量数据已经成为了可能。越来越多的信息可以使模型越来越准确,进而使翻译的效果越来越好。这里有个大数据预测美国大选的例子:2012年有人把互联网上公开的新闻、Facebook、Twitter等选战数据按照州来整理,竟然成功地预测了全部50+1个州的选举结果。

数据的作用过去常常被人们所忽视。首先是由于过去的数据量不足(少了大数据的大,Vast);其次是数据缺乏相关性(少了多维度,即多样性Variety)。而现在的数据量由于计算机本身的数据、传感器的数据以及旧信息的数字化,比过去增加了许多,使量变足以成为了质变。数据驱动方法过去的死穴在于,使用基于概率统计的模型会有很多小概率事件覆盖不到。只有提高数据的完备性才行。这在以前是很难做到的,比如搜集全国所有人的面孔。但是如今这样的事情也并非遥不可及。所以我们也许需要重新认识穷举法,在大数据时代它并不像想象中的那样笨。数据的相关性也非常重要。我上班的时候会经过一家广东肠粉的小吃店,招牌上“广”字的一点已经脱落,成了“厂东肠粉”。我们的智能当然能够判断出来这是广东而不是厂东,但是大数据呢?首先它并不能找到什么有意义的“厂东”,但是能找到广东,并且“厂”和“广”字形非常接近。但是这样也无法否定是不是有个小地方叫“厂东”,或是老板的名字叫“厂东”。所以需要交叉验证。接下来发现“广东”和“肠粉”两字经常出现,有相关性。这样数据的相关性便大大提升了可信度。要是有图片,还能根据“厂”的字形比另外三个字稍扁来做进一步的交叉验证,准确性就能够更上一层楼。实际上如果在baidu搜索“厂东肠粉”的时候,它已经会问你“您要找的是不是: 广东肠粉”。Google虽然并不提示你,但显示的搜索结果也都是广东肠粉。当大家都意识到数据的重要性后,市场上的竞争就从技术的竞争转变成了数据的竞争,智能问题已经演变成了数据问题。

智能革命

我们现在说起机械思维,总觉得它是个贬义词。但其实它正是以前推动工业革命的要素。机械思维认为世界变化的规律是确定的,因此规律可以被认识,并且可以用公式或语言描述清楚,放之四海而皆准。但成也萧何败萧何,它的局限性正是否认了不确定性和不可知性。世界的不确定性首先来自影响世界的变量实在太多,以至于无法套用公式算出结果。其次世界本身也是不确定的,人类对于世界的观察将会改变世界本身,如量子力学的不确定性原理。但是不确定并不意味着没有规律可循。香农在概率论的基础上,用信息论将世界的不确定性与信息联系了起来,给了人们一种看待世界和处理问题的全新思路。

新思路为我们带来了大数据思维。它的核心是:数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想知道的答案。例如,根据大数据的统计结果,可以发现在视频网站上投放零食的广告效果很好,我们可以据此猜出人们在看视频时喜欢吃零食。所以这种新的思维方法允许我们在不知道原因的情况下直接从大量数据中寻找答案,即无监督学习。虽然机器推算出来相关的事情只有一定的概率,但是世界本身就充满了不确定性,100%的准确率固然是好,但是90%的结果也是非常有价值的。这就是思维的革命。

还有产业的革命。套用一个公式:现有产业 + 新技术 = 新产业。例如:

  • 第一次工业革命:现有产业 + 蒸汽机 = 新产业
  • 第二次工业革命:现有产业 + 电 = 新产业
  • 现今的信息革命:现有产业 + 摩尔定律 = 新产业
  • 由大数据引发的智能革命:
    • 现有产业 + 大数据 = 新产业
    • 现有产业 + 机器智能 = 新产业

在瓦特改良万能蒸汽机之后,很多上千年历史的古老行业都通过使用蒸汽机而变为新产业,如纺织业冲击了几千年来的家庭纺织业,而瓷器则由白色黄金变成了日用品等。并不需要每一个工厂都去制造蒸汽机,而大多数工厂都会受益于蒸汽机。到了19世纪末,电力的应用也催生了各种新产业,如建筑业通过使用电梯使人们可以把楼盖高,交通运输业通过电车、地铁等公共交通促进了城市的发展,形成了大都市。但是也不需要太多的供电公司,对于美国而言就是通用电气和西屋电气,而大多数公司都会受益于电。“二战”之后,许多产业在使用计算机之后产生了质的变化,如金融业、通信业等。计算机处理器是信息革命的代表产品,但是同样并不需要有很多生产它的公司,今天大部分的处理器都是来自Intel或AMD以及ARM公司所设计的产品,而大部分电脑和智能设备都离不开它们。正在到来的智能革命,也将催生和改造出许多的新产业,但同样,并不是所有公司都会掌握大数据或是培养出机器智能,而大多数公司都将受益于大数据和机器智能。

挑战

新革命的到来当然不会是一帆风顺的,首先要解决的是技术上的挑战。大量的数据必然需要大量的存储,并使查找和使用数据的时间剧增。早期存储数据的磁带和软盘根本不可能承担起存储如此海量数据的任务。硬盘虽然容量上去了,但是其存取速度仍然受限于机械运动。直到SSD的崛起和平价化,才使得在存储技术上适应了大数据。数据的传输也是一个挑战,直到移动互联网和WIFI技术的兴起,才使得大量数据的传输成为可能。而对数据的处理,则受益于摩尔定律,处理器速度增加并越来越便宜,从而导致并行处理技术如Map Reduce等的发展。也有目前还没完全解决的问题,如数据的标准化等。Google设计了一种称为Protocal Buffer的数据格式,并已开源供大家使用。

技术问题解决后,就是商业问题了。如何获得一个全集的大数据呢?例如,为了了解电视的收视率,显然不能再一个个地去发传单、打电话了。最好的方法是通过机顶盒记录用户的收视情况。但是掌握这些数据的生产厂商和有线电视运营商当然不会轻易地把这些数据分享出来。所以Google推出了自己的电视机顶盒Google TV,为获取数据进入电视广告市场做准备,但是销售结果很糟糕,据说后来每个季度退回来的机顶盒比卖出去的还多。以至于Google在2014年斥巨资收购了还在亏损状态的nest公司,以获取nest公司的产品(恒温器)在每一个家庭的数据。一些公司已经敏锐地发现了数据的价值,而另一些公司却捧着金饭碗要饭。

还有数据的安全。首先由于数据量大,数据一旦丢失或被盗,损失将是巨大的。一种行之有效的方式就是利用大数据本身的特点来保护大数据的信息安全。如果外来的入侵者侵入了计算机系统,由于对业务的不熟悉,他的操作很可能与众不同,因此可以通过与大数据的对比而被发现,从而被制止。还有就是对于隐私的保护。如果导航系统能够帮人们导航并避开拥堵路段,那也说明它知道每个人的行踪。一旦这些信息暴露出来,这是非常危险的。再比如说《大数据高手塔吉特:我知道你怀孕了!》。现在的很多公司都或多或少具备了这样的能力,只是大家不知道或者不注意而已。甚至连淘宝的商家都有可能收集到你的信息,从而决定给你寄真货还是寄假货。

最后,随着生产力的进一步发展,机器将会抢掉许多人的饭碗:工人、医生、律师、翻译、编辑、中间商等等。特斯拉的汽车装配厂都是由机器人操作,很少雇佣汽车行业的人员,而所雇的都是IT人员。机器将会从大数据中学习到各种专家的知识,甚至表现得更好。那未来如此多失业的人将会怎么办?目前人类还没有很好的办法,只能靠“拖”字决。一两代之后,无法掌握新技能的人也已经到了退休年龄了。AI会有更好的办法么?也许AI会发现只需要让大家陷入深深的睡眠就可以了。《黑客帝国》又向现实迈进了一步。但是AI毕竟来自于大数据,而不是全数据。有朝一日醒来的人类,也许能够通过制造不常见的场景,引发AI的bug,就像李世石曾经战胜AlphaGo的那一盘围棋一样。而埃隆·马斯克用“脑机接口”的宏伟蓝图来应对AI。既然人类可能最终会被AI消灭,那不如就让人类与AI成为一体。

“2%的人将控制未来,成为他们或被淘汰”。

文章目录
  1. 1. 数据、信息、知识和智能
  2. 2. 智能革命
  3. 3. 挑战