财新传媒
位置:博客 > 老万故事会 > 【老万】谷歌刚刚发布了哪些黑科技?

【老万】谷歌刚刚发布了哪些黑科技?

谷歌每年有一次开发者大会,叫谷歌 I/O。它的目的是展示公司的最新技术,表示我们还是很牛的,开发者朋友们来我们的生态圈干吧,有钱一起赚。
 
去年(2020)因为突发疫情,谷歌 I/O 取消了。今年有了准备,不会再取消。但是因为疫情还没有过去,从线下改成了线上直播,为期三天,美西时间 5 月 18 日上午 10 点开场。
 
大家知道,谷歌的两位创始人拉里和谢尔盖都已经退居二线含饴弄孙了,公司的日常由 CEO 孙大劈材(Sundar Pichai)全权打理。今天的开发者大会也是孙大主持。
今天都发布了哪些重磅消息呢?老万带大家来看一看。
 
人工智能
 
人工智能(AI)是谷歌近年来投入的重点。从几年前的阿尔法狗大战李世石,到去年的破解蛋白质折叠模型,谷歌一直以在 AI 领域引领风骚而自豪。这一次的主要消息有两个:
 
LaMDA (对话应用语言模型,Language Model for Dialogue Applications)是谷歌的新一代人机对话系统。和上一代 BERT 系统相比,它更懂得用户的意图,回答更加自然,跟得上用户频繁切换话题的节奏。在两段事先录好的演示中,LaMDA 系统分别化身为冥王星和一架纸飞机,跟用户进行了饶有趣味的对话。如果最终成品跟演示效果差不多,我看离通过图灵测试不远了。
 
我们知道,搜索技术的发展经历了好几代。最早是关键词搜索:一篇文章,我们先根据它的内容人为地标注几个关键词,以后就可以通过这些关键词查找出这篇文章。早期的图书馆卡片就是这个技术。这种方式效率十分低下,漏报率高,相关性差。
 
后来搜索引擎出现了,可以做到全文检索:不需要事先标注关键词就可以在任意文章中找出相关信息。再后来有了语义检索:搜索引擎可以听得懂你的问题。如果你问一些事实性的问题(比如:迈克尔杰克逊是哪一年去世的?),谷歌搜索可以帮你快速找到答案的。再下一步发展就是对话式检索:搜索引擎就像你的私人助理一样,明白你说话的上下文和言外之意,可以通过对话的方式不断为你提供更精准的信息。
 
接下来,谷歌会逐步在各个产品中采用 LaMDA 技术。效果如何,我们拭目以待。
 
今天的另一个重要新闻是第4代 TPU,性能比第3代有大幅提升。谷歌不久将会在数据中心大量部署新一代 TPU。一开始只是在谷歌自己的产品中使用,但很快会提供给谷歌云服务的其他用户。
这个 TPU 是什么东西呢?我们知道,电脑里面有 CPU(中央处理器),GPU(图形处理器),还有谷歌开发的 TPU(张量处理器)。它们各有所长:CPU 算的是标量(scalar, 单个数据),GPU 算的是向量(vector, 1xN 的矩阵),而 TPU 算的是张量(tensor, NxN 的矩阵)- 和麻辣烫没有什么关系。如果硬要说有啥关系,那就是 TPU 运算的时候会费很多电,烧得滚烫,需要液体降温,所以用来顺便煮麻辣烫也是可以的。
 
CPU 是可以做通用运算的,但是一块 CPU 上做不了几个独立的内核(比如四核、八核),每个内核一次只能处理一个数据。后来大家发现,很多时候需要重复对不同的数据做相同的运算,这时候 GPU 就派上用场了,因为它被设计成可以同时对很多数据做相同的操作。这种操作叫做向量(vector)操作。后来我们发现,除了图形处理,向量操作还有很多别的用处,比如挖矿。
 
所谓挖比特币,就是比谁的算力强运气好,先找到一个随机数让一个区块的哈希值出现前 N 位全部为 0 的情况。不管你选的随机数是多少,这个哈希值的计算方法都是一样的,所以特别适合 GPU 的向量操作。如果你可以同时处理 100 个随机数,你先算出正确答案的概率就比那些一次算一个数的人的概率高 100 倍,就更容易挖到比特币。
 
人工智能研究者们发现,深度学习的运算需要大量矩阵操作,即便是用 GPU 也不方便,最好是能一次处理一整个张量。于是谷歌开发了针对机器学习算法的专用硬件加速芯片,这就是 TPU (tensor processing unit)。就像对某些特定算法 GPU 的效率远高于 CPU 一样,对机器学习的特定算法 TPU 的效率也远高于 GPU。
标量、向量和张量
 
一个 TPU v4 模块(pod)包含 4096 个 TPU,算力相当于第三代 TPU 模块的十倍,达到了一个 exaflop,也就是说每秒钟可以做 10的18次方(100亿亿)次浮点数运算。
 
这么说可能大家没概念,因为毕竟王健林的一个小目标也才1个亿。换个说法吧,这大致相当于一千万台笔记本电脑的算力。目前世界上最快的超级电脑是日本的 Fugaku,每秒钟可以做 44 亿亿次浮点数运算,还不到 TPU v4 模块的一半。中国最顶级的超级计算机天河三号(目前有原型机),完成后算力可以达到一百亿亿次,和 TPU v4 模块持平。而谷歌在一个数据中心就可以部署多个 TPU v4 模块。
 
当然,TPU 是针对特定应用的计算机,和超级计算机要解决的问题不同,不能直接相比。但是它的算力仍然是相当恐怖。这绝对是一个人工智能技术的里程碑。
 
量子计算
 
量子计算也是当前的一大热点。量子计算机要实用化的主要障碍是什么呢?就是系统无法长时间保持稳定。谷歌的思路是靠冗余提升稳定性。量子位(qubit)是量子计算的基本单位。一个量子位不是不稳定吗,那我就多来几个抗干扰,出现错误的时候就可以自我纠正了。
 
按谷歌今天公布的设计,用大概 1000 个物理量子位组合成一个逻辑量子位,稳定性就差不多了。谷歌计划再用 1024 个逻辑量子位组成一台量子计算机。这样一台计算机,将包括上百万个物理量子位,比今天几十个量子位的计算机难度不知道大了多少。如果能成功,会给量子计算技术带来翻天覆地的变化。为此,谷歌将在加州圣芭芭拉建造一个新的量子计算园区。
 
新版安卓
 
下一版安卓是第 12 版,主题叫“你有材”(Material You)。除了安全性和隐私保护功能的提升之外,这一版最明显的变化就是界面。在安卓12里面,系统可以从你选的墙纸的主要色彩以及和它们搭配起来好看的色彩出发,自动为你生成一套系统皮肤,从颜色、字体、尺寸到粗细,都是量身定造。
安卓用户还有一个好消息:可以用手机给汽车开锁了。不知道你的情况如何,反正这些年我车钥匙是丢了不少了,很是头疼。这下不用再担心丢车钥匙了。当然,手机没电的后果也严重了。
 
因为是智能钥匙,可以很容易地转借给朋友。也不用担心朋友逾期不还,因为你随时可以取消他开锁的权限。
目前只有新出的宝马才支持这项新功能。但是,买一辆宝马就可以解决的问题,在《老万故事会》读者那儿还能算问题么?
 
安卓 12 beta 版已经可以下载,正式版会在下半年推出。
 
Wear OS
 
谷歌为智能手表打造的 Wear OS 操作系统一直不是很成功,市场占有率长期排在苹果的 watchOS 和三星的泰泽(Tizen)操作系统之后。今年 I/O 公布了两大对 Wear OS 利好的消息:
 
一是三星和谷歌决定整合 Tizen 和 Wear OS,看来老二老三终于认识到要联合起来才可能干得过老大苹果。未来三星将不再研发基于 Tizen 的手表。这次整合解决了 Tizen 生态缺乏应用的问题,还能让手表应用跑得更快,耗电量更低。
 
第二条好消息是谷歌新收购的 Fitbit 公司也将转型采用 Wear OS,这自然是顺理成章的。收购 Fitbit 之后,谷歌有了自己的手表操作系统,硬件设计制造,还有从 Fitbit 带来的健康服务,手表业务的版图就完整了。这也是安卓系统的打法:先提供免费操作系统形成生态,等友商做大之后再进入硬件市场。这样既可以通过硬件设计影响整个生态的走向,对友商也不造成威胁。
谷歌相册
 
谷歌相册是我歌近年来不多的几个令人惊艳的产品之一。我是谷歌相册的忠实用户。最早的时候这个产品是完全免费的,还不限容量,随便你上传高质量的和视频文件。只有按原始文件格式保存才有容量限制。
 
但是大家拍照的热情太高,谷歌也吃不消了,所以免费上传的福利将于今年 6 月份取消。不过,在此以前上传的文件不会追加收费,大家赶紧。如果你用的是谷歌自己的 Pixel 系列手机,那还会有更长的时间享用免费的照片视频存储服务。
 
其实谷歌相册远不只是一个简单的在线相册存储系统,它的特色是强大的人工智能支撑下的照片增强、人脸识别和检索功能。谷歌 AI 会自动分析照片里的特征、场景、人物,然后加上标签,让你可以从海量照片里快速找到想要的那一张。谷歌还会定期对你的照片实行增强,把老照片自动归类,做成相册提醒你观看。比如隔三差五我会收到系统通知:我把你娃三岁生日的照片精选了一批做了个相册,你要不要看?那还用问!
 
谷歌相册会推出一个小规律功能,可以把按特征自动归类。比如说你会看到你经常带着橙色背包去各地旅行,发现你最爱穿的衣服原来是格子衬衫,多么美好的回忆。
 
谷歌相册还将开放一个新功能:从静态的照片建立三维模型,然后进行模型插值,产生一个动图。注意这中间插的帧不是简单的二维图像变换,而是真正在三维模型基础上的变换。比如你有一张照片是正脸,还有一张侧脸,谷歌 AI 就可以根据想象补充完成你转头的过程。是不是很黑的科技呢?
星线计划
 
谷歌还公布了一个星线(Starline)计划,和马斯克的卫星上网星链(Starlink)计划只差一个字母。它的目的是让在疫情中分开的大家靠得更近,感觉和你视频通话的人就在身边。
 
在演示中我们看到,谷歌用高分辨率摄像头和深度感测器实时构造出和你交谈的人的三维模型,然后把模型传输到你的终端,在大屏幕显示器上根据三维模型按 1:1 的比例渲染出对方的形象,让你感觉触手可及。和普通高分辨率视频不同的是,当你移动头部的时候,你看到的图像会根据你的视角发生相应的变化,就好像你面对的是一个真的三维人一样。大家可以想象一下电影里看过的探监场景,差不多就是那样。
有温度的技术
 
在开发者主题演讲环节,我听到一个故事:
 
55 岁的英国人马修是一个聋人。很多人以为他带上助听器就可以听清楚,其实这是一个误解。在绝大多数情况下他仍然需要通过读唇来理解对方。他的儿子长大了,离开了家。在视频对话的时候,他不懂儿子在说什么,因为图像是二维的,给读唇造成了很大的困难。
 
有一天他得到了一部谷歌 Pixel 手机,有语音转文字的功能,可以把手机播放的任何声音在实时转成字幕。他马上拨通了儿子的电话。靠这个功能,他和儿子高兴地说了半个小时。儿子说:爸爸你有没有注意到,这是我们俩第一次打电话。马修停了三四秒钟,说不出话。他意识到,技术让他和别人不再有差别。
 
还有一个故事:杰森(Jason)是一位鼓手,热爱音乐。一次意外的事故,让他右手从小臂被截肢。没有了手怎么办?消沉了一段时间之后,他决定要重新拾起鼓棒。于是他把鼓棒绑在自己的右胳膊上,开始练习打鼓。学过打鼓的人都知道这有多困难。尽管他刻苦练习,这种简陋的方式还是达不到他想要的效果。
 
在谷歌帮助下,他装上了一个机械手臂,用残留肌肉的收缩控制鼓棒的运动。通过机器学习,工程师反复调整,他终于重新学会了打鼓。
我在谷歌工作超过16年了,身边的同事朋友已经换了一茬又一茬。这么多年没有跳槽,一来是我觉得谷歌对员工还不错,有一年公司股价下挫的时候甚至主动调低了员工股票期权的价格,相当于直接给大家打钱;还有就是我对公司的理念高度认可,觉得公司做的很多事情是实实在在地为人类造福,比如搜索引擎降低了学习成本,谷歌图书项目将图书数字化保留人类文化遗产,人工智能技术让生活更便利。在这样一家公司工作,我也有一些小小的荣誉感。马修和杰森的故事,鼓励我们继续前进。



推荐 16