虽然谷歌用大语言模型Gemini去读了500万篇新闻来预测山洪,但他们这么干其实挺出人意料的,因为山洪这玩意儿经常让人猝不及防。吉拉·洛伊克是谷歌的研究产品经理,他说这是他们头一回用语言模型干这种活儿。要是以前大家靠那些老一套的气象数据,根本没法给没什么监测手段的地方提供预警。安东尼奥·何塞·贝莱扎是南部非洲发展共同体的应急官员,他就试过谷歌的这套系统,觉得确实比以前好,能让人更快反应过来。不过这个系统现在还有不少短板,比如分辨率只有20平方公里,精度也不如美国国家气象局的系统。罗森伯格提到,这主要是因为谷歌没接上能实时看雨的本地雷达数据。 虽然这个模型只能算出风险概率,但它把新闻里的洪水事件都变成了带地理标记的时序数据,给它起名叫“地面数据源(Groundsource)”。Upstream Tech的首席执行官马歇尔·莫滕奥特以前也给水电企业用类似的模型算过河流流量。他说谷歌这次是在帮大家解决那个大难题——数据短缺。莫滕奥特联合创立了一个叫dynamical.org的网站,专门给研究人员和初创企业整理机器学习用的气象数据。他觉得地球物理学上的数据要么多得让人挑花眼,要么在你真正需要的时候又不够用。 谷歌把这260万次洪水记录转成了Groundsource作为基准,接着又训练了一个基于LSTM神经网络的模型。这个模型能接全球的天气预报数据,然后算出某个区域发山洪的概率。这个系统现在已经在谷歌的洪水中心平台上用了,给150个国家的城市标上了风险等级,还把数据给了全世界的应急机构。不过莫滕奥特也说了,“数据稀缺是地球物理学领域最棘手的难题之一。”这说明现在大家都在想尽办法给深度学习模型找数据。像这样从文字里抽取出定量数据集的做法,说不定以后还能用来预测热浪或者泥石流这类短暂又重要的灾害。