大家都听说了吧,“词元”来了!这次,国家数据局专家咨询委员会的张向宏和国家发展改革委国家信息中心人工智能处的蔡驰宇都在这个场合给大家介绍了一些让人惊讶的数据。 现在,我们用大模型处理数据时,都要把数据拆分成一个个小单元,这个小单元就叫“词元”。可以把它想象成一个字、一个词或者一个符号。每个人在输入文字的时候,大模型生成的每一段话、识别的每一幅图像,都是在消耗词元。 你猜这次国家数据局的负责人说了个什么惊人的数字?到今年3月,我国每天调用的词元量已经超过了140万亿!这个数字相当于1000万亿个中文词汇,也相当于250个中国国家图书馆的资源量!厉害吧? 为什么词元消耗量这么重要?蔡驰宇解释说,这个数字能反映出人工智能产业发展得怎么样。以前大家用软件处理信息的时候,得买软件包;现在直接调用大模型接口就可以了,用多少付多少费用。这个计费方式改变了以前的商业模式。 不过蔡驰宇也提到,虽然大家觉得很方便,但耗电量也增加了不少。政府工作报告里也提出要实施算电协同等新基建工程。他们说的“算电协同”,就是利用咱们国家有优势的绿电来发展算力和人工智能产业。 除了技术上的变化,还有些事儿得说清楚。像“词元”这类名词到底该怎么翻译?很多人都在讨论这个问题呢。全国数据标准化技术委员会就赶紧行动起来了,他们在加快推动数据领域新名词新术语的解释和国家标准研制工作。 另外,蔡驰宇还特别强调,词元消耗量的增长确实给电力资源带来了不小压力。所以我们要重视这个问题哦!柳州市互联网信息办公室也参与到这个话题中来啦!李洋还为大家整理了这期内容哦!最后别忘了关注我们的官方账号哦~