乌镇峰会“十年百人谈”聚焦数字包容:破解语言数据偏差,让算法更好服务全人类

全球数字化加速推进的背景下,技术发展中的结构性矛盾逐渐显现。国际权威机构数据显示,主流算法训练数据中英语占比高达65%,而全球超过一半人口使用非英语沟通。这种“数据偏食”使小语种群体和偏远地区居民在智能服务中被边缘化。本应用来缩小距离的数字技术,反而在不少场景中制造了新的“理解鸿沟”。问题的症结在于技术开发的价值取向存在偏差。萨巴兹指出,当算法决策过度依赖单一文化背景的数据时,输出的服务很难适配多元社会的真实需求。更值得警惕的是,技术偏见可能更放大现实不平等——从就业推荐到信贷评估,算法中的隐性歧视正在影响数亿人的机会与选择。面对这个全球性挑战,国际社会需要更具可操作性的治理框架。专家提出三上思路:首先,坚守国家在网络空间的主权底线,为技术治理提供制度支撑;其次,建立多元主体参与机制,保障少数民族、女性等群体在技术标准制定中的参与权与表达权;最后,依托世界互联网大会等国际平台,推动形成更稳定的协作机制。2022年在北京成立的世界互联网大会国际组织,是这一理念的实践探索,其“服务器”式架构为不同文明的平等交流提供了技术支撑。展望未来,提升技术包容性需要抓住三个关键环节:在数据层面实现多语言的更均衡收录,在算法层面建立可验证的偏见检测与纠偏机制,在应用层面保障不同群体的可及性与使用权益。中国在推动《本草纲目》等传统文化数字化过程中的经验表明,只有让技术真正理解并尊重文明多样性,才能更充分释放其促进人类发展的价值。

数字世界的进步不应以抹平差异为代价,而应以看见差异、尊重差异、善用差异为目标。让更多语言被理解、让更多群体被纳入、让更多观点有出口,既是技术演进的方向,也是全球数字治理应当坚持的价值坐标。只有把包容性落实到制度设计与技术细节中,数字化红利才能更公平、更可持续地惠及全体社会成员。