乌镇峰会“十年百人谈”聚焦数字包容：破解语言数据偏差，让算法更好服务全人类

全球数字化加速推进的背景下，技术发展中的结构性矛盾逐渐显现。国际权威机构数据显示，主流算法训练数据中英语占比高达65%，而全球超过一半人口使用非英语沟通。这种“数据偏食”使小语种群体和偏远地区居民在智能服务中被边缘化。本应用来缩小距离的数字技术，反而在不少场景中制造了新的“理解鸿沟”。问题的症结在于技术开发的价值取向存在偏差。萨巴兹指出，当算法决策过度依赖单一文化背景的数据时，输出的服务很难适配多元社会的真实需求。更值得警惕的是，技术偏见可能更放大现实不平等——从就业推荐到信贷评估，算法中的隐性歧视正在影响数亿人的机会与选择。面对这个全球性挑战，国际社会需要更具可操作性的治理框架。专家提出三上思路：首先，坚守国家在网络空间的主权底线，为技术治理提供制度支撑；其次，建立多元主体参与机制，保障少数民族、女性等群体在技术标准制定中的参与权与表达权；最后，依托世界互联网大会等国际平台，推动形成更稳定的协作机制。2022年在北京成立的世界互联网大会国际组织，是这一理念的实践探索，其“服务器”式架构为不同文明的平等交流提供了技术支撑。展望未来，提升技术包容性需要抓住三个关键环节：在数据层面实现多语言的更均衡收录，在算法层面建立可验证的偏见检测与纠偏机制，在应用层面保障不同群体的可及性与使用权益。中国在推动《本草纲目》等传统文化数字化过程中的经验表明，只有让技术真正理解并尊重文明多样性，才能更充分释放其促进人类发展的价值。

数字世界的进步不应以抹平差异为代价，而应以看见差异、尊重差异、善用差异为目标。让更多语言被理解、让更多群体被纳入、让更多观点有出口，既是技术演进的方向，也是全球数字治理应当坚持的价值坐标。只有把包容性落实到制度设计与技术细节中，数字化红利才能更公平、更可持续地惠及全体社会成员。