在512MB内存下快速锁定百亿整数中位数：用分区计数与两轮扫描攻克“大文件排序”难题

问题—— 数据密集型应用中，海量数据的排序与统计常因内存限制而难以高效处理。以“100亿个32位整数的中位数”为例，数据存储在无序的超大文件中，而系统内存仅512MB。传统方法需要将所有数据读入内存排序，但中位数的计算必须精确找到第50亿个（或偶数时的第50亿和第50亿+1个）有序数值，这使得传统方法不仅耗时，还受限于内存容量，无法实际应用。原因—— 瓶颈源于数据规模与内存限制的双重约束。512MB内存约等于5.37亿字节，而每个32位整数占4字节，理论上最多容纳1.34亿个整数，还需为程序运行和缓冲区预留空间，实际可用内存更少。100亿个整数远超内存上限，任何依赖全量数据驻留内存的算法都无法实现。另一上，32位整数的值域范围（约42.95亿个可能取值）虽然远小于数据量，但为“分区统计”提供了天然边界，可将问题转化为可流式处理的计数问题。影响—— 这类问题在日志分析、指标监控、风控建模和传感器数据处理中普遍存在。分位数（包括中位数）是重要的统计指标，若仅依赖内存内排序，不仅资源消耗高，还会延长计算时间、增加系统不稳定性，影响批处理和实时决策效率。因此，在有限内存下实现分位数精确计算，是提升数据处理能力和降低算力成本的关键。对策—— 解决方案是将“排序求中位数”转化为“计数定位中位数”，通过顺序扫描替代随机访问和全量排序。具体分为两阶段分桶统计： 1. 粗分桶锁定区间：将32位整数的值域[-2^31, 2^31-1]均匀划分为10万个连续子区间（桶），每个桶覆盖约4.3万个整数取值。顺序遍历文件，统计每个桶的计数。10万个桶的计数数组仅需不到1MB内存。累加计数后，当累计数首次达到或超过50亿时，即可确定中位数所在桶，并记录桶前的累计数作为偏移基数。 2. 细分桶内精确定位：对目标桶内的整数进行更细粒度计数，建立值到频次的映射数组。再次遍历文件，仅统计落入目标桶的整数，累加频次直至达到目标位置（50亿减去桶前累计数），即可得到中位数。若数据量为偶数，还需定位第50亿+1个值并计算平均值。工程实现需注意：全程顺序读取文件以减少磁盘寻址；使用64位计数器避免溢出；桶数量可根据内存和IO性能调整；算法对数据分布不敏感，性能主要取决于IO吞吐。前景—— 该方法说明了外存计算的典型策略：通过多次扫描和小内存索引替代单次全量排序。在资源受限或多任务环境中，这种基于计数的算法具有可预测性和工程可控性。对于更大规模数据，可结合分布式文件系统实现并行统计；对于更多统计需求，可扩展至任意分位数或Top-K分析。若允许近似结果，还可结合采样技术降低计算量，但在需要精确结果的场景（如金融审计），两阶段计数仍不可替代。

这项研究为物联网、边缘计算等内存受限场景下的实时数据处理提供了重要参考。随着数据规模持续增长，如何在有限资源下高效运算将成为普遍挑战。这个技术突破不仅展示了算法创新的价值，也表明通过问题拆解和分层优化，硬件限制可以成为激发技术潜能的催化剂。