相机标定：让机器人“看见”自己手里的工具

以前只觉得按快门就能拍张照片，根本不知道它把咱们立体的世界给压扁了。现在看来，要是不懂相机这台“数学投影仪”到底是咋工作的，那就算眼睛能看见，计算机也压根读不懂背后的深度信息。就好比你让它去找东西，可它只知道在平地上画一条线，压根不知道东西是浮在空中还是躺在地上。所以啊，搞清楚标定是怎么回事太关键了，这可是三维重建、深度估计、SLAM 这些活儿能不能做起来的核心。先说说单目系统吧。现在车载 ADAS 就在用单目测距呢，高速路上得盯着前车算距离。只要知道了相机的高度和朝向这些内参，算法就能把像素坐标直接换算成真实世界的坐标，精度能到毫米级。图上那个简单的例子就是地面高度已知，物体轮廓清晰的时候算法怎么反推距离的。在机器人那也是一样，“手眼标定”其实就是让机器人“看见”自己手里的工具。传统的做法是摆个棋盘格或者标定板来采数据；到了深度学习时代，像 ManyDepth 这样的模型直接靠时序约束让网络自己去猜深度，不用那些老规矩。那要是遇到复杂的纹理或者运动模糊呢？这时候单目估计就容易出问题。这就得靠双目或者 RGB-D 这种多眼系统了。双目系统利用视差这把尺子直接把深度信息拍到像素差值里；车载全景环视就得四路相机一块儿拼接成 360° 视图，每台先定好内参再联合标定外参才能保证接缝不重影。AR 也是一个道理，只有现实世界和虚拟物体在同一个坐标系下才能不让人头转的时候出现漂移。不过话说回来，相机标定想做到绝对精确是不可能的。镜头畸变是非线性的、感光元件的间距也有微小误差、还有空气折射都在偷偷捣乱。想要把误差压到毫米级甚至亚毫米级得靠三管齐下：数据量得大才行，张正友的那个板子只是入门；模型得复杂点才行；后处理也不能省点事。像什么残差点云对齐、RANSAC 剔除离群点、多视图几何闭环检验这些步骤一步都不能少。最后你会发现啊，从车载前向感知到机器人抓取、从 AR 体验到三维重建，标定无处不在却又看不见。掌握了这门手艺之后你就能把精力从调参里解脱出来搞创新了。等以后大家都不用再为了标定操心的时候，三维视觉就能真正服务于业务场景了。