自动摘要: 用了一会口扫,我凭着感觉理解了一下:流程:1.通过pspnet将图片分割成二分类,牙齿区域/其他区域,用于排除重建干扰。2.三维重建应该是用的光栅投影技术,为了尽可能提高精度,应该采用的是 ……..
用了一会口扫,我凭着感觉理解了一下:流程:1. 通过pspnet将图片分割成二分类,牙齿区域/其他区域,用于排除重建干扰。2. 三维重建应该是用的光栅投影技术,为了尽可能提高精度,应该采用的是相移法,而不是傅利叶方法,通过获得相位差,得到牙齿相对于参考面的高度信息(深度图),经过相机参数(经过标定),的到三维模型
猜想:1. 显存限制,来源于pspnet网络推理资源损耗过大。2. 而内存占用过大,pspnet精度不够,后续优化过多,或是为了使用相移法获得精度,而损失时间。3. 而您上次说三维重建考虑相机参数,应该是指的这个案例。
建议:关于分割网络:1. 如果为了精度,可以尝试下deeplabV3+(思想发生质的改变)2. 网络现在是自适应输入大小,但最终都以192*240输出,强制resize可能会损失信息。3. 本身图片分辨率较小,pspnet有大量操作在保留全局信息,而上采样用的线性插值,分辨率较小经不起这样的损失,如果想再次提高精度,将其上采样改成注意力机制的编码器,如果想提高速度,将一些权重较低的层裁剪即可。4. 如果将您分割数据,标注牙齿类型(牙位),则可以在扫描阶段实现牙位识别,这样就可以针对某种牙去开发相对应算法。5.可以尝试考虑下视频分割网络,因为用户扫时大多数是有序的,即图片内容与时间有关系,加入时间轴关系,可以很好的分割连续帧图片,并且视频分割网络会着重考虑性能因素。6. 模型还是考虑加密。
以上仅仅是本人猜想及其一些愚见。