又来开计算机视觉的坑了,这次一定做好整理和记录,包括算法内容和程序。做好训练、保存和推理的框架,下次需要的时候直接用。做目标检测的东西,于是决定从 Fast R-CNN 重头来过了。其中,Fast R-CNN 只有理论,Faster-RCNN 部分含有代码,不过会在下一篇博客了。
既然是目标检测,就需要做两件事情,目标在哪,目标是什么。对于目标在哪的问题,可以让网络生成一个目标框,目标框有四部分组成:$(x,y,w,h)$,表示物体的起始点坐标和框的宽度与高度;对于目标是什么的问题,就是传统神经网络的多分类问题了。