从“a股ai视觉第一股“到”多模态落地先行者”
中国公司格灵深瞳通过多模态大模型在银行安防、城市管理、商业零售和体育教育等领域取得成功。他们的视觉大模型unicom v2在多个数据集上表现优于openai的clip和meta的dinov2。多模态大模型的优势在于解决复杂场景和长尾问题。格灵深瞳采用弱监督学习方法,通过特征聚类和软标签分配来扩大视觉大模型的数据规模。他们还在尝试使用基于rnn的序列建模方法rwkv替代vit架构,以降低计算复杂度。格灵深瞳认为,多模态大模型的应用需要深耕行业和掌握行业场景。