关于我们
![]() ![]() |
场景文字视觉问答技术理论与实践研究
场景文字视觉问答,是指给定场景图像并回答场景图像中场景文字相关问题的技术。这需要模型具备推理、分析和理解图片中的文本信息的能力,这是多模态理解的重要基础,是从感知智能走向认知智能的重要一步。本书主要介绍场景文字视觉问答的最新进展和技术方向,主要内容包括绪论、场景文字视觉问答相关概念、以场景文本语义为中心的场景文字视觉问答方法、基于文本语义上下文学习及空间表示的场景文字视觉问答方法以及基于图像分割和匹配的场景文字视觉问答方法。
你还可能感兴趣
我要评论
|