“多模态AI”会察言观色更接近人类五感·重庆科技报数字报

　　“多模态AI”技术可以像人类通过五感理解周围那样，通过图像、声音和文件等多种数据作出高水平判断。

　　“您吃饭了吗？”“您吃药了吗？”可爱的机器人跟老人聊天的时候顺便提醒。虽然老人有些时候回答模糊不清，有些时候只是默默点头，AI可以通过观察情况，机智地判断出“没有问题”。

　　AI不仅可以理解对话内容，还可以通过视频读出感情和动作变化。传统AI可以对图像、声音和文件进行分析，但不具备察言观色的能力，打破这一壁垒的是“多模态AI”。

　　“多模态AI”应用范围今后将进一步扩大。日本电信电话公司（NTT）正打算有效利用“多模态AI”进行商标等调查。AI根据图片和解说文字两种信息检查过去是否有类似商标。（本报综合）