“多模态AI”技术可以像人类通过五感理解周围那样,通过图像、声音和文件等多种数据作出高水平判断。
“您吃饭了吗?”“您吃药了吗?”可爱的机器人跟老人聊天的时候顺便提醒。虽然老人有些时候回答模糊不清,有些时候只是默默点头,AI可以通过观察情况,机智地判断出“没有问题”。
AI不仅可以理解对话内容,还可以通过视频读出感情和动作变化。传统AI可以对图像、声音和文件进行分析,但不具备察言观色的能力,打破这一壁垒的是“多模态AI”。
“多模态AI”应用范围今后将进一步扩大。日本电信电话公司(NTT)正打算有效利用“多模态AI”进行商标等调查。AI根据图片和解说文字两种信息检查过去是否有类似商标。(本报综合)