听见世界是由复旦大学自然语言处理实验室出品的AI公益助盲软件。目前里面包括了多个不同的使用模式可以进行使用和切换,比如自由问答、街道行走、物品查找、拍照朗读等,都是非常便利性的功能。
听见世界应用是一款依托于眸思大模型的AI图像识别工具,可以帮助视觉障碍者更方便的“看清世界”。她提供了强大的图像识别能力,可以应用于日常生活的多个场景,为您带来便利。
“复旦·眸思”(MouSi)官网链接:http://www.mousi.org/,可登录试用体验,打破视觉界限,助力视障者“看见”世界。
“听见世界”APP针对视障者日常的生活需求,设计了三种模式。
街道行走模式,它将细致扫描道路情况,告知红绿灯、十字路口、障碍物……提示潜在风险,陪伴视障者安全通行。
自由问答模式。走进博物馆、艺术馆、公园……它能捕捉四周景象的每个细节,用声音构建一个丰富的生活场景。
寻物模式。它像一名可靠的管家,日常物件的寻觅过程变得轻松无压力。
物品识别
能精确识别到拍摄的物品,轻松获取周围物品信息,从而更好的理解周围环境。
语音交互
可以直接通过对话方式进行操作并与AI沟通。
拍照阅读
用户使用App拍摄文字材料,如书籍、标签或路标,App通过文字识别技术读取并解析文字内容,然后通过语音合成技术将文字内容朗读给用户,帮助用户理解文字信息。
眸思(MouSi)多模态大模型是由复旦大学语言与视觉团队联合提出基于多视觉专家混合架构的视觉-语言大模型。基于新架构的眸思将擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务的专家巧妙地融为一体,显著地提高了多模态大模型在多模态对话中传统视觉任务上的表现效果。
复旦眸思多模态大模型是一种具备多模态理解、生成和交互能力的强大模型。它拥有出色的视觉感知、理解和逻辑推理能力,以及出色的由图像到文本的跨模态生成能力。这使得人工智能成为了适用于广大群众的生产工具。对于企业特定需求,复旦眸思多模态大模型可以开展定制化服务。