Google TalkBack 将使用Gemini模型为盲人描述图像

在本周二举行的Google I/O 2024 开发者大会上，该公司宣布将在今年晚些时候推出的一项Android功能中使用 Gemini Nano 来帮助描述图像。

该公司宣布，Gemini Nano 的功能将应用于公司的无障碍功能 TalkBack。这是公司利用生成式人工智能向更多用户开放软件的一个很好的例子。

Gemini Nano 是Google基于 LLM 平台的最小版本，旨在完全在设备上运行。这意味着它不需要网络连接就能运行。在这里，该程序将用于为低视力和盲人用户创建物体的声音描述。

在上图的弹出窗口中，TalkBack 将衣服描述为"一件黑白格子裙的特写。裙子很短，有领子和长袖。腰间系着一个大蝴蝶结"。

据该公司称，TalkBack 用户每天大约会遇到 90 张左右没有标签的图片。通过使用 LLM，系统将能够提供对内容的洞察力，从而有可能省去人工输入信息的麻烦。

Android生态系统总裁萨迈尔-萨马特（Sameer Samat）指出："这一更新将有助于填补缺失的信息，无论是家人或朋友发送的照片中的更多细节，还是网上购物时衣服的款式和剪裁。"

该设备将于今年晚些时候登陆Android系统。如果它能像演示中那样运行良好，那么对于盲人和低视力者来说可能会带来极大的便利。

最新资讯