1. 实时屏幕感知与交互
- Chrome浏览器中的Gemini AI助手能够通过视觉处理技术实时识别屏幕内容,包括文字、图片及网页元素。例如,在浏览新闻页面时,用户可通过语音指令询问“当前文章的核心观点”,助手会快速提取并摘要关键信息,无需手动查找。
- 在电商页面中,Gemini可自动识别商品图片并回答“这款衣服的材质是什么”,结合图像识别与语音交互简化操作流程。
2. 语音指令的高效响应
- 用户可直接通过语音提问“如何填写表单”或“这个按钮的作用是什么”,Gemini会结合页面上下文提供指导,减少对技术文档的依赖。
- 在复杂任务中(如网页翻译),语音指令“将这段文字翻译成中文”可触发实时翻译功能,并直接在页面中高亮显示结果。
3. 智能化建议与辅助决策
- 当用户对比多个商品或服务时,Gemini能分析页面数据,主动提示“右侧产品的性价比更高”或“左侧选项更符合您的浏览历史偏好”。
- 在表单填写场景中,助手可自动识别字段含义,通过语音提醒“邮箱地址格式不正确”或“请补充必填项”,降低操作错误率。
4. 多场景适配与学习能力
- Gemini支持跨场景任务处理,例如在视频会议中自动记录待办事项,或在阅读长文档时生成分段摘要。用户可通过语音命令“总结接下来的内容”快速获取关键信息。
- 助手会学习用户行为习惯,例如频繁访问的网页类型,逐步优化响应策略,优先提供更贴合需求的建议。
5. 隐私与权限管理
- 首次使用需在浏览器设置中授予“屏幕读取”和“语音录制”权限,用户可随时通过`chrome://settings/content`调整权限。
- 谷歌强调数据本地处理,仅收集匿名交互日志以改进算法,避免敏感信息泄露。
目前该功能仅向AI Pro和AI Ultra订阅用户开放,且处于测试阶段。如需体验,需加入Chrome测试版计划(设置→关于Chrome→启用测试通道)。未来谷歌计划扩展其场景适应性,例如支持更多语言和复杂网页结构,进一步提升智能化水平。