微信扫码关注登录
登录注册后,您的订单将在个人中心里生成,请前往查看。同时,您将收到展会最新的动态。
当地时间9月25日,OpenAI宣布ChatGPT迎来重磅更新,新增语音与图像功能,使其能够“看、听、说”。未来两周内,ChatGPT的Plus用户与企业用户将率先体验这些新功能,开发人员等其他用户群体也有望在不久的将来使用。其中,最受外界关注的是ChatGPT的图像理解能力,用户可以向ChatGPT展示图片,让其排查问题、检查食材或分析图表。OpenAI将这一能看图的模型称作GPT-4V(ision),该模型在2022年已完成训练,并在2023年早些时候开始早期测试访问。
借助GPT-4V,OpenAI与Be My Eyes组织合作开发了Be My AI,为盲人与视力障碍人士描述外界世界。此外,OpenAI还测试了GPT-4V的验证码破解及地理定位能力,但这两项功能涉及网络安全及隐私问题。语音识别与生成功能也是本次更新的一部分,用户可以用这一功能为孩子讲述睡前故事,或在争执中作为调解助手。OpenAI与专业配音演员合作,提供了5种不同的声音,并与Spotify合作,将播客翻译为其他语言,同时保留播客主持人的声音。
数据显示,近期ChatGPT流量回升,9月11日那一周,ChatGPT流量较前一周增长约12%。流量增长的主要原因为学生返校,以及印度及巴西市场的增长。多模态功能已成为AI大模型的必争之地,Meta、谷歌、苹果等公司均在这一领域有所布局。随着AI感知、交互与生成能力的快速发展,应用场景与生态有望进一步丰富,但语音与图像数据的大小显著高于文本,这导致多模态大模型的训练推理算力需求大幅攀升。