会说话、能识图的ChatGPT来了!距离“超级助理”更进一步
开口说话、装上“眼睛”,多模态ChatGPT来了。
周一,OpenAI在官网宣布,将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能,上述功能允许用户进行语音对话或向ChatGPT展示图片。
语音功能方面,ChatGPT可以用语音来回答问题和命令,与苹果的Siri等C端个人助理形成直接竞争。此外,ChatGPT将有五种不同的语音供用户选择,同时支持语音音频生成文本、将播客语音翻译成其他语言等功能。
图像功能方面,用户提交图片并询问相关问题,ChatGPT可以根据图片回答或给出建议。据悉,语音功能将在iOS和Android平台推出,图像功能将登陆所有平台。
开口说话、5种不同语音
OpenAI升级了用户与ChatGPT的交互方式,用户不仅可以通过在文本框中输入句子,还可以通过大声说话来提示聊天机器人。
这一功能并不陌生,类似于与谷歌助手交谈,只是OpenAI希望,由于底层技术的改进,答案会更好。目前,大多数虚拟助手都在依靠大模型进行重建,OpenAI 只是走在了前面。
OpenAI 于今年 5 月发布了 ChatGPT 应用程序,并已经提供了语音转文本功能。增加语音回复功能可以让用户感觉在进行更人性化的对话。该公司希望这项新功能能鼓励用户随时随地使用其移动应用,并与谷歌的 Assistant、苹果的 Siri或 亚马逊的 Alexa 等个人助理产品形成直接的竞争。
OpenAI正在推出一种新的文本转语音模型,并称它可以“通过文本和几秒钟的语音样本生成类似人类的音频”,用户可以从五个选项中选择 ChatGPT 的声音,但 OpenAI 似乎认为该模型的潜力远不止于此。例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保持播客的声音。合成语音有很多有趣的用途,OpenAI 可能会成为这一行业的重要组成部分。
装上“眼睛”、看懂图片
该公司还表示,付费用户和企业用户将可以使用图片功能,图片搜索有点像谷歌 Lens,只需拍下感兴趣的照片,ChatGPT 就会找出问题所在,并做出相应的回应。
例如,用户可以上传一张粉色太阳镜的图片,并要求聊天机器人推荐与之搭配的服装,或者提交一张数学问题的图片,并请求帮助解决。
分析指出,自从 2022 年初推出 ChatGPT 以来,OpenAI 一直在努力为其机器人增加更多功能和能力,同时避免造成新的问题出现。通过这次更新,该公司试图在这条界线上寻找平衡点,通过有意识地限制其新模型能做什么来实现这一目标。
但是这种方法并不是长久之计,随着越来越多的人使用语音控制和图像搜索,以及 ChatGPT 逐渐成为一个真正的多模态、实用的虚拟助手,要保持安全和合理的边界会变得越来越困难。
ChatGPT要成为“超级助理”
这次升级无疑令ChatGPT距离“超级助理”更进了一步,同时与下游软件的竞争也更加激烈。
此前文章指出,OpenAI首席执行官Sam Altman私下告诉开发者,公司希望将ChatGPT打造成“超级智能个人工作助理”,使其可以根据个人及工作需求执行多种任务,如按照用户的风格起草邮件或文件,提供相关业务的最新信息。
分析指出,微软和OpenAI均能向需要构建AI能力的 B 端客户提供技术服务,两者之间存在着直接的业务冲突;而从长期来看,如果OpenAI加速布局面向个人及企业的软件,ChatGPT未来很有可能将重塑C端应用生态,或许两者的“关系破裂”是早晚的事情。
周一,OpenAI在官网宣布,将在未来两周内面向Plus和企业用户推出ChatGPT的语音和图像功能,上述功能允许用户进行语音对话或向ChatGPT展示图片。
语音功能方面,ChatGPT可以用语音来回答问题和命令,与苹果的Siri等C端个人助理形成直接竞争。此外,ChatGPT将有五种不同的语音供用户选择,同时支持语音音频生成文本、将播客语音翻译成其他语言等功能。
图像功能方面,用户提交图片并询问相关问题,ChatGPT可以根据图片回答或给出建议。据悉,语音功能将在iOS和Android平台推出,图像功能将登陆所有平台。
开口说话、5种不同语音
OpenAI升级了用户与ChatGPT的交互方式,用户不仅可以通过在文本框中输入句子,还可以通过大声说话来提示聊天机器人。
这一功能并不陌生,类似于与谷歌助手交谈,只是OpenAI希望,由于底层技术的改进,答案会更好。目前,大多数虚拟助手都在依靠大模型进行重建,OpenAI 只是走在了前面。
OpenAI 于今年 5 月发布了 ChatGPT 应用程序,并已经提供了语音转文本功能。增加语音回复功能可以让用户感觉在进行更人性化的对话。该公司希望这项新功能能鼓励用户随时随地使用其移动应用,并与谷歌的 Assistant、苹果的 Siri或 亚马逊的 Alexa 等个人助理产品形成直接的竞争。
OpenAI正在推出一种新的文本转语音模型,并称它可以“通过文本和几秒钟的语音样本生成类似人类的音频”,用户可以从五个选项中选择 ChatGPT 的声音,但 OpenAI 似乎认为该模型的潜力远不止于此。例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保持播客的声音。合成语音有很多有趣的用途,OpenAI 可能会成为这一行业的重要组成部分。
装上“眼睛”、看懂图片
该公司还表示,付费用户和企业用户将可以使用图片功能,图片搜索有点像谷歌 Lens,只需拍下感兴趣的照片,ChatGPT 就会找出问题所在,并做出相应的回应。
例如,用户可以上传一张粉色太阳镜的图片,并要求聊天机器人推荐与之搭配的服装,或者提交一张数学问题的图片,并请求帮助解决。
分析指出,自从 2022 年初推出 ChatGPT 以来,OpenAI 一直在努力为其机器人增加更多功能和能力,同时避免造成新的问题出现。通过这次更新,该公司试图在这条界线上寻找平衡点,通过有意识地限制其新模型能做什么来实现这一目标。
但是这种方法并不是长久之计,随着越来越多的人使用语音控制和图像搜索,以及 ChatGPT 逐渐成为一个真正的多模态、实用的虚拟助手,要保持安全和合理的边界会变得越来越困难。
ChatGPT要成为“超级助理”
这次升级无疑令ChatGPT距离“超级助理”更进了一步,同时与下游软件的竞争也更加激烈。
此前文章指出,OpenAI首席执行官Sam Altman私下告诉开发者,公司希望将ChatGPT打造成“超级智能个人工作助理”,使其可以根据个人及工作需求执行多种任务,如按照用户的风格起草邮件或文件,提供相关业务的最新信息。
分析指出,微软和OpenAI均能向需要构建AI能力的 B 端客户提供技术服务,两者之间存在着直接的业务冲突;而从长期来看,如果OpenAI加速布局面向个人及企业的软件,ChatGPT未来很有可能将重塑C端应用生态,或许两者的“关系破裂”是早晚的事情。
Tags: openai
版权声明
Copyright ◎ 2024 杭州车汇 版权所有 备案号: 浙ICP备2020037907号-24,本站部分内容为转载,不代表本站立场,如有侵权请联系处理
你可能感兴趣的文章
- 汇兴智造入选第六批国家级专精特新“小巨人”企业
- 国泰君安申请“国泰海通”等商标
- 餐饮住宿、家电汽车都便宜啦!各地推出优惠政策促进消费→
- 保荐代表人业绩两极分化 1037人注册制下保荐项目颗粒无收
- 万兴科技副总裁朱雯雯:大模型加速改变音视频内容生产的成本结构
- 维信诺打造中尺寸业务增长新动能 合肥国显8.6代AMOLED生产线开工
- 步长制药赵超:以科技创新为先导推动中药走向现代化
- “中国红”闪耀太空 为新时代蓬勃发展的中国航天事业点赞
- 海尔智家上榜绿点中国2024年度案例
- 浙商银行:未来5年提供意向性融资不低于2000亿元,为中国与东盟高质量产业合作贡献浙银力量
- 我国综合国力实现历史性跨越
- 新芯股份科创板IPO申请获受理
- “A+H”上市热潮再起 年内9家A股公司谋划赴港上市
- A股大反攻后,要不要持股过节?近七成私募看好节后行情
- 今日上交所全网测试!集中申报大量订单时 验证竞价处理平稳运行
- 中国贸促会回应近期美一系列涉华限制措施:合作仍是主流 共赢才是目标