OpenAI再次升级ChatGPT,可以识别理解图像了!

据9月25日消息,OpenAI近日宣布推出新版本ChatGPT,新增语音输入和图像输入两项功能。 据 OpenAI 称,新功能将在未来两周内向 ChatGPT Plus 订阅者推出,其他人“很快”就能使用它们。

语音输入功能类似于手机上的语音助手。 用户只需按一个按钮并说出他们的问题,ChatGPT 就会将其转换为文本,然后生成答案,然后将答案转换为语音并播放给用户。 OpenAI表示,这种交互方式更加自然便捷,而且由于LLM的技术优势,答案的质量也会更高。 OpenAI 还开发了一种新的文本转语音模型,可以根据几秒钟的样本语音生成类似的人声。 用户可以从五个选项中选择 ChatGPT 的语音,并且该模型还有更多潜在用途。 例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保留播客主持人的声音。 但这种模式也存在一定的风险,比如可能被恶意用来冒充公众人物或进行诈骗。 因此,OpenAI表示,这种模式不会广泛开放,而是会受到严格控制和限制。

图片输入功能与Google Lens类似。 用户可以拍摄自己感兴趣的事物的照片并将其上传到ChatGPT。 ChatGPT 将尝试识别用户想要询问的内容并给出适当的答案。 用户还可以使用应用程序中的绘图工具来帮助表达他们的问题,或通过语音或文本输入进行交流。 ChatGPT 的优点是它允许多轮对话而不是一次性搜索。 如果用户对答案不满意或者想了解更多信息,可以继续向ChatGPT提问,以获得更准确、更全面的答案。 当然,图像搜索存在一些潜在的问题。 例如,在处理人物图片时,OpenAI 表示他们限制了 ChatGPT 分析和直接评估人物的能力,既是为了确保准确性,也是为了保护隐私。 这意味着上传一个人的照片就可以知道他/她是谁。 谁还不能实现它。

自 2022 年初推出 ChatGPT 以来,OpenAI 一直在努力为其机器人添加更多特性和功能,同时避免产生新问题。 通过这次更新,该公司试图通过有意识地限制其新车型的功能来找到平衡点。 但这种做法并不是长久之计。 随着越来越多的人使用语音控制和图像搜索,ChatGPT逐渐成为真正的多模态、实用的虚拟助手,维护安全性和合理性的边界将会改变。 越来越难了。

本文由@指点号原创发布于今日指点,转载请附带链接。

本文链接:https://www.jinrizhidian.com/tech/1038.html

发表评论