OpenAI再次升级ChatGPT，可以识别理解图像了！

据9月25日消息，OpenAI近日宣布推出新版本ChatGPT，新增语音输入和图像输入两项功能。据 OpenAI 称，新功能将在未来两周内向 ChatGPT Plus 订阅者推出，其他人“很快”就能使用它们。

语音输入功能类似于手机上的语音助手。用户只需按一个按钮并说出他们的问题，ChatGPT 就会将其转换为文本，然后生成答案，然后将答案转换为语音并播放给用户。 OpenAI表示，这种交互方式更加自然便捷，而且由于LLM的技术优势，答案的质量也会更高。 OpenAI 还开发了一种新的文本转语音模型，可以根据几秒钟的样本语音生成类似的人声。用户可以从五个选项中选择 ChatGPT 的语音，并且该模型还有更多潜在用途。例如，OpenAI 正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。但这种模式也存在一定的风险，比如可能被恶意用来冒充公众人物或进行诈骗。因此，OpenAI表示，这种模式不会广泛开放，而是会受到严格控制和限制。

图片输入功能与Google Lens类似。用户可以拍摄自己感兴趣的事物的照片并将其上传到ChatGPT。 ChatGPT 将尝试识别用户想要询问的内容并给出适当的答案。用户还可以使用应用程序中的绘图工具来帮助表达他们的问题，或通过语音或文本输入进行交流。 ChatGPT 的优点是它允许多轮对话而不是一次性搜索。如果用户对答案不满意或者想了解更多信息，可以继续向ChatGPT提问，以获得更准确、更全面的答案。当然，图像搜索存在一些潜在的问题。例如，在处理人物图片时，OpenAI 表示他们限制了 ChatGPT 分析和直接评估人物的能力，既是为了确保准确性，也是为了保护隐私。这意味着上传一个人的照片就可以知道他/她是谁。谁还不能实现它。

自 2022 年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人添加更多特性和功能，同时避免产生新问题。通过这次更新，该公司试图通过有意识地限制其新车型的功能来找到平衡点。但这种做法并不是长久之计。随着越来越多的人使用语音控制和图像搜索，ChatGPT逐渐成为真正的多模态、实用的虚拟助手，维护安全性和合理性的边界将会改变。越来越难了。