你可以使用图片和语音指令指示 ChatGPT 了

,Techritual 香港科技电脑资讯网站,, Logo Techritual 香港科技电脑资讯网站,,你可以使用图片和语音指令指示 ChatGPT 了,25/09/2023, 十斗,122,,

OpenAI对ChatGPT的大多数变更都是关於AI驱动机械人可以做什麽：它能回答的问题，它能访问的资讯，以及基础模型的改进。但是今次，它调整了你使用ChatGPT本身的方式。该公司正在推出新的服务版本，允许你不仅通过在文本框中键入句子来提示AI机械人，还可以通过大声说话或只上传图片来提示。该新功能将在未来两周内推出给ChatGPT付费用户，OpenAI表示其他所有人「很快」就能使用。

语音聊天部分非常熟悉：你点击一个按钮并说出你的问题，ChatGPT将其转换为文字并将其喂入大型语言模型，获得回答，再将其转换回语音，并大声说出答案。它应该就像跟Alexa或Google Assistant对话一样，只是 – OpenAI希望 – 由於基础技术的改进，答案会更好。似乎大多数虚拟助手都在重建以依赖LLM – OpenAI只是领先於这场游戏。

OpenAI出色的Whisper模型完成了大量语音转文字的工作，该公司正在推出一种新的文本到语音模型，据称它可以只从文本和几秒的示例语音生成「类似人类的音频」。你将能够从五个选项中选择ChatGPT的声音，但OpenAI似乎认为该模型的潜力远远超出这些。例如，OpenAI正与Spotify合作，以其他语言翻译播客，而不改变主播本人的声音。合成语音有许多有趣的用途，OpenAI可能是这一产业的重要组成部分。

但是，仅需要几秒的音频就能构建一个能力强大的合成声音，这也为各种有问题的使用案例打开了大门。「这些功能也提出了新的风险，例如恶意行为者可能会假冒公众人物或进行诈骗，」公司在宣布新功能的博客文章中说。正因如此，该模型尚未面向广泛使用，OpenAI表示它将受到更严格的控制并限於特定的使用案例和合作夥伴关系。

与此同时，图像搜索有点像Google Lens。你拍下感兴趣的任何照片，ChatGPT将尝试解析你在询问什麽并相应地回答。你还可以使用该应用程式的绘图工具来帮助澄清你的查询，或者说出或键入与图像相关的问题。在这里，ChatGPT的反覆性质很有帮助：与进行搜索，获得错误答案，然後再进行另一次搜索不同，你可以提示机械人并在过程中逐步完善答案。 (这与Google的多模态搜索也非常相似。)

显然，图像搜索也有其潜在问题。一个是在你提示 ChatBot 有关某人时可能发生的情况：OpenAI表示，出於准确性和私隐原因，它已经故意限制了ChatGPT「分析并直接陈述有关人员的能力」。这意味着AI最科幻的愿景之一 – 能够看着某人说「这是谁?」 – 短期内不会实现。这可能是一件好事。

在ChatGPT最初发布近一年後，OpenAI似乎仍在努力确定如何给其机械人添加更多功能和能力，同时不产生新的问题和缺点集合。通过这些版本，该公司试图通过故意限制其新模型可以做什麽来实现这个目标。但这种方法不会永远有效。随着更多人使用语音控制和图像搜索，以及ChatGPT越来越接近成为一个真正的多模式、多用途的虚拟助手，保持护栏会变得越来越困难。

, Logo Techritual 香港River

Leave a Reply Cancel reply

Recent Posts

Categories

注册优惠