,Techritual 香港科技电脑资讯网站,,Techritual 香港科技电脑资讯网站,,你可以使用图片和语音指令指示 ChatGPT 了,25/09/2023, 十斗,122,,
OpenAI对ChatGPT的大多数变更都是关於AI驱动机械人可以做什麽:它能回答的问题,它能访问的资讯,以及基础模型的改进。但是今次,它调整了 你使用ChatGPT本身的方式。该公司正在推出新的服务版本,允许 你不仅通过在文本框中键入句子来提示AI机械人,还可以通过大声说话或只上传图片来提示。该新功能将在未来两周内推出给ChatGPT付费用户,OpenAI表示其他所有人「很快」就能使用。
语音聊天部分非常熟悉: 你点击一个按钮并说出 你的问题,ChatGPT将其转换为文字并将其喂入大型语言模型,获得回答,再将其转换回语音,并大声说出答案。它应该就像跟Alexa或Google Assistant对话一样,只是 – OpenAI希望 – 由於基础技术的改进,答案会更好。似乎大多数虚拟助手都在重建以依赖LLM – OpenAI只是领先於这场游戏。
OpenAI出色的Whisper模型完成了大量语音转文字的工作,该公司正在推出一种新的文本到语音模型,据称它可以只从文本和几秒的示例语音生成「类似人类的音频」。 你将能够从五个选项中选择ChatGPT的声音,但OpenAI似乎认为该模型的潜力远远超出这些。例如,OpenAI正与Spotify合作,以其他语言翻译播客,而不改变主播本人的声音。合成语音有许多有趣的用途,OpenAI可能是这一产业的重要组成部分。
但是,仅需要几秒的音频就能构建一个能力强大的合成声音,这也为各种有问题的使用案例打开了大门。 「这些功能也提出了新的风险,例如恶意行为者可能会假冒公众人物或进行诈骗,」公司在宣布新功能的博客文章中说。 正因如此,该模型尚未面向广泛使用,OpenAI表示它将受到更严格的控制并限於特定的使用案例和合作夥伴关系。
与此同时,图像搜索有点像Google Lens。 你拍下感兴趣的任何照片,ChatGPT将尝试解析 你在询问什麽并相应地回答。 你还可以使用该应用程式的绘图工具来帮助澄清 你的查询,或者说出或键入与图像相关的问题。 在这里,ChatGPT的反覆性质很有帮助:与进行搜索,获得错误答案,然後再进行另一次搜索不同, 你可以提示机械人并在过程中逐步完善答案。 (这与Google的多模态搜索也非常相似。)
显然,图像搜索也有其潜在问题。 一个是在 你提示 ChatBot 有关某人时可能发生的情况:OpenAI表示,出於准确性和私隐原因,它已经故意限制了ChatGPT「分析并直接陈述有关人员的能力」。 这意味着AI最科幻的愿景之一 – 能够看着某人说「这是谁?」 – 短期内不会实现。 这可能是一件好事。
在ChatGPT最初发布近一年後,OpenAI似乎仍在努力确定如何给其机械人添加更多功能和能力,同时不产生新的问题和缺点集合。 通过这些版本,该公司试图通过故意限制其新模型可以做什麽来实现这个目标。 但这种方法不会永远有效。 随着更多人使用语音控制和图像搜索,以及ChatGPT越来越接近成为一个真正的多模式、多用途的虚拟助手,保持护栏会变得越来越困难。
,Techritual 香港River