OpenAI 推出全新 ChatGPT 代理,用于“深度研究”

OpenAI近日宣布推出一项新的AI“代理”,旨在帮助用户通过ChatGPT进行深入且复杂的研究。这个新功能被命名为“深度研究”(Deep Research)。

在周日发布的博客中,OpenAI表示,这一新功能特别为从事金融、科学、政策和工程等领域的“高强度知识工作”的用户设计,目标是提供深入、精准且可靠的研究支持。OpenAI还指出,任何需要进行精确研究的消费决策(如购车、家电、家具等)也能从中受益。

简而言之,ChatGPT的深度研究功能并非为了快速给出答案或摘要,而是针对那些需要细致考虑来自多个网站及其他来源的信息的场景。

OpenAI表示,深度研究功能将从今天起面向ChatGPT Pro用户开放,每月限制为100次查询。接下来,Plus和Team用户也将逐步获得支持,企业用户则会在之后陆续启用。OpenAI计划在约一个月后为Plus用户推出深度研究功能,并表示付费用户的查询次数限制将很快“大幅提高”。目前该功能只在特定地区可用,OpenAI尚未公布英国、瑞士和欧洲经济区的上线时间。

如何使用ChatGPT深度研究

使用ChatGPT深度研究时,用户只需在输入框中选择“深度研究”,然后输入查询内容,并可以附上文件或电子表格。(目前这一功能仅限Web端使用,移动端和桌面应用集成将在本月稍晚推出。)深度研究的回答时间大约在五到三十分钟之间,查询完成后用户将收到通知。

目前,ChatGPT深度研究的输出结果仅为文本形式,但OpenAI表示,未来将加入嵌入图片、数据可视化以及其他“分析性”输出。此外,OpenAI计划连接“更多专业数据源”,包括“订阅制”和内部资源。

深度研究的精确度:挑战与保障

最大的疑问是,ChatGPT深度研究的精准度到底如何?毕竟,AI并非完美,容易产生幻觉和其他错误,尤其是在进行深度研究时,错误的后果可能更加严重。因此,OpenAI表示,每个ChatGPT深度研究的输出结果将“全面记录,提供清晰的引用并总结推理过程,以便用户能够验证和参考这些信息”。

然而,是否能有效避免AI错误仍是一个悬而未决的问题。OpenAI的ChatGPT Search功能在测试中频繁出现错误,给出不准确的答案。TechCrunch的测试发现,ChatGPT Search在一些查询中的表现不如Google Search。

提高深度研究准确性的措施

为提升深度研究的准确性,OpenAI使用了其最新发布的o3“推理”AI模型的特别版本,该版本通过强化学习,在“需要浏览器和Python工具使用的实际任务”中进行训练。强化学习通过试错过程帮助模型完成特定目标,在逐步接近目标时,模型会得到虚拟奖励,从而提升其能力。

OpenAI表示,这个特别版本的o3模型“专为网页浏览和数据分析优化”,并表示它“能够利用推理能力,搜索、解读和分析大量文本、图片和PDF文件,根据所遇到的信息做出灵活应对。”此外,该模型“还能浏览用户上传的文件”,并且“能够使用Python工具绘制和更新图表,将生成的图表和来自网站的图片嵌入回答中,并引用具体的句子或段落。”

深度研究的初步评估

OpenAI表示,ChatGPT深度研究功能已经通过“人类最后的考试”(Humanity’s Last Exam)进行测试,这是一个包含3000多个专家级问题的评估,涉及多个学术领域。深度研究所使用的o3模型在该评估中的准确率为26.6%,虽然这个成绩看起来不算优秀,但《人类最后的考试》设计时故意比其他评估标准更为严苛,以确保跟上模型发展的步伐。OpenAI表示,这一版本的o3模型在准确度上远超Gemini Thinking(6.2%)、Grok-2(3.8%)和OpenAI自家的GPT-4o(3.3%)。

深度研究的局限性

尽管如此,OpenAI也提醒,ChatGPT深度研究仍然存在一定局限性,可能会犯错误或做出错误推断。公司表示,深度研究在区分权威信息与谣言时可能存在困难,且经常无法明确表达其对某些信息的不确定性,同时,它在报告和引用格式上也可能出现错误。

对于那些担心生成型AI对学生或在线信息检索产生影响的人来说,深度研究提供的有充分引用的详细输出,可能比那些没有引用的简单聊天机器人摘要更具吸引力。但我们还需观察,用户是否会真正对这些输出进行深入分析和核对,还是仅仅将其作为看起来更专业的文本来复制粘贴。

如果这听起来有些耳熟,谷歌在不到两个月前也发布了一个相似的AI功能,而且名字完全相同。

标签



热门标签