【资料图】

在与新必应(New Bing,集成了大语言模型GPT-4能力的搜索引擎)“深聊”之后,中国科学院计算技术研究所副所长、研究员包云岗发现了一点“规律”:对于一些需要精准答案的场景,GPT-4开始变得不可靠。

“与New Bing讨论一些社会人文话题,它回答得头头是道;让它列一个信息技术发展报告大纲,看起来很有层次;让它望文作图、再赋诗一首,表现也还不错。直到开始讨论一道数学题,它似乎有‘情绪’了——试了两次都没答对,最终它不想再继续对话。”包云岗说道。

他不灰心,继续第三次尝试,但New Bing仍然没有给出正确答案。

“但依然有惊喜——New Bing的三次回答,使用了三种不同的思路,这说明它背后的GPT-4所采用基于人工反馈的强化学习(RLHF)确实在发挥作用。”包云岗说。

推荐内容