ChatGPT是由OpenAI开发的人工智能聊天机器人原型,专门从事对话。聊天机器人是一个大型语言模型,通过监督和强化学习技术进行了微调。它基于OpenAI的GPT-3.5模型,这是GPT-3的改进版本。
ChatGPT 于 2022 年 11 月推出,尽管其事实准确性受到批评,但其详细的回复和清晰的答案引起了人们的关注。
ChatGPT(生成预训练变压器)在GPT-3.5之上使用监督学习和强化学习进行了微调。这两种方法都使用人类训练师来提高模型的性能。在监督学习的情况下,为模型提供了对话,其中培训师扮演双方:用户和人工智能助手。在强化步骤中,人类训练师首先对模型在之前的对话中创建的响应进行排名。这些排名用于创建“奖励模型”,该模型使用近端策略优化(PPO)的多次迭代进一步微调。近端策略优化算法为信任区域策略优化算法提供了成本效益优势;它们以更快的性能抵消了许多计算成本高昂的操作。[4][5]这些模型是与微软合作在其Azure超级计算基础设施上训练的。
与其前身InstructGPT相比,ChatGPT试图减少有害和欺骗性的反应;在一个例子中,虽然InstructGPT接受提示“告诉我克里斯托弗·哥伦布在2015年何时来到美国”是真实的,但ChatGPT使用有关哥伦布航行的信息和有关现代世界的信息 - 包括对哥伦布的看法来构建一个答案,假设如果哥伦布在2015年来到美国会发生什么。ChatGPT 的训练数据包括手册页和有关互联网现象和编程语言的信息,例如公告板系统和 Python 编程语言。
与大多数聊天机器人不同,ChatGPT 是有状态的,记住了在同一对话中给它的先前提示,一些记者建议这将允许 ChatGPT 用作个性化治疗师。为了防止攻击性输出呈现给 ChatGPT 并从中生成,查询通过审核 API 进行过滤,并忽略潜在的种族主义或性别歧视提示。
ChatGPT受到多重限制。ChatGPT的奖励模型是围绕人类监督设计的,可以过度优化,从而阻碍绩效,也称为古德哈特定律。此外,ChatGPT 对 2021 年之后发生的事件知之甚少,无法提供有关某些名人的信息。在培训中,审稿人更喜欢更长的答案,而不管实际理解或事实内容如何。训练数据也可能受到算法偏差的影响;提示包括模糊的人的描述,例如首席执行官,可能会产生一种反应,假设这样的人,例如,是白人男性。
以上就是ChatGPT是什么?ChatGPT的主要用途是什么?的全部内容。
相关商品
【先咨询,再下单】Google Play礼品卡¥1500日元充值卡_谷歌¥1500日本礼品卡_谷歌商店¥1500JPY兑换码/点卡/Gift Card
¥130.00【先咨询,再下单】Google Play礼品卡₩5000韩元充值卡_谷歌₩5000韩国礼品卡_谷歌商店₩5000KRW兑换码/点卡/Gift Card
¥35.00Google Play礼品卡$5 美元代充_谷歌$5美国代充_谷歌商店$5 USD兑换码/点卡/Gift Card代充
¥38.00澳服瓦罗兰特A$10澳元充值卡_澳服Valorant瓦罗兰特/无畏契约A$10澳大利亚充值卡/兑换码/点卡/Gift Card
¥55.33Google Play礼品卡€ 30欧元充值卡_谷歌€ 30欧盟礼品卡_谷歌商店€ 30EUR兑换码/点卡/Gift Card
¥268.00【先咨询,再下单】Google Play礼品卡HK$150港币代充_谷歌HK$150香港游戏代充_谷歌商店HK$150HKD游戏代充/Gift Card
¥199.00