去创作

趋势掘金

  • 9936粉丝
  • 93.1万获赞
编号:A0380****

简介:术掘天时,势定乾坤,擅长多因子共振选股法和交易心理按摩,为中小投资者保驾护航,致力于每年让10万散户变成专业投资者!

  • 动态
  • 观点
  • 文章
  • 课程
趋势掘金 12-19 11:13
【关键词“OPENAI”】OpenAI还会发布什么今天已经发布了o1-full和o1-pro。带来了更好的Coding能力,且o1-pro接受图片输入,对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多,但正如Noam Brown说的,更重要是从o1-preview到o1 pro,2个月时间的边际进步速度。后面还会发布什么?1. Agent,可能是这12天最大亮点。可能不仅是一个agent,而是多agent体系。首先有一个Agent驱动基座模型,实现长的CoAT(思维动作链)。OpenAI有过一个工作叫Agent Executor Chain,通过HTML和截图解析,借助GPT-4o足够长的输入token,生成长动作指令。基于这个Agent驱动基座模型,可以微调出不同的Agent LLM。如海外曝光的下图,panda, tiger, Viper,whale等等动物名和元素名,可能对应多种多样的agent LLM基于此,还看到OpenAI有一个叫“swarm虫群”的软件框架,可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。此外, OpenAI过去的工作似乎实现了一种认知架构,信息的工作记忆、长期记忆,动作空间的内部、外部动作,决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿,OpenA可能已经实现长期稳定的执行Agent,不是十几步,而是几百步。2. Sora可玩版本。OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models ),相比扩散模型的图像生成速度提升50倍,可能解决sora成本的老大难问题3. GPT-4.5。有可能就是GPT-4o的增强版,更新了知识截止日期,更多的post-train强化学习,降低了幻觉。这可能也不算GPT-5的Preview。到这里,OpenAI的模型家族可能出现三条线:LLM知识模型(GPT系列),LRM推理模型(o1系列),LAM动作模型(Agent系列)4. VLM的real time,实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用5. OpenAI浏览器。简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现,权限是请求浏览器,再到操作系统。如果单独做浏览器,就可以直接请求到操作系统,从而和ChatGPT客户端联动,甚至是替代。浏览器是大多数人用的最多的软件,可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的,有足够的权限做交互。6. Fine tuning。团队做了更细粒度的方案提供结构化API调用,为Agent模块开发做准备,而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。7. SearchGPT的多模态查询。人们在搜索时可能不知道名字和概念,模棱两可的形容,对于搜索引擎来说是无效的。所以思路是生成一个图像,让图像和搜素结果关联,用图像、prompt、特征识别和文本作为查询信息。8. 代码编辑器。最近Editor Agent的Bolt、WindSurf,尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊,OpenAI可能会有动作。其他还可能有NSFW(文字对话游戏)、V2A(视频转音频)、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久,应用方面铺了这么多人和卡,东西很多的,就看能否点燃大家的想象力了。目前看sora已经没什么预期差(之前demo过于惊艳了),GPT-5这次不会有的(可能真有preview?不确定),GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的,可能就是agent。(特别声明:仅供参考,入市有风险,投资需谨慎)
趋势掘金 12-19 11:13
【关键词“OPENAI”】OpenAI还会发布什么今天已经发布了o1-full和o1-pro。带来了更好的Coding能力,且o1-pro接受图片输入,对应更好的VLM视觉模型。虽然关于测评和200美金的价格争议很多,但正如Noam Brown说的,更重要是从o1-preview到o1 pro,2个月时间的边际进步速度。后面还会发布什么?1. Agent,可能是这12天最大亮点。可能不仅是一个agent,而是多agent体系。首先有一个Agent驱动基座模型,实现长的CoAT(思维动作链)。OpenAI有过一个工作叫Agent Executor Chain,通过HTML和截图解析,借助GPT-4o足够长的输入token,生成长动作指令。基于这个Agent驱动基座模型,可以微调出不同的Agent LLM。如海外曝光的下图,panda, tiger, Viper,whale等等动物名和元素名,可能对应多种多样的agent LLM基于此,还看到OpenAI有一个叫“swarm虫群”的软件框架,可以组合Agent模型、多Agent编排、Agent间通信、外部和内部数据库耦合。此外, OpenAI过去的工作似乎实现了一种认知架构,信息的工作记忆、长期记忆,动作空间的内部、外部动作,决策的交互循环、规划和执行、任务分解决策树。AISI UK写了一篇关于长期任务的新闻稿,OpenA可能已经实现长期稳定的执行Agent,不是十几步,而是几百步。2. Sora可玩版本。OpenAI 10月份发过一个sCM(Simplifying Continuous-Time Consistency Models ),相比扩散模型的图像生成速度提升50倍,可能解决sora成本的老大难问题3. GPT-4.5。有可能就是GPT-4o的增强版,更新了知识截止日期,更多的post-train强化学习,降低了幻觉。这可能也不算GPT-5的Preview。到这里,OpenAI的模型家族可能出现三条线:LLM知识模型(GPT系列),LRM推理模型(o1系列),LAM动作模型(Agent系列)4. VLM的real time,实时的视觉模型。这个会非常适合端侧比如眼镜、机器人视觉方面的AI应用5. OpenAI浏览器。简单做个换皮的浏览器对于OpenAI来说不够重磅。其他家的浏览器Agent通过扩展实现,权限是请求浏览器,再到操作系统。如果单独做浏览器,就可以直接请求到操作系统,从而和ChatGPT客户端联动,甚至是替代。浏览器是大多数人用的最多的软件,可以绑定SearchGPT来进行多模态搜索和生成上下文搜索。从浏览器做AI流量入口是最合适的,有足够的权限做交互。6. Fine tuning。团队做了更细粒度的方案提供结构化API调用,为Agent模块开发做准备,而不是仅提供输出JSON的能力。然后是让开发者可以通过API调用o1的结构化输出和函数调用。7. SearchGPT的多模态查询。人们在搜索时可能不知道名字和概念,模棱两可的形容,对于搜索引擎来说是无效的。所以思路是生成一个图像,让图像和搜素结果关联,用图像、prompt、特征识别和文本作为查询信息。8. 代码编辑器。最近Editor Agent的Bolt、WindSurf,尤其是Cursor非常火。考虑到Anthropic Sonnet已经成了coding的领头羊,OpenAI可能会有动作。其他还可能有NSFW(文字对话游戏)、V2A(视频转音频)、Robotics模型、Enterprise版本增强、其他格式输出等小技巧。储备了这么久,应用方面铺了这么多人和卡,东西很多的,就看能否点燃大家的想象力了。目前看sora已经没什么预期差(之前demo过于惊艳了),GPT-5这次不会有的(可能真有preview?不确定),GPT-4.5依然是LLM老范式下的成果。更大的惊喜或者能给想象力的,可能就是agent。(特别声明:仅供参考,入市有风险,投资需谨慎)
热股榜
代码/名称 现价 涨跌幅
加载中...
快讯更多
19:15 美国开建世界首座商用核聚变发电厂
19:04 海南旅游升温 三大机场迎客流高峰
19:03 中金公司因保荐思尔芯未勤勉尽责被罚!
18:45 推理模型“擂台战”开启 OpenAI、谷歌争先发布!杠杆资金也出手了
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/