智能体[57]

OpenAI推出GPT-5-Codex:智能编程迈入新时代,Codex平台全面升级

OpenAI 2025年发布GPT-5-Codex,深度优化的AI编程助手。核心“agentic coding”实现从辅助到自主协作,能主动规划任务、处理复杂项目(如大规模重构),动态平衡效率与深度:简单任务token减93.7%,复杂任务推理时间翻倍。结合Codex CLI开源及IDE扩展,重新定义开发者与AI协作,提升开发效率。

OpenAI华人明星研究员姚顺雨离职,开启AI“下半场”新篇章

OpenAI核心研究员姚顺雨离职引AI界关注。这位清华姚班校友、普林斯顿博士,以ReAct、思维树等成果成AI推理领域领军者,提出“AI下半场”理论,推动行业从技术突破转向现实价值落地。其动向或影响全球AI人才流动与技术方向。

OpenAI董事长Bret Taylor:AI代理重塑客户服务,AI热潮再现互联网泡沫盛况

硅谷老兵、OpenAI前董事长Bret Taylor创立Sierra,以AI代理重塑客户服务。其AI代理具备自主性,可理解需求、访问企业系统执行复杂任务(如套餐变更),区别于传统聊天机器人。采用“按成功处理案例收费”模式,已助力企业处理70%-80%客服请求,平均耗时2分钟,大幅降本增效。

LiveMCP-101框架:开启AI智能体真实世界评估新阶段

AI智能体评估存在“模拟到现实鸿沟”,虚拟测试难测真实可靠性。微软与北大联合发布LiveMCP-101,系首个直接交互真实计算机系统的评估协议,含101项任务,覆盖系统操作、网络管理、安全响应等真实场景,解决传统虚拟测试局限,推动AI从实验室到真实世界的可靠落地。

OpenAI深化美英合作升级AI安全标准 联合红队测试聚焦代理系统与生物安全

OpenAI与美英机构深化AI安全合作,联合CAISI、AISI推动治理升级。CAISI发现ChatGPT Agent提示词注入漏洞,48小时完成模型与监控双重修复;UK AISI开展生物安全测试,构建长期防护机制。此次合作标志AI安全从企业自查迈向政企协同,为行业提供可复用测试方法论。

高德AI出行智能体“小高老师”月活破4亿 日调用量达12亿次

高德AI出行智能体“小高老师”上线不足一月月活破4亿,日调用达12亿次。支持自然语言交互,融合海量POI与实时数据,提供个性化行程规划、酒店预订等一站式服务,推动地图从工具进化为“先于思考”的智能决策伙伴,开启出行“智能体时代”。

字节跳动发布AgentGym-RL:多轮智能体强化学习框架,摒弃监督微调性能超商业模型

字节跳动推出业界首个统一多轮智能体强化学习框架AgentGym,采用纯强化学习路径,无需监督微调,智能体通过与环境交互自主掌握多样化任务。框架含AgentEvo环境集合及模块化设计,覆盖网页交互、游戏策略、具身智能、科学数据分析等27项任务,多项核心指标超越主流商业模型。

上交大开源MobiAgent:全栈移动端AI Agent工具链

上海交大IPADS实验室开源MobiAgent移动端AI智能体工具链,含数据收集、训练、推理加速、自动评测四大模块,支持定制手机AI助手。7B参数模型性能超越GPT-5,AgentRR“肌肉记忆”技术提速2-3倍,端侧处理保障隐私,低功耗降30%-50%能耗,全流程工具链大幅降低开发门槛。

Cognition融资4亿估值102亿,AI编程代理赛道迎里程碑

2024年AI编程代理赛道迎来里程碑,Cognition公司完成4.1亿美元融资,投后估值达102亿美元,由硅谷顶级风投Founders Fund领投,Lux、8VC等现有投资者及Bain Capital Ventures等新资本加持。其核心产品Devin作为“端到端自动化编程代理”,颠覆传统代码辅助工具,具备从需求到部署的全流程开发能力,代码生成准确率超90%,可替代20%-30%常规开发任务,实现从“辅助”到“独立代理”的跨越。本轮资金将用于Devin技术研发与全球扩张,推动AI编程进入“人机协作”新纪元,凸显资本市场对AI重构软件开发模式的高度认可。

百度文心大模型X1.1发布:三大核心能力跨越式提升,技术突破落地多场景

2025年WAVE SUMMIT大会上,百度发布文心大模型X1.1,实现事实性准确率提升34.8%、指令遵循优化12.5%、智能体能力增强9.6%,整体表现比肩GPT-5与Gemini 2.5 Pro。实测中,模型在逻辑推理(如"星球版农夫过河"问题)、事实检验(郑和下西洋伪史纠偏)、智能体多工具协同(小红书露营文案生成)等场景展现强落地能力。技术上采用混合强化学习与自蒸馏数据闭环,叠加思维链+行动链等三大模块强化推理与执行精度。同步升级的飞桨3.2框架,训练MFU达47%、推理2比特压缩降本增效,开源ERNIE-4.5-21B支持中小团队低成本开发。飞桨开发者超2333万,推动AI技术普惠与行业应用落地。