多模态[57]

爱诗科技完成6000万美元B轮融资 刷新国内视频生成领域单次最大融资纪录 PixVerse V5图生视频全球第一

AI视频生成企业爱诗科技获阿里巴巴领投6000万美元B轮融资,系国内视频生成领域最大单次融资。公司以“让每个人成为生活的导演”为愿景,全球用户超1亿,自研PixVerse模型完成五次迭代,V5版本图生视频全球测评第一,开放平台半年生成视频超千万次,覆盖动态壁纸、公益等多元场景。

Interfaze LLM Alpha:模块化多模态架构成开发者工具链新选择

2025年9月推出的Interfaze LLM Alpha,是专为开发者打造的多模态AI工具链。其核心创新在于Router-Modules架构,通过“小模型专精+大模型统筹”模式,高效解决结构化数据提取、网页信息抓取、代码安全执行及OCR解析等开发痛点,冷启动延迟降低75%,内存占用节省70%。工具兼容OpenAI API协议,开发者可无缝迁移现有应用,无需重构代码。实测显示,其LinkedIn公司描述抓取准确率达92%,结构化数据提取F1值95.3,成本较GPT-4.1低57%,适合高频爬虫与批量处理场景。作为模块化架构代表,Interfaze推动AI模型从“参数竞赛”转向“架构优化”,为开发者提供高效、低成本的多模态开发解决方案。

字节跳动Seedream 4.0全量开放 多模态创作重新定义AI生图

字节跳动AI生图模型Seedream 4.0已全量开放,通过豆包、即梦等C端平台及火山引擎面向用户与企业。该模型支持文本、图像、草图多模态混合输入,可实现跨次元合影、故事化分镜等创作,主体特征跨场景不漂移,4K超高清图8秒即可生成。依托特征锚点技术与分块渲染优化,其多图融合精度达98%,中文意图理解准确率92%,较Midjourney、DALL·E 3更适配本土场景。从用户“跨次元合影”“虚拟换装”到企业家居设计、短视频素材生产,20余种场景覆盖趣味玩图与商业设计,4K图商用成本低至0.3元/张,效率较国际竞品提升3倍,重塑AI生图从趣味到专业的内容生产方式。

TeleAI提出ATE框架破解VLA模型跨本体泛化难题,数据需求减少90%

在具身智能领域,视觉-语言-动作(VLA)模型是实现机器人通用操作的核心,但跨本体泛化难题(不同机器人硬件适配需大量数据)制约落地。中国电信人工智能研究院(TeleAI)提出ATE框架,通过“调分布”破解痛点:无需修改模型架构,以双阶段“对齐-引导”设计,先将目标本体动作分布嵌入预训练潜空间,再用少量数据引导策略更新。该框架使数据需求减少90%、训练时间缩短50%,跨本体泛化准确率提升15-20%,兼容主流VLA模型。开源代码与技术资料已发布,可快速适配工业、家庭等场景机器人,大幅降低具身智能落地门槛,推动机器人从实验室走向柔性制造、家庭服务等真实场景。

Alterego:“意念打字”革命,Silent Sense技术开启无声人机交互

Alterego:重新定义人机交互的“意念打字”革命。其搭载的“Silent Sense”技术,无需出声或动手,通过捕捉默念时口腔、喉部肌肉细微肌电信号,经深度神经网络实时解码为文字或指令,误码率低于5%。核心优势在于无声交互与免提操作,适配图书馆、会议、驾驶等多场景,且通过个性化校准和本地加密保障隐私。可提升办公效率、辅助飞行员等专业人士作业,更能为语言障碍者搭建沟通桥梁。2024年商用在即,Alterego正以“一念直达”的体验,开启人机交互新篇章。

Hello Patient以AI破解医疗沟通"前门危机",解放医护提升效率

医疗沟通“前门危机”下,患者联系诊所近半数尝试未果,医护41%工作时间耗于电话协调,致诊所年均损失18.7万美元。Hello Patient以会话式AI代理破局,通过深度集成EHR系统与HIPAA合规加密技术,自动化预约、分诊等沟通场景,释放医护回归诊室。该公司获ScaleVP领投2250万美元A轮融资,累计达3020万美元,瞄准46亿美元“患者前门”市场。其核心优势在于EHR深度适配与零留存数据架构,支持语音/短信双通道服务,已覆盖急诊、医美等多领域。医疗会话式AI赛道年增速34%,Hello Patient凭技术壁垒与合规护城河,正引领医疗沟通智能化变革。

Anycoder平台Carrot(胡萝卜)AI:专攻创意编程,游戏3D生成能力亮眼

AI模型命名迎来趣味化新潮流,继谷歌“Nano Banana”后,神秘模型“Carrot(胡萝卜)”登陆Anycoder平台引发热议。作为Hugging Face上的AI代码模型横向对比实验室,Carrot与DeepSeek V3、Gemini 2.5 Pro等明星模型同台竞技,凭借创意编程场景深度优化形成差异化优势,尤其在游戏开发、3D建模及动画生成等视觉化编程任务中表现亮眼。社区实测显示,其可快速生成“兔子躲胡萝卜子弹”互动小游戏、体素风格3D宝塔花园及P5.js超粒子动画,代码生成效率与创意实现能力获开发者认可。这种以蔬果命名的趋势不仅降低技术认知门槛,更推动AI代码模型向垂直场景专精化发展,为创意编程领域注入新活力。

谷歌Nano Banana:AI穿搭生成技术如何重塑时尚内容生态

谷歌AI模型“Nano Banana”因命名调整引发关注,其核心在于强大的AI穿搭生成能力。该模型基于扩散模型优化,融合文本与图像识别技术,能精准解析服饰材质、风格,实现“秒级生成”且节省40%算力。它重塑时尚内容生态,降低OOTD创作门槛,电商平台如SHEIN接入后退货率降低18%。同时,AI对时尚博主带来机遇与挑战,头部博主探索“真人+AI”模式,腰部博主面临流量压力。目前模型在小众品牌细节生成上仍有不足,行业关注技术边界与版权伦理,未来人机协作或成主流。

字节跳动Seed团队发布Robix:机器人单模型一体化智能破解散装大脑困局

【Robix机器人全能大模型:字节跳动突破传统机器人多模块拼接瓶颈,引领单模型一体化智能时代】传统机器人因语言交互、任务规划、感知模块“散装”协同低效,模块通信耗时占决策时间40%以上。2025年字节跳动Seed团队推出Robix,首次实现推理、规划与自然语言交互单模型集成,通过图像与语言输入直接完成全流程处理,减少信息损耗。其核心依托思维链推理(模拟人类分步思考)与三阶段递进训练(持续预训练-监督微调-强化学习),在GR-3测试中任务进度达92.5%,领先GPT-4o(64.4%)和Gemini 2.5 Pro(88.2%),长时任务成功率92%超越竞品。该突破推动机器人行业从“模块数量”转向“智能深度”竞争,助力复杂场景落地。

拍我AI限时免费开放,零门槛体验AI视频创作轻量化新纪元

9月5日-10日,国内AI视频生成平台“拍我AI”(PixVerse中国版)启动免费开放日活动,用户可零门槛体验AI视频创作新纪元。作为首批集成谷歌Gemini 2.5 Flash Image(Nano Banana)技术的平台,其凭借低延迟特性,30秒短片数秒生成,支持文生视频(3秒)与图生视频(30秒),搭配Agent助手自动生成脚本、音效字幕,简化“上传-生成-微调”流程。模板覆盖宠物短剧、3D手办动画等多元场景,全球用户已破亿,所有视频自动添加“AI生成”水印保障合规。即刻参与,零门槛体验谷歌技术加持的轻量化创作,让灵感秒变动态画面!