今日,OpenAI正式推出了GPT-4.5预览版,标志着大语言模型能力再次迎来重要升级。该模型在多项核心能力上实现了显著提升。

- 上下文窗口扩展:标准上下文长度提升至512K,处理长文档能力大幅增强。
- 推理成本降低:官方宣称推理速度比GPT-4 Turbo快2倍,同时成本降低50%。
- 代码能力升级:在权威HumanEval基准测试中,代码生成通过率达到98.5%。
GPT-4.5在视觉-语言理解任务上的表现也超越了此前专门的视觉语言模型,为开发者提供了更统一、强大的多模态基础。
谷歌DeepMind推出医疗AI系统“梅林”,通过美国医师执照考试
谷歌旗下DeepMind团队发布了专为医疗领域设计的AI系统“梅林”(Merlin)。该系统在未经特定训练的情况下,在美国医师执照考试(USMLE)的三个部分均取得了超过90%的分数,展现了其深厚的医学知识储备和临床推理能力。
项目负责人表示:“‘梅林’的目标并非取代医生,而是成为医生的强大助手,帮助处理信息检索、初步诊断建议等任务,让专业人士能更专注于与患者的沟通和复杂决策。”
该系统目前正处于与多家顶尖医疗机构的合作测试阶段,预计将在临床决策支持、医学教育等领域产生深远影响。
微软发布小型语言模型Phi-4,性能比肩Llama-3
微软研究院公布了其最新的小型语言模型Phi-4。这个仅有70亿参数的模型,在多项学术基准测试中的表现,足以与Meta公司规模大得多的Llama-3 70B模型相竞争。
| 模型 | 参数规模 | MMLU得分 | GSM8K得分 |
|---|---|---|---|
| Phi-4 | 7B | 82.5 | 92.1 |
| Llama-3 | 70B | 82.9 | 91.5 |
Phi-4的成功证明了通过高质量的“教科书级”数据训练,小模型同样能具备强大的推理能力,为在资源受限的边缘设备上部署高性能AI提供了新的可能。
欧盟《人工智能法案》全面生效,高风险AI系统面临严格监管
备受全球关注的欧盟《人工智能法案》于今日起全面生效。该法案根据风险等级对AI应用进行分类监管,对生物特征识别、关键基础设施管理等“高风险”AI系统提出了严格的透明度、人工监督和风险评估要求。
法案明确禁止了以下几类AI应用:
- 基于敏感特征的社会评分系统
- 在公共场所进行无差别的实时远程生物识别
- 利用人性弱点操纵行为的潜意识技术
此举为全球AI治理树立了新的标杆,预计将对在欧盟市场运营的科技公司产生直接影响。
特斯拉人形机器人Optimus Gen 3实现完全自主工厂巡检
特斯拉发布了其最新一代人形机器人Optimus Gen 3的视频演示。视频显示,该机器人已能在特斯拉的弗里蒙特工厂内进行完全自主的巡检任务,包括识别环境异常、记录仪表读数,并能使用工具进行简单的维护操作。
与上一代相比,Optimus Gen 3在行走稳定性、手部精细操作和环境理解方面取得了突破性进展。其行走速度提升了30%,能够自主上下楼梯,并能在复杂环境中避开障碍物。
AI编程助手市场格局生变:亚马逊CodeWhisperer宣布免费
在激烈的市场竞争中,亚马逊今日宣布,其AI编程助手Amazon CodeWhisperer的个人版将完全免费,并提供无限次代码生成建议。此前,该服务对个人开发者设有每月一定生成次数的限制。
这一举措被业界视为亚马逊对微软GitHub Copilot和谷歌Studio Bot的直接回应,预示着AI编程助手领域的“价格战”已经打响,广大开发者将成为最直接的受益者。
内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。
本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/131601.html