麻省理工学院与Empirical Health利用Apple Watch数据开发健康预测AI模型详解
研究背景与核心技术:JEPA架构
联合嵌入预测架构(JEPA)的提出
Yann LeCun在担任Meta首席人工智能科学家期间提出的联合嵌入预测架构(Joint-Embedding Predictive Architecture, JEPA) 是本研究的核心技术基础。该架构颠覆了传统AI处理缺失数据的方式,其核心思想是:
- 推断语义表征而非重建精确数值:面对数据空缺时,模型学习从上下文推断缺失部分的“含义”,而非直接猜测具体数值。
- 联合嵌入空间:将可见数据与缺失数据共同映射到一个共享嵌入空间,通过可见部分推断缺失部分的表征。例如在图像处理中,遮蔽区域的语义表征通过可见区域推断得出,而非还原原始像素。
JEPA标志着AI研究范式的转变,从依赖大型语言模型(LLM)和GPT类系统的“词元预测”,转向更注重对环境动态建模的“世界模型”(world models)。LeCun认为这是通往通用人工智能(AGI)的真正路径,并已离开Meta创立专注世界模型的公司。
JETS模型:针对医疗健康数据的创新应用
研究目标与数据规模
麻省理工学院与Empirical Health合作开发的JETS模型(面向医疗健康行为数据的自监督联合嵌入时间序列基础模型),旨在利用可穿戴设备数据预测多种健康状况。其关键特点包括:
- 数据集规模:纵向数据集包含16,522名参与者的Apple Watch记录,总计约300万人-天数据。
- 指标覆盖:每位参与者每日记录63项时间序列指标,涵盖五大领域:
- 心血管健康
- 呼吸健康
- 睡眠
- 身体活动
- 一般统计信息
数据挑战与解决方案
传统监督学习面临重大挑战:仅15%的参与者拥有标注医疗史,85%的数据在传统框架下被视为无效。JETS模型通过以下方式解决:
1. 自监督预训练:首先在全部无标签数据集上进行预训练,学习数据内在规律。
2. 三元组token化:将每条观测数据构造成“三元组”(日期、数值、指标类型),转化为模型可处理的token。
3. 掩码预测机制:对token进行掩码处理后输入预测器,预测被掩码片段的嵌入表示,有效利用不规则、高缺失率的时间序列数据。
模型性能与疾病预测结果
JETS模型在多项疾病预测中表现出优异性能,评估指标采用AUROC(受试者工作特征曲线下面积)和AUPRC(精确率-召回率曲线下面积),结果如下:
| 疾病类型 | AUROC |
|------------------------|---------|
| 高血压 | 86.8% |
| 房扑(atrial flutter) | 70.5% |
| 慢性疲劳综合征 | 81% |
| 病态窦房结综合征 | 86.8% |
这些指标表明模型在区分阳性与阴性病例方面具有较强的排序和优先级判断能力。尽管并非所有任务均胜出,但其在极端不平衡数据(某些指标仅0.4%记录频率)下的稳健性尤为突出。
研究意义与未来展望
核心价值
1. 释放稀疏数据潜力:证明即使Apple Watch等非全天候佩戴设备收集的“不完整”数据,通过JEPA架构仍能提取关键健康信号。
2. 高效利用未标注数据:自监督学习框架解决了医疗数据标注稀缺的问题,使85%原本无效的数据得到有效利用。
3. 疾病早期预警:为高血压、房扑等疾病的早期预测提供有力工具,有望提升健康管理效率和生命拯救价值。
实际应用前景
- 个性化健康管理:结合可穿戴设备实时数据,为用户提供疾病风险评估和生活方式建议。
- 医疗资源优化:帮助医疗机构识别高风险人群,实现精准干预和资源分配。
- 推动AI医疗发展:为处理复杂、不规则医疗时间序列数据提供了新范式,可扩展至更多健康领域。
总结
麻省理工学院与Empirical Health的研究通过将Yann LeCun提出的JEPA架构应用于300万人-天的Apple Watch数据,成功开发出JETS基础模型。该模型不仅在高血压等疾病预测中达到86.8%的AUROC高精度,更重要的是突破了传统AI对完整、标注数据的依赖,为从海量稀疏健康数据中挖掘价值开辟了新路径。这不仅印证了“世界模型”在AI领域的潜力,也为可穿戴设备在疾病预防和健康管理中的应用注入了强大动力。随着技术的进一步成熟,此类模型有望在未来几年内逐步落地临床,切实改善公众健康水平。