LAION 和英特尔联手发布“共情洞察”工具，精准评估 40 种情绪强度

LAION（开源AI研究实验室）和英特尔近日联合推出了一项名为“Empathic Insight”的开放源项目，旨在帮助人工智能系统更好地理解和评估人类情感。这套工具包含了多个模型和数据集，能够分析面部图像或音频文件，对多达40种不同情感类别进行评分。通过概率估计而非固定标签，这些模型可以检测面部图像中的情感强度从0到7不等，而对语音文件则可以标记情感为不存在、轻微表现出或强烈表现出。 Empathic Insight的核心是EmoNet模型，该模型基于《情绪手册》（心理学领域的重要参考书）中提出的40种情感分类体系构建。研究人员不仅扩展了通常意义上基本情绪的列表，还增加了认知状态（如集中注意力和困惑）、身体状态（如疼痛和疲劳）和社会情感（如羞愧和自豪）。他们认为情绪并非普遍可识别，而是大脑基于多种信号构建的结果，因此，使用概率估计的方法更为合理。为了训练这些模型，团队使用了超过203,000张面部图像和4,692个音频样本。为了避免隐私问题并提高人群特征多样性，所有数据均来自合成资源。面部图像通过Midjourney和Flux等文本转图像模型生成，然后根据年龄、性别和种族进行程序化调整。音频样本则来自Laion's Got Talent数据集，包括使用OpenAI的GPT-4o音频模型生成的5,000小时英语、德语、西班牙语和法语合成录音。所有音频样本均经过心理学专家的审查，只有三个独立评论者一致同意的评分被纳入最终数据集中。在多个人工智能基准测试中，LAION的Empathic Insight模型表现优于现有的竞争对手。特别是在面部情感识别方面，Empathic Insight模型与人类专家的评分相关性更高，超过了Gemini 2.5 Pro以及像Hume AI这样的闭源API。在语音情感识别方面，Empathic Insight Voice模型也在EmoNet Voice基准测试中展示了更强的表现，成功识别出所有40种情感类别。此外，LAION团队还开发了增强版的BUD-E Whisper模型，这是OpenAI的Whisper模型的升级版本，不仅能够将语音转录成文字，还能添加情感语气的结构化描述，检测出笑声和叹气等声音爆发，并估计说话者的年龄和性别等特征。所有EmoNet模型和代码都已通过Creative Commons和Apache 2.0许可证提供下载，用户可以在Hugging Face网站上找到这些资源。该模型有“小”和“大”两种版本，满足不同应用场景和硬件需求。英特尔自2021年起就开始支持该项目，作为其开源人工智能策略的一部分，重点关注优化模型在英特尔硬件上的运行性能。业内人士对这一项目给予了高度评价，认为它开创了情感AI的新纪元。通过使用合成数据来避免隐私问题和增强人群多样性，LAION和英特尔不仅提高了模型的准确性，也为情感AI的发展提供了新的方向。目前，LAION是一家致力于推动人工智能开源项目的非营利组织，而英特尔则是在全球范围内享有盛誉的技术巨头，一直积极投身于人工智能领域的研发和推广。

LAION 和英特尔联手发布“共情洞察”工具，精准评估 40 种情绪强度

Related Links