LAION 和英特尔联手发布“共情洞察”工具,精准评估 40 种情绪强度
LAION(开源AI研究实验室)和英特尔近日联合推出了一项名为“Empathic Insight”的开放源项目,旨在帮助人工智能系统更好地理解和评估人类情感。这套工具包含了多个模型和数据集,能够分析面部图像或音频文件,对多达40种不同情感类别进行评分。通过概率估计而非固定标签,这些模型可以检测面部图像中的情感强度从0到7不等,而对语音文件则可以标记情感为不存在、轻微表现出或强烈表现出。 Empathic Insight的核心是EmoNet模型,该模型基于《情绪手册》(心理学领域的重要参考书)中提出的40种情感分类体系构建。研究人员不仅扩展了通常意义上基本情绪的列表,还增加了认知状态(如集中注意力和困惑)、身体状态(如疼痛和疲劳)和社会情感(如羞愧和自豪)。他们认为情绪并非普遍可识别,而是大脑基于多种信号构建的结果,因此,使用概率估计的方法更为合理。 为了训练这些模型,团队使用了超过203,000张面部图像和4,692个音频样本。为了避免隐私问题并提高人群特征多样性,所有数据均来自合成资源。面部图像通过Midjourney和Flux等文本转图像模型生成,然后根据年龄、性别和种族进行程序化调整。音频样本则来自Laion's Got Talent数据集,包括使用OpenAI的GPT-4o音频模型生成的5,000小时英语、德语、西班牙语和法语合成录音。所有音频样本均经过心理学专家的审查,只有三个独立评论者一致同意的评分被纳入最终数据集中。 在多个人工智能基准测试中,LAION的Empathic Insight模型表现优于现有的竞争对手。特别是在面部情感识别方面,Empathic Insight模型与人类专家的评分相关性更高,超过了Gemini 2.5 Pro以及像Hume AI这样的闭源API。在语音情感识别方面,Empathic Insight Voice模型也在EmoNet Voice基准测试中展示了更强的表现,成功识别出所有40种情感类别。此外,LAION团队还开发了增强版的BUD-E Whisper模型,这是OpenAI的Whisper模型的升级版本,不仅能够将语音转录成文字,还能添加情感语气的结构化描述,检测出笑声和叹气等声音爆发,并估计说话者的年龄和性别等特征。 所有EmoNet模型和代码都已通过Creative Commons和Apache 2.0许可证提供下载,用户可以在Hugging Face网站上找到这些资源。该模型有“小”和“大”两种版本,满足不同应用场景和硬件需求。英特尔自2021年起就开始支持该项目,作为其开源人工智能策略的一部分,重点关注优化模型在英特尔硬件上的运行性能。 业内人士对这一项目给予了高度评价,认为它开创了情感AI的新纪元。通过使用合成数据来避免隐私问题和增强人群多样性,LAION和英特尔不仅提高了模型的准确性,也为情感AI的发展提供了新的方向。目前,LAION是一家致力于推动人工智能开源项目的非营利组织,而英特尔则是在全球范围内享有盛誉的技术巨头,一直积极投身于人工智能领域的研发和推广。