MindENT数据集 - SkyWalker Blog

在医学与计算语言学的交叉研究领域，高质量的临床对话数据始终是稀缺资源。为了推动针对门诊患者心理量化特征的识别研究，笔者最近的项目 Mind-Echo（数智心晴） 现正式公开发布MindENT门诊心理对话数据集。该数据集旨在通过融合医患对话、标准化心理量表评估与结构化病历信息，为人工智能驱动的焦虑抑郁识别提供多维度的标注基准。

仓库地址：https://github.com/wwaawwaaee/MindENT-ZZHL-25

研究背景

本数据集是 Mind-Echo（数智心晴） 项目的重要组成部分。相关的研究成果与工具集已同步在 GitHub 开源：https://github.com/wwaawwaaee/Mind-Echo

数据集核心组成

MindENT 数据集采用以患者为中心（Patient-centered）的组织方式，共包含 84 名患者的 131 次就诊记录。其核心数据由以下三个维度构成：

1. 门诊对话数据

数据集记录了医患就诊过程中的完整对话文本。对于心理门诊而言，对话的交互特征是识别焦虑与抑郁程度的关键。

对话规模：平均每次就诊包含 42.22 个对话轮次。
复杂场景：数据集包含 anonymized_dataset_with_caregiver.json 版本，保留了陪护者（如家长）参与对话的原始场景，这对于研究儿童及青少年心理健康具有重要价值。

2. 标准化心理量表评估

每次对话均关联了患者在就诊当日完成的心理量表数据，包括广泛性焦虑量表（GAD-7）与患者健康问卷（PHQ-9）。

GAD-7 统计：共记录 109 份，平均分 $\mu = 11.72$ 。其中轻度、中度、重度分布分别为 39 人、48 人与 22 人。
PHQ-9 统计：共记录 109 份，平均分 $\mu = 13.54$ 。其分布涵盖轻度（27 人）、中度（47 人）、中重度（26 人）及重度（9 人）。

3. 结构化病历数据

项目利用光学字符识别技术，对 66 份纸质病历进行了文本提取与结构化处理。提取字段严格遵循临床标准，包括：

主诉
现病史
既往史
体格检查
初步诊断
处理意见

数据统计分析

数据集的人口统计学特征分布如下：

性别分布：男性 21 人，女性 15 人，部分匿名数据性别未登记。
年龄分布：数据呈现明显的低龄化特征，其中 0-12 岁儿童占 20 人，18-44 岁中青年占 8 人，其他年龄段及未知信息占据一定比例。

这种年龄分布特征使得 Mind-Echo 数据集在研究未成年人心理健康发育及早期干预方面具备独特的科研潜力。

数据组织与关联逻辑

数据集通过唯一的 patient_id 实现多源数据的精准关联。开发者可以通过该标识符，将 dialogs/ 目录下的实时对话流与 medical_records/ 目录下的历史病历文本进行对齐，从而构建多模态或长时序的预测模型。

数据结构示例

JSON

{
  "patient_id": "P-000003",
  "scales": [
    {
      "GAD-7": { "items": [2,1,2,2,1,2,2], "total": 12 },
      "PHQ-9": { "items": [2,2,2,2,1,1,1,1,1], "total": 13 }
    }
  ],
  "visits": [
    {
      "visit_id": "V-000003-1",
      "dialogue": {
        "turns": [
          { "role": "doctor", "text": "..." },
          { "role": "caregiver", "text": "..." }
        ]
      }
    }
  ]
}

使用说明与开源协议

Mind-Echo 数据集现基于 Apache License 2.0 协议开放。在使用过程中，研究者需注意以下事项：

数据清洗：由于原始纸质病历的复杂性，部分 OCR 提取文本可能存在历史编码导致的乱码，建议在使用前进行必要的预处理。
多成员对话：在家庭成员共同参与的对话中，数据集暂未对发言者进行跨患者对象的拆分，保留了诊室环境的原始交互状态。
关联方式：研究者可根据文件系统中的 patient_id 手动或通过脚本关联 anonymized_dataset.json 与对应的 .md 病历文件。

Mind-Echo 致力于通过数据开放促进数字心理健康技术的发展。我们欢迎学术同行利用本数据集进行算法验证、特征工程及临床决策支持系统的研发，共同提升门诊心理疾病的识别精度与效率。