图书情报知识 ›› 2025, Vol. 42 ›› Issue (6): 6-15,27.doi: 10.13366/j.dik.2025.06.006
徐拥军1,2, 张群群1, 傅予1,2, 成徐慧1
XU Yongjun1,2, ZHANG Qunqun1, FU Yu1,2, CHENG Xuhui1
摘要: [目的/意义] 针对当前中文语料供给不足、标注质量不高等问题,聚焦哲学社会科学领域高质量数据集建设,对其核心特征、应用需求与建设进路展开系统研究,旨在提升数据供给能力与场景适配效能。[研究设计/方法] 从“供给侧”视角,构建“数据单元—数据集合”双层多维体系,解析哲学社会科学高质量数据集的核心特征;从“需求侧”视角,提出“基础认知—场景理解—行动规划”三层应用需求框架,明确不同层级模型能力对数据内容与质量的差异化要求。设计覆盖数据需求—规划—采集—预处理—标注—模型验证的全生命周期建设方法论。[结论/发现] 哲学社会科学数据集在规范性、原创性、代表性、可追溯性等维度具有天然优势,但在准确性、多样性、一致性与相关性、可复用性等维度存在痛点难点。立足其核心特征,面向应用需求,按照数据生命周期方法论进行系统构建,有望实现“高质量”建设目标。[创新/价值] 研究结果可为相关高质量数据集建设提供理论依据和实践参考。