图书情报知识 ›› 2024, Vol. 41 ›› Issue (2): 28-38,149.doi: 10.13366/j.dik.2024.02.028
• 学术聚焦 · 人工智能生成内容(AIGC)治理 • 上一篇 下一篇
邓胜利, 汪璠, 王浩伟
DENG Shengli, WANG Fan, WANG Haowei
摘要: [目的/意义]生成式人工智能会对在线社区造成一定程度的AI信息污染,研究多种AIGC识别方法对防范快速进化的生成式人工智能带来的负面影响有重要意义。[研究设计/方法]首先在以新浪微博54个大类主题为主的多个在线社区平台中构建了HAC数据集,其中包含100,873条分别由人类和生成式人工智能撰写的信息;然后探究当前6个主流深度学习和7个机器学习方法是否能识别在线社区中的信息是由人类还是由生成式人工智能所撰写;最后提出了一种BEM-RCNN方法进一步提高AIGC的识别精度。[结论/发现]从构建的数据集中可以看出,生成式人工智具有强大的“类人表达”,能够模拟人类在社交媒体平台上发布和回复内容。实验结果表明,提出的方法准确度达到96.4%,能够很好地识别在线社区上的内容是由人类还是AI撰写。在精度、召回率、F1-值和准确度上均优于BERT、ERNIE、TextRNN等其他13种主流的方法,验证了其性能优势。同时,大量探究实验也证明了当前主流的机器学习方法虽然精度低于此方法,但是也能够识别部分AIGC。[创新/价值]使用多种方法去识别社交媒体上的AIGC,防范生成式人工智能对社交媒体平台造成的信息污染。