第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练- 广元广财企业服务有限公司

您现在的位置：首页 - 资讯中心 - 行业资讯

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练

发布时间：2024-10-17 16:27:34 来源：本网点击量：90

"8月29日，国家数据局会同科技部、农业农村部、文化和旅游部、中国科学院、中国工程院、国家文物局、国家中医药局等部门在中国国际大数据产业博览会上发布第二批28个“数据要素×”典型案例。第二批案例在注重发挥以数据解行业发展难题、促行业效益提升作用的同时，更加突出数据来源合规、治理有效以及依靠先进适用技术保障数据安全流通等内容，彰显数据要素推动经济发展的乘数效应。"

　　科技文献为科学研究提供了丰富的研究资源与参考资料，是学术交流的重要媒介。科技创新需要大量科技文献数据支持，但传统文献文档内容结构松散，信息分布呈现碎片化特点，导致数据筛选整合低效，严重影响科研效率。中国科学院文献情报中心联合相关单位借助人工智能技术，深度挖掘科技文献中的数据价值，构建覆盖多领域的高质量数据集，支持科技领域大模型建设，助推科研范式变革。

　　一是合规归集高质量科技文献数据。在遵循知识产权法规和国际通行规范的基础上，充分发挥中国科学院文献情报中心和国家科技图书文献中心（NSTL）的学科优势，与领域内的科学家紧密协作，汇聚大量权威可靠的科技文献数据及专业领域知识。通过对科技文献全文数据中的文本、图表、公式等进行多模态解构，构建了一个覆盖多个学科的综合知识资源库，不仅包含了传统的文本信息，还涵盖了图表和公式等非文本元素，形成一个全方位的多模态知识体系。目前公益学术平台（PubScholar）已归集1.8亿条文献元数据，逾8065万篇完整的文献全文，为科研人员提供了丰富的研究素材和知识支持。

　　二是突破关键技术研发科技文献人工智能引擎（SciAIEngine）。提出了掩藏句子模型（Masked Sentence Model）与两阶段方案实现文本中的知识抽取，基于层次分类器集群实现千级类目中图法分类，通过嵌入词典和词性特征实现关键词识别，基于小样本数据利用半监督迭代学习等技术实现命名实体识别。利用这些创新技术，提升文本挖掘能力，研发科技文献人工智能引擎（SciAIEngine）。形成一系列可供扩展应用的软件、数据、解决方案和工具集，并提出了一套从科技文献中挖掘领域知识与科学数据的流程方法。

　　三是深度挖掘科技文献内容。利用科学人工智能引擎对优选文献进行深度挖掘，提取包括关键科学数据、实验结果等硬信息，提取理论框架、研究方法等软知识。通过深度挖掘科技文献的专业领域本体知识、科学数据、观点倾向等科技文献内容，建立细粒度科技文献内容与句子、段落、图表、全文之间的循证关系，支持文献内容溯源。将细粒度知识与科学数据进一步融合、精选、对齐、补齐，构建高质量语料库、专业化领域知识本体库、适用人工智能的科学数据集和研究观点倾向库。当前已支持上海药物所从文献中挖掘药物靶标数据，支撑新药研发；与西南交大合作挖掘二维材料属性数据，赋能材料研发；与东北地理所合作挖掘木质纤维素生物降解知识，助力黑土地生物质高效利用。

　　四是建设科技文献大模型。基于专业化领域知识本体库、适用人工智能的科学数据集、研究观点倾向库构建支撑智能科研（AI4S）的科技文献知识底座，支持AI4S模型的训练，为AI4S智能模型假设的提出、预测的验证和推理的监督提供知识基础。与头部人工智能企业合作，集成知识图谱、语义搜索等功能，打造支持智能化科研的解决方案。同时开发医学、化学领域的垂直大模型，为科技创新提供知识数据支持。其中，科技文献大模型提高论文调研效率10倍以上，论文研读有效率超90%。

图1 AI4S知识底座

图2 PubScholar公益学术平台

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘 助力科研效率提升和大模型训练

发布时间：2024-10-17 16:27:34 来源：本网 点击量：90

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练

发布时间：2024-10-17 16:27:34 来源：本网点击量：90