请输入访问密码
探元平台围绕"AI+文化"构建了一套四层递进的架构,从底层数据到上层应用形成完整的能力体系,聚焦可持续与AI向善:
建立开放平台,鼓励公众参与文化数据的标注、补充与创意转化,形成"全民共建"生态。
开展面向公众的AI文化应用培训,降低技术使用门槛,让更多人成为文明传承的"数字志愿者"。
|
产品应用层
矩阵式产品,活化利用
线下聚焦在场深度体验(小程序),线上探索远程研学、文创内容、知识可视化等场景(探元平台),并引入大众共创和公益做好事机制,形成数据反哺闭环。
|
|
|
AI智能体层
行业智能体 + Skill平台
按领域和场景搭建 Agent,将语料服务于场景,覆盖学术问答、智能检索、教育教学、文旅导览等领域,同时以Agent\Skill方式开放文化数据资产,赋能司内司外文化场景。
|
|
|
AI知识库层
人机协同系统 + 高质量数据集
人(行业专家)+ 机(混元AI)共建文化知识图谱,对语料做结构化抽取,建立低门槛、高效率、高复用的数据系统工具。数据可反哺混元底模提升,并进一步应用于司内 AI 产品。
|
|
|
数据资产层
数据语料+资产授权+专家资源
与博物馆、研究院、非遗机构等行业伙伴深度共建原始语料,机构懂文化,我们懂技术,各出所长。原始语料涵盖文物信息、历史文献、非遗档案等全品类文化遗产数据资产。
|
中国有 1.08亿件可移动文物(一级文物超过20万件)、76万处不可移动文物、非遗资源总量接近87万项。但绝大部分文化遗产的数字化程度很低——有藏品、没数据,有数据、没结构,有结构、没应用。
核心矛盾:文化行业有海量专业积累,但缺少把这些积累转化为 AI 可用、用户可感的技术路径。
探元 AI 知识库不是一个简单的数据库,而是一套"从原始语料到结构化知识"的完整技术体系。它的核心价值体现在以下几个维度:
2.2.1 产品技术特色
来自博物馆、文献、典籍、报告、非遗档案、学术论文等多种渠道,覆盖了文化遗产领域的主要信息类型,具有代表性、准确性、权威性。
涵盖结构化文本、高清图片、3D 模型等多模态数据形态,为后续的 AI 应用和用户体验提供了丰富的素材基础。
通过AI进行数据清洗、实体识别、关系抽取和结构化处理,实现了革命性提效。解决传统数据提取依赖大量人工、效率低的问题,大幅缩短吞吐量和执行周期。
与北大信管&数字人文学院合作,构建文化领域的专业知识图谱,将文物、人物、事件、地点、工艺等实体之间的关系网络化,建立行业通用数据标准。
2.2.2 价值阐释
为文化行业提供了一条从"数据沉淀"到"智能应用"的标准化路径——以前每个文博机构是信息孤岛,现在有统一的技术底座和网络,并能从底层数据实现联通。
降低文化使用门槛、提升文化沉浸感受——不需要是专家也能听懂一件文物在说什么,不需要跑到现场也能获得高质量的文化体验。
(1)混元:高质量结构化数据反哺混元大模型,提升其在文化垂域的理解和生成能力;基于混元底模提升,可以更好探元及其他司内 AI 产品和服务。形成了"数据反哺底座 → 底座增强产品 → 产品服务内外"的正向循环。
(2)游戏&内容:数据资产以 Agent 形式输出给游戏、新闻、AI产品等业务部门。
(3)公益:联动公益平台,建立"人人都是文化语料贡献者"的公益反哺模式,社会参与让大家关注文化,并实质性助力语料建设。
2.2.3 可持续性与护城河
知识库系统已发布,进入小范围内测
https://kb.tanyuan.qq.com/ 开通白名单后可使用。已实现:①数据清洗 ②解析分片 ③知识图谱构建 ④结构化提取 ⑤质量评估 ⑥数据可视化
AI 知识库提供的是一套完整的工具和方法论,而这套工具最终要服务于具体的文化数据集的加工与建设。
目前,探元已经在多个数据集方向上展开了实践:
这些数据集都是基于探元 AI 知识库系统所产生的建设产物。知识库提供统一的工具和流程,不同品类的数据集则在这套基础设施上各自生长,最终汇聚成一个覆盖多品类、多模态的文化数据资产网络。
1. 背景介绍
2. 共建目标
故宫提供5000件原始文物扫描件+故宫文字专家标注,推动书法类模型评测标准、对混元OCR模型升级。目前已提供书法类2212件法书,407件行书、草书覆盖字画、法书、碑帖类文字识别。
示例:皇朝礼器(2212件)
示例:赤壁赋(407件行书、草书)
联合技术生态、混元多模态团队,协调行业顶级文字专家资源和复用过往沉淀数据集(甲骨文多模态数据集,1万条高质量数据),定向提升混元OCR模型在古文字领域识别能力。
在加入专项数据优化后,在HYOCR-2.0专项模型对外发布以及HY-Vision-3.0主路模型发版期间,故宫侧可提供行业背书,扩大行业影响力。
协助审核混元OCR古文字汉字七体(甲骨文、金文、篆文、隶书、楷书、行书、草书)的评测标准。共建行业公开Bench(参考babyvision),基于目前正在建设的古文字公开Bench,计划与故宫侧一起共建博物馆古文字类目,届时对外发布业界公开的古文字识别Benchmark。
3. 价值
提升专家研究效率,尤其是正楷、行楷、行书(故宫核心刚需业务场景)智能识别。
帮助混元OCR在古文字识别领域建立差异化能力。
拓展了非文物类场景,后续应用到故宫官网、故宫小程序、探元平台,服务专家的古籍OCR需求,同时探索基于古文字的互动玩法。
可移动文物大众感知最明显,也是文化实验室沉淀多年的领域,通过繁星计划验证模式,并与公益平台产品打通、实现公益反哺常态化。并进一步向非遗、世界遗产、传统工艺等更多文化遗产领域延展
文化共创——不仅让公众消费文化,更让公众成为文化数据的贡献者。这是探元 AI 向善最核心的机制设计。
探元平台构建开源的文化数据集体系。允许研究人员、深度爱好者、行业从业者等专业群体共同参与数据集的共创——包括知识的补充、数据的标注、内容的校对和创意的转化。
面向所有文化爱好者和普通人。可以通过小程序线下拍照上传文物影像、补充民间口述历史、参与语料标注、进行 AI 创意创作。每个人的贡献都在让文化遗产"多活一点"。
飞轮转动起来,AI 向善就不再是团队的能力上限,而是自生长的社会化文化数据生态
繁星计划是探元 AI 向善"共创+共享"模式最重要的规模化验证场。
核心打法:以 AI 技术为引擎、以"文博码"为统一入口、以"参与即公益"为运营机制。
2025 年久久实践,共有 556 家馆参与,110万人次参与。
2026 年目标 200+ 博物馆联动(已新增拓展133家)。
2026全面目标:1000+博物馆,语料1万件,300万(当前113万)数字守艺人。