智驭先锋网

景联文科技高质量大模型训练数据汇总！

3月25日，2024年中国发展高层论坛年会上，国家数据局局长刘烈宏在“释放数据要素价值，助力可持续发展”的演讲中表示，中国10亿参数规模以上的大模型数量已超100个。

当前，国内AI大模型发展仍面临诸多困境。其中，较为突出的就是高质量数据集的匮乏，这极大阻碍了大模型效果提升。特别是专业的行业应用数据集，其获取难度更大，这导致大模型可使用的数据量受到限制，进而对大模型效果形成阻碍。

景联文科技是大语言模型数据供应商，致力于为不同阶段的模型算法匹配高质量数据资源。

世界知识类书籍、期刊、论文及高价值社区文本数据：

l中文书籍250万本

l高质量外文文献期刊8500万篇

l英文高质量电子书200万本

教育题库：

l千12教育题库1800万

l大学题库1.1亿，800万带解析

l英文题库500万

专业知识类期刊、专利、代码：

l中文数字专利4000万

l程序代码（代码注释）20万

多轮对话：

l文本多轮对话1500万

l中英文剧本（电影、电视剧、剧本杀）6万

音频数据：

l普通话65万小时

图片生成及隐式/显示推理多模态数据：

l图文复杂描述600万

l图文推理问答对600万

生物数据：

l核酸库4000万

l蛋白库50万

l蛋白结构库19万

l通路库1000万

l生信工具

药学数据：

l药物研发数据库1300万

l全球上市数据库80万

l一致性评价数据库25万

l生产检验数据库40万

l合理用药300万

l多维文献1亿

l原料药数据库1100万

化学数据：

l化合物数据库1.6亿

l反应信息数据库4100万

l物化性质数据库1.6亿

l谱图数据库20万

l晶体信息数据库100万

l安全信息数据库180万

l商品信息数据库740万

材料数据：

l金属材料数据20万

l纳米材料数据30万

l相图数据6万

l材料性能数据20万

l材料腐蚀数据

l表面处理数据

l焊接材料数据

专利数据：

l全球专利基础著录数据1.3亿

l全球专利原文数据1亿

l全球专利附图数据

l全球专利法律状态数据

l全球专利引文数据

l全球专利分类索引数据

l全球专利重点申请人工商关联数据

l全球生化医药专利深加工数据

l全球专利全文数据

医疗器械数据：

l国内政策法规数据3千

l行业标准数据

l中国医疗器械审评数据20万

l中国医械临床试验数据5千

l全球医械临床试验数据7万

l医用耗材中标数据1400万

l医用耗材带量采购数据400万

l医用设备招投标数据38万

同时景联文科技提供大模型训练数据的标注服务，致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技｜数据采集｜数据标注｜大语言模型训练数据

助力人工智能技术，赋能传统产业智能转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。

阅读全文

发布于 2025-08-14

喜欢 168

165

上一篇：切比雪夫，他带起了俄罗斯现代数学的发展

下一篇：千元内徒步帐篷推荐，鱼脊帐、隧道帐、金字塔帐怎么选？

推荐阅读