景联文科技高质量大模型训练数据汇总!

3月25日,2024年中国发展高层论坛年会上,国家数据局局长刘烈宏在“释放数据要素价值,助力可持续发展”的演讲中表示,中国10亿参数规模以上的大模型数量已超100个。

当前,国内AI大模型发展仍面临诸多困境。其中,较为突出的就是高质量数据集的匮乏,这极大阻碍了大模型效果提升。特别是专业的行业应用数据集,其获取难度更大,这导致大模型可使用的数据量受到限制,进而对大模型效果形成阻碍。

景联文科技是大语言模型数据供应商,致力于为不同阶段的模型算法匹配高质量数据资源。


世界知识类书籍、期刊、论文及高价值社区文本数据:

l中文书籍250万本

l高质量外文文献期刊8500万篇

l英文高质量电子书200万本

教育题库:

l千12教育题库1800万

l大学题库1.1亿,800万带解析

l英文题库500万

专业知识类期刊、专利、代码:

l中文数字专利4000万

l程序代码(代码注释)20万

多轮对话:

l文本多轮对话1500万

l中英文剧本(电影、电视剧、剧本杀)6万

音频数据:

l普通话65万小时

图片生成及隐式/显示推理多模态数据:

l图文复杂描述600万

l图文推理问答对600万

生物数据:

l核酸库4000万

l蛋白库50万

l蛋白结构库19万

l通路库1000万

l生信工具

药学数据:

l药物研发数据库1300万

l全球上市数据库80万

l一致性评价数据库25万

l生产检验数据库40万

l合理用药300万

l多维文献1亿

l原料药数据库1100万

化学数据:

l化合物数据库1.6亿

l反应信息数据库4100万

l物化性质数据库1.6亿

l谱图数据库20万

l晶体信息数据库100万

l安全信息数据库180万

l商品信息数据库740万

材料数据:

l金属材料数据20万

l纳米材料数据30万

l相图数据6万

l材料性能数据20万

l材料腐蚀数据

l表面处理数据

l焊接材料数据

专利数据:

l全球专利基础著录数据1.3亿

l全球专利原文数据1亿

l全球专利附图数据

l全球专利法律状态数据

l全球专利法律状态数据

l全球专利引文数据

l全球专利分类索引数据

l全球专利重点申请人工商关联数据

l全球生化医药专利深加工数据

l全球专利全文数据

医疗器械数据:

l国内政策法规数据3千

l行业标准数据

l中国医疗器械审评数据20万

l中国医械临床试验数据5千

l全球医械临床试验数据7万

l医用耗材中标数据1400万

l医用耗材带量采购数据400万

l医用设备招投标数据38万

同时景联文科技提供大模型训练数据的标注服务,致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技|数据采集|数据标注|大语言模型训练数据

助力人工智能技术,赋能传统产业智能转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

发布于 2025-08-14
162
目录

    推荐阅读