- 我们正在推出一个新的多源、经过清理、富含人工智能的公司数据集
- 数据集包含 3500 多万家具有多个标识符的公司
- 数据集中的每条记录都包含来自各种数 企业电子邮件列表 据集合的数据点,包括公司统计数据、增长洞察、财务数据、技术统计数据等等
- 以 JSONL、CSV 或 Parquet 格式获取数据
什么是多源公司数据?
多源公司数据是汇总来自各种领先业务平台和其他来源的信息的数据集,为超过 3500 万家公司创建详细而全面的资料。数据集中的每个公司资料都包含多个标识符,便于处理和集成。
该数据集包含 300 多个 起拍价:可根据供应商要求提供 数据点,可以 JSONL、CSV 或 Parquet 格式传送给客户端。
以下是该数据集中数据集合的概述:
- 主要公司信息(公司统计)
- 基于历史数据的增长洞察
- 在线状态和评论
- 财务和融资
- 技术图表和产品
- 更多内容
我们如何处理这个数据集中的数据?
多源公司数据集的处理分为几个关键步骤:
- 过滤。我们对核心数据集进 行过滤,删除空记录或低价值记录。
- 清理。标准化日期格式、删除 HTML 标签等操作使数据集更具可读性、一致性和可操作性。
- 丰富。我们使用专有方法添加附加字段,包括专门指导的大型语言模型 (LLM),它使我们能够提取更准确的公司描述、类别和关键字。
- 映射。我们将清理后的数据映 短信列表 射到其他来源,并将所有内容统一为单一输出。