kunming-it-companies

数据标准 / Data Standard

这个项目的可信度来自两件事:只收录公开可核验信息,并且把不确定性标出来。

1. 什么公司可以收录

可以收录昆明及云南范围内,和技术、软件、数据、系统集成、数字化交付有关的公司、机构或团队,包括:

2. 什么公司不收录

暂不收录:

3. 怎么判断“技术相关”

一家公司满足以下任一条件,可以作为候选:

  1. 官网、官方页或公开资料明确提到软件开发、系统集成、数据、AI、云、网络安全、物联网、信息化等业务。
  2. 政府公开名单、招投标公告或公开项目中显示其承担技术、数字化或信息化工作。
  3. 公开招聘页出现研发、测试、运维、数据、产品、项目实施、系统集成等技术岗位。
  4. 公司有公开产品、技术博客、开源仓库或开发者文档。

如果只从名字看像“科技公司”,但没有公开业务说明,应标记为 community_pending,不要写成已核验。

4. source_type 的含义

含义
official_site 公司官网或产品官网
official_profile 官方公众号文章、集团页面、官方新闻或机构主页
government_public_list 政府公告、科技型中小企业名单、公共资源交易、采购公告等
community_list 旧社区清单、开源清单、社区整理资料
recruiting_platform Boss 直聘、智联招聘、前程无忧、猎聘、拉勾等公开招聘平台公司主页或搜索入口。只能说明“公开可查”,不能自动推断正在招聘。
media_database 媒体报道、项目数据库、投融资/企业资料平台
public_web 其他公开网页
unknown 来源类型暂不清楚,后续应补充

5. verification_status 的含义

含义
verified 找到官网或产品官网,且与公司名称/业务方向基本对应
official_page 找到官方文章、集团页面、政府公告等官方来源,但可能缺少独立官网
community_pending 来自社区清单、公开名单或平台页,需要继续补官网和业务方向
outdated 来源可能过期,页面失效或信息明显陈旧
unknown 暂未能判断核验状态

6. confidence_score 评分规则

分数 规则
5 官网已核验,官网和业务方向清楚
4 官方页核验,来源可靠,但缺少独立官网或信息不完整
3 招聘平台、媒体数据库或公开网页可支持基本存在,但还缺官网或业务交叉验证
2 政府公开名单、社区历史清单等候选来源,只能说明“值得复核”
1 来源弱、信息不完整或状态未知,应优先复核

7. opportunities 的含义

opportunities 是阅读提示,不是承诺,不代表公司正在招聘或正在接外包。

允许值:

没有明确招聘页时,不要编造 internshiphiring。如果只是发现招聘平台搜索入口,应该先放在 data/source-leads.csv,或在公司记录里保守使用 source_type: recruiting_platformopportunities: ["unknown"]

8. suitable_for_* 字段

这些字段表示“适合谁阅读这条记录”,不是业务承诺。

9. 如何处理过期信息

如果官网打不开、公司名称变更、业务方向明显变化:

  1. 不要直接删除记录。
  2. 先把 verification_status 改为 outdated,在 notes 里写明“待复核”。
  3. 如果找到新官网或新官方页,再更新 websitesource_urlsource_typelast_checked
  4. 只有确认重复、明显错误或不符合收录边界时,才在 PR 中说明原因后移除。

10. 隐私和负面信息边界

不要收录:

如果某条公开来源包含第三方私人联系方式,只保留来源链接,不把私人联系方式复制进数据字段;维护者本人主动公开的项目联系入口可以出现在 README 或页面 CTA 中。