驿涛总公司在哪里,奋进筑梦催征急( 二 )


3、更新频率高:动态分配数几千个爬虫进程24小时不间断抓取数据,每日2-10万新增,400-500万更新保证了全库在一周左右可以全部更新 。4、数据来源丰富:除了抓取,跟因为行业领先跟很多数据源公司签订了排他性合作,得到了官方或行业龙头企业的数据来源,例如,行政处罚来源除了工商还有信用中国,资质证书200多种,上市公司信息数据直接跟大智慧全库交换数据表800 ,商标信息全库跟权大师合作直接来自商标局,案例信息直接跟北大法宝合作等,并且同步更新 。
5、领先的数据收集技术和清洗技术:专利自主研发的,自主学习破解码,海量(1800万)ip规避防火墙,模拟用户登录行为获取数据 。6、领先的数据存储技术:大规模关联数据可追溯时空关系网络TSTN包括图存储和图分析技术,实体和关系的数量有数十亿之多,实体和关系上的属性有数百亿,保障了有效存储和基于图的快速关联查询 。
7、领先的数据分析技术:自主研发专利技术,测试同样的关联分析算法在三种数据存储系统(以Oracle、MySQL为代表的传统型关系数据库,以Hadoop、HBase为代表的键值对的存储方案、和天眼查的TSTN系统)上运行时的性能比较,时间从28小时缩短为3秒以内 。8、领先的数据同步技术:关联数据和传统数据同步更新技术,自主研发专利技术,并不与传统的、基于统计的宏观大数据对立,而是既包含宏观大数据、更突出微观大数据的统一体 。

推荐阅读