本文旨在成为技术文章 。我希望您可以应用本文的内容来改善您的工作和技能 。
> Photo by NASA on Unsplash
自从我开始在AI领域工作以来 , 我发现100万美元的问题正在寻找数据 。您可以随心所欲 , 拥有许多改变世界的绝妙想法 , 但是如果没有数据 , 您将一无所有 。由于数据已成为非常珍贵的商品 , 因此您需要详细了解如何搜索 。
您可以通过三种方式从互联网上挖掘数据:
· API
· 网页抓取
· 开源数据集
谷歌搜索信息不会带您走远您在公司中不断看到的一件事是 , 人们需要花费大量时间来搜索和收集来自Internet上的网站的excel数据库数据 。对于雇员和雇主而言 , 这都是浪费宝贵的时间 。
在过去的几年中 , Google已成为搜索信息最烦人的工具之一 。搜索会优先考虑广告 , 定位搜索不再可靠 。现在 , 尝试手动收集大量信息(尤其是从不同的网站收集信息)是一种可笑的尝试 。
您有什么选择?1. API简而言之 , API是算法的集合 , 这些算法使我们能够连接到数据库以下载信息 。
例如 , 我要下载包含关键字" #sustainability"的推文列表 。我需要一个Twitter API 。如果我想连接到股票市场 , 这是一个在线购物 , 国际象棋 , 游戏的网站 , 则同样适用…
请注意 , 您将需要网站发布其OPEN SOURCE API才能连接到他们的数据库 。该网站将对您允许下载的信息量进行限制 。只有少数网站无需您付费即可提供信息 。但是 , 如果幸运的话 , 您仍然有机会免费下载信息 。
如何搜索API例如 , 我想下载我最喜欢的国际象棋网站lichess.org的国际象棋比赛 。您可以在Google(lol)上获取lichess API , 如果幸运的话 , 可以找到lichess.org发布的源代码 。
实际上 , https://lichess.org/api包含API和下载国际象棋比赛的说明 。
所有网站都提供API吗?不幸的是没有 。考虑到Facebook必须限制信息的下载 , 因此 , 不允许您从Facebook下载任何信息(例如 , 甚至是帖子) 。我将讨论API的替代方法 , 但是对于Facebook , 未经书面同意 , 您不能下载任何信息 。
如果网站提供API , 我可能会遇到什么限制?· 编码
如果您不知道如何编码 , 这是第一个问题 。每个网站都需要一种个性化的方法 , 而不是看起来那么简单 。
· 格式
尽量减少信息浪费的常用格式是JSON , 但还有其他形式 。您下载的数据需要进行标准化 , 理解并以您想要的方式存储(我可以猜测一个.csv文件) 。这很耗时 , 并且代码并不总是稳定的 。
· 价格
有时 , 您会很幸运地找到免费提供信息的网站 。在大多数情况下 , 没有订阅计划 , 您甚至无法下载免费信息:为备份计划做好准备 。
· 请求频率
您不能只从数据库下载全时 , 全速千兆字节的数据 。信息流可能会降低服务器的速度 , 因此网站要非常小心 , 并限制要执行的请求数 。您将需要每n秒执行GET请求(从在线数据库下载信息的操作) 。当然 , 整个过程可以自动化 。
· 容量限制
大多数提供API的网站(除非它们都是开源的)都这样做是为了获利(现在您了解了销售数据的含义) 。如果您希望下载大于一定大小的数据 , 他们会要求您付款 。
· 请求限制
限制下载的另一种形式的度量标准不是大小 , 而是请求数 。例如 , 使用Alpha Vantage下载历史股票价格每天限制为500个请求 。
这些数字(例如每天10万条推文限制)似乎不是一个很大的限制 , 但是如果您经营着一家拥有500名工人的公司 , 并且您的目标是建立巨大的AI预测模型 , 那么10万条推文对于您想要构建的内容来说是可笑的数目。
推荐阅读
- 微信公众号写作的3大技巧 微信公众号如何写作
- 网页打开速度慢的3大原因 网页打开速度慢什么原因
- 无锡 人才,无锡所有区的人才市场有哪些谢谢 求具体
- 分享获取流量的23种方法 如何获取流量
- 小编教你在微信里将语音转发给别人的详细操作。
- 毛志刚,成都商业银行是谁开的
- 小编分享在钉钉里发红包的详细操作。
- 小编分享天天P图设置照片画质的图文操作。
- 小编分享使用天天P图APP去水印的基础操作。
- 农业部规划设计研究院,农业部规划设计研究院给博士后解决住的问题吗