数据收集的3种方法 数据收集的方法有哪些( 二 )


2.网页抓取毕竟 , Web抓取已成为我最喜欢的下载数据的方式 , 毕竟 , 处理API从来都不是一件有趣的事(尝试询问您是否不相信我) 。
一些网站上有您可以直接在其网页上看到的信息列表 。我要使用的示例之一是Xtrawine 。
该网站包含有关葡萄酒的数千种信息 。看起来不错 , 如果您是数据分析师! 如果您使用Google进行搜索 , 则会看到该网站不提供开源API 。数据存储在他们的数据库中 , 您无权访问 。
无需询问您连接的数据库 , 而是可以利用主页上已经可见的数据 。该信息存储在页面所附的HTML代码中 。您唯一需要做的就是访问代码并编写遍历所有数千页的算法 , 并提取每瓶葡萄酒的信息 , 并将其存储到.csv数据集中 。
这是为从该网页提取信息而编写的Web抓取算法的输出 。您可以看到结果 。我用漂亮的汤从网站上提取HTML , 但是还有其他可用的python工具 , 取决于您 。
网页抓取的缺点请注意 , 在线数据可能是公开的 , 但它不是购物中心 。您不仅可以连接到任何网站并下载所有想要的内容 , 不仅不礼貌 , 而且还可能违反他们的政策 。因此 , 如果您打算将这些信息用于您的工作或研究 , 请务必谨慎下载内容和下载量 。
3.开源数据集下载数据的最后一种方法是找到已准备好的数据 。诸如Kaggle或data.world之类的网站都有一系列开源数据集 , 您可以下载这些数据集进行实验 。不幸的是 , 您不太可能找到要搜索的内容 。大多数信息不会更新 , 并且如果您要搜索特定的内容(例如价格列表或营销列表) , 则必须使用前面两种方法来检索它 。
这些预制数据集什么时候有用?【数据收集的3种方法 数据收集的方法有哪些】Covid-19紧急情况就是一个例子 。例如 , 如果您检查Kaggle , 您将发现有关Covid-19的每日更新的数据集(大量信息) 。研究人员可以为寻找与遗传相关的信息做出贡献 , 并可以创建预测病毒传播的模型 。

推荐阅读