数据收集的3种方法数据收集的方法有哪些( 二 ) _数据

2.网页抓取毕竟， Web抓取已成为我最喜欢的下载数据的方式，毕竟，处理API从来都不是一件有趣的事（尝试询问您是否不相信我）。
一些网站上有您可以直接在其网页上看到的信息列表。我要使用的示例之一是Xtrawine 。
该网站包含有关葡萄酒的数千种信息。看起来不错，如果您是数据分析师！如果您使用Google进行搜索，则会看到该网站不提供开源API 。数据存储在他们的数据库中，您无权访问。
无需询问您连接的数据库，而是可以利用主页上已经可见的数据。该信息存储在页面所附的HTML代码中。您唯一需要做的就是访问代码并编写遍历所有数千页的算法，并提取每瓶葡萄酒的信息，并将其存储到.csv数据集中。
这是为从该网页提取信息而编写的Web抓取算法的输出。您可以看到结果。我用漂亮的汤从网站上提取HTML ，但是还有其他可用的python工具，取决于您。
网页抓取的缺点请注意，在线数据可能是公开的，但它不是购物中心。您不仅可以连接到任何网站并下载所有想要的内容，不仅不礼貌，而且还可能违反他们的政策。因此，如果您打算将这些信息用于您的工作或研究，请务必谨慎下载内容和下载量。
3.开源数据集下载数据的最后一种方法是找到已准备好的数据。诸如Kaggle或data.world之类的网站都有一系列开源数据集，您可以下载这些数据集进行实验。不幸的是，您不太可能找到要搜索的内容。大多数信息不会更新，并且如果您要搜索特定的内容（例如价格列表或营销列表），则必须使用前面两种方法来检索它。
这些预制数据集什么时候有用？【数据收集的3种方法数据收集的方法有哪些】Covid-19紧急情况就是一个例子。例如，如果您检查Kaggle ，您将发现有关Covid-19的每日更新的数据集（大量信息）。研究人员可以为寻找与遗传相关的信息做出贡献，并可以创建预测病毒传播的模型。

数据收集的3种方法数据收集的方法有哪些( 二 )

推荐阅读

跳舞的什么小说好看完结

在朱雀门扰乱朱雀守护结界的是谁

刘恒知道窦长君是刘盈吗刘恒知道窦长君的身份吗

宽松慵懒毛衣怎么搭配

笔记本电脑键盘错乱怎么办，分享以下解决程序

什么是互联网农场

陌陌怎么开语音

洛阳城市区违规养狗怎么处罚？

有窗帘盒怎么装窗帘杆

爱奇艺一个账号可以登录几个设备

这个新系统。。。。进了淘宝真好玩儿

阿斯顿马丁有4座的吗

小型挖掘机多少钱一台_60小型挖掘机价格表

二手福特F，福特f850是什么年代的车

我来教你一生相伴115勿扰模式怎么设置

奥运火炬为什么不熄灭

数据收集的3种方法 数据收集的方法有哪些( 二 )

推荐阅读

数据收集的3种方法数据收集的方法有哪些( 二 )