开放数据源,一般在公共机构,学校,企业都会有,一般网上搜索“某某开放数据库”容易找到;
自动抓取,通过爬虫来实现,爬虫的三大步骤,requests爬取,Xpath解析,pandas存储。
当然我们如果不会写脚本,可以用火车采集器,八爪鱼,或者是集搜客。
传感器数据,一般在智能设备中会汇集这些数据,温度湿度之类;
日志,一般是在APP中,通过埋点来记录用户登录时长使用习惯等等,国内知名的友盟和talkingdata就是这种技术流。