一、数据对于模型来说是基础,是数据成就了模型,而现在的又是一个数据时代,比如:淘宝等。通过对用户数据的分析挖掘,预测用户的消费习惯等,再比如:人工智能。通过提取摄像头的图片帧数,通过分析图片,得出具体的行为等。这些都离不开再最开始的数据。
二、数据的获取方式有很多种:
1)kaggle(推荐):一个免费的数据获取网站,地址:https://www.kaggle.com/
2)爬虫:通过爬取别人的网站或者其他途径来获取大量的数据,网站爬虫学习:Selenium+PhantomJS爬虫、scrapy爬虫。
3)numpy:手动生成数据,分隔等。
三、在Python中,我们通过读取其他格式数据,来转换成特征数据。常用方式pandas
支持的数据格式
常用的格式,csv、excel、json等
代码过程:
orders = pandas.read\_csv("market/orders.csv")
prior = pandas.read\_csv("market/order\_products\_\_prior.csv")
products = pandas.read\_csv("market/products.csv")
aisles = pandas.read\_csv("market/aisles.csv")
手机扫一扫
移动阅读更方便
你可能感兴趣的文章