数据处理工具Pandas

/ 0评 / 0

很多机器学习框架都支持将Pandas数据结构作为输入,而且Pandas核心概念其实尤其简单.

两个主要概念:Series和DataFrame,其中Series即数据列,DataFrame即表格.

比如下图,B这一列,就是一个Series,而每一行数据,都是可以增删的,最后很多行数据,组成了表格.

通常,不使用代码构建Pandas,而使用CSV是更方便的方式,比如.

california_housing_dataframe = pd.read_csv("https://download.mlcc.google.cn/mledu-datasets/california_housing_train.csv", sep=",")

california_housing_dataframe.describe()

结果:

这里有一个行标签,分别是样本数,均值,标准偏差,最大值,最小值和各种分位数.

数据访问和正常的列表没什么差别.

也可以轻松进行数据提取.

也可以做数据打乱等操作,一切也都是为了后续的学习,随机性更高.

cities.reindex(np.random.permutation(cities.index))

总之,记住原始的几个概念,怎么载入数据,这就变得很简单了.

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注