Numpy&Pandas基本操作(二)

Numpy&Pandas基本操作(二)

Pandas

Pandas 简介

Pandas是一个基于Numpy的科学计算包,他将Numpy封装成一个更加易于用户使用的方式.

如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas 是基于 Numpy 构建的,让 Numpy 为中心的应用变得更加简单。 – <莫凡 Python-Pandas 简介>

两种基本数据结构SeriesDataFrame

Series

1
2
3
4
5
6
pd.Series([1,2,3,4])
# 0 1
# 1 2
# 2 3
# 3 4
# dtype: int64

可以看得出来,Series数据结构其实是将Numpyndarray封装了一下,让使用者更加直接的去使用.

DataFrame

DataFrame是一个表格型的数据结构,它包含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。DataFrame既有行索引也有列索引, 它可以被看做由Series组成的大字典。

我们可以根据每一个不同的索引来挑选数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14

d = pd.date_range('20200301',periods=6)
# DatetimeIndex(['2020-03-01', '2020-03-02', '2020-03-03', '2020-03-04',
# '2020-03-05', '2020-03-06'],
# dtype='datetime64[ns]', freq='D')

df = pd.DataFrame(np.random.randn(6,4),index=d,columns=['a','b','c','d'])
# a b c d
# 2020-03-01 0.146927 1.502298 0.347304 -0.041707
# 2020-03-02 -1.430349 0.946254 0.354297 -2.076855
# 2020-03-03 0.534247 1.028356 0.403737 0.650875
# 2020-03-04 1.493758 -1.456223 2.071205 1.865286
# 2020-03-05 -0.564882 0.421414 0.795685 -0.129383
# 2020-03-06 1.016868 -1.152248 -0.917758 -0.168378

我们可以将DataFrame简单的看做上一篇中提到过的Numpy.ndarray. 其具体操作:

DataFrame 的基本操作

去某列数据(通过索引)

1
2
3
4
5
6
7
8
9
10
df['d']
# 2020-03-01 -0.041707
# 2020-03-02 -2.076855
# 2020-03-03 0.650875
# 2020-03-04 1.865286
# 2020-03-05 -0.129383
# 2020-03-06 -0.168378
# Freq: D, Name: d, dtype: float64
type(df['d'])
# pandas.core.series.Series

我们可以看出,其实DataFrame中的单一列就是一个Series

评论

Agile Angularjs Animation Application Artificial Intelligence BP Babel Bokeh Book C4.5 CART CD CLI CSS CentOS CheetSheet Cinder Clipboardjs Concept Continuous Delivery DeepLearning Department DevOps Develop Development Directive Distribution Django Document ECMA ES5 ES6 ES7 Echarts Engine Entropy Filter Front End Gallery Git Gradient descent Hexo Horizon ID3 ID3.5 Icarus JavaScript Javascript KVM LaTeX LeetCode LibreOffice Linux MNIST Machine Learning Matrix MiddleWare Module Native Network Nginx NodeJS Numpy OOP OpenSSH OpenStack OpenStackApi Operations Oprations PDF PLA Pandas Pipline Probability Python React Relational algebra Restful Route SVD SVM Scalar Sigmoid Team Tempest Tensor TensorFlow Testing Time TimeMachine Tips Vector Vmware Vue Vuex WSGI Web Word Cut aliyun auth babel certbot debounce decision tree dns docker dockerfile eject footer git header homebrew html5 http https jupyter jwt keystone lab loader lodash mathematics migrate nav openstack outline pdf2html pm2 proto prototype python replace request response rp rt ruby scikit-learn section singular value decomposition sklearn stylus throttle url vue-router vue-ssr webpack 事件 事件代理 事件冒泡 事件捕获 低通滤波器 入门 全局 全局变量 全局对象 全栈 公式 决策树 函数 分类器 剪枝 加速 动态变量 匹配滤波边缘检测 卷积 卷积核 原型链 双向绑定 反向传播 发布 变量类型 可视化 基尼指数 官方示例 对偶形式 对象 小技巧 平移和查分边缘检测 思维导图 感知机模型 拉格朗日乘子法 推导 提交阶段 数据 数据绑定 最大似然估计 最小二乘估计 最小二乘回归树 最小二乘法 本地 朴素贝叶斯 朴素贝叶斯算法 机器学习 条件概率 标签模板 梯度下降 梯度方向边缘检测 概念 概率 模板字符串 正则 求导 流程 源码 源码阅读 灰度 特征工程 生命周期 矩阵 神经网络 私有对象 科学计算 算法 算法实现 线性回归 缺失 联合概率 脚手架 识别 调试 贝叶斯 贝叶斯判定准则 边缘检测 边际概率 闭包 间隔 防抖动 限流 随机森林 高斯分布 高通滤波器
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×