导图社区 浅谈Numpy和Pandas
包含一种多维数组对象、通⽤函数:快速的元素级数组函数、利⽤数组进⾏数据处理、线性代数、伪随机数生成学等等。
编辑于2021-10-25 20:59:38深入浅出数据库:一份思维导图格式的学习笔记是否在寻找一份既系统又易于理解的数据库学习资料?我们精心制作的数据库概述学习笔记以思维导图的形式呈现,帮助您迅速掌握关键概念。内容亮点:数据库与数据库管理系统:了解数据库的基本概念及其与数据库管理系统(DBMS)的关系。关系型与非关系型数据库:深入探讨这两种数据库类型的区别、优缺点及适用场景。关系型数据库设计规则:掌握设计高效、稳定的关系型数据库的基本原则和最佳实践。
ARIMA模型通常涉及到使用统计方法和数学模型来分析和预测时间序列数据。通过将数据分解成过去的依赖项和随机的误差项,ARIMA模型能够基于过去的模式预测未来的趋势。这些模型广泛应用于金融市场分析、经济预测、销售预测等领域。 让我们续接上节内容,本节主要讲述的是模型的建立流程及评估方法。
ARIMA模型是时间序列分析中的一个重要工具,它由自回归部分,差分部分和移动平均部分组成。通过ARIMA模型,我们可以对具有时间相关性的数据进行建模和预测。这种模型在金融市场预测,气候变化预测等领域都有广泛应用。 本节整理记录的模型数据的清洗处理、特征的选择、模型的公式及定义,下节敬请期待。
社区模板帮助中心,点此进入>>
深入浅出数据库:一份思维导图格式的学习笔记是否在寻找一份既系统又易于理解的数据库学习资料?我们精心制作的数据库概述学习笔记以思维导图的形式呈现,帮助您迅速掌握关键概念。内容亮点:数据库与数据库管理系统:了解数据库的基本概念及其与数据库管理系统(DBMS)的关系。关系型与非关系型数据库:深入探讨这两种数据库类型的区别、优缺点及适用场景。关系型数据库设计规则:掌握设计高效、稳定的关系型数据库的基本原则和最佳实践。
ARIMA模型通常涉及到使用统计方法和数学模型来分析和预测时间序列数据。通过将数据分解成过去的依赖项和随机的误差项,ARIMA模型能够基于过去的模式预测未来的趋势。这些模型广泛应用于金融市场分析、经济预测、销售预测等领域。 让我们续接上节内容,本节主要讲述的是模型的建立流程及评估方法。
ARIMA模型是时间序列分析中的一个重要工具,它由自回归部分,差分部分和移动平均部分组成。通过ARIMA模型,我们可以对具有时间相关性的数据进行建模和预测。这种模型在金融市场预测,气候变化预测等领域都有广泛应用。 本节整理记录的模型数据的清洗处理、特征的选择、模型的公式及定义,下节敬请期待。
浅谈Numpy和Pandas
NumPy基础
ndarray:一种多维数组对象
创建ndarray
ndarray的数据类型(dtype)
可以通过ndarray的astype方法明确地将一个数组从一个dtype 转换成另一个dtype
NumPy数组的运算
NumPy用户称其为矢量化(vectorization)
大小相等的数组之间的任何算术运算都会将运算应用到元素级
数组与标量的算术运算会将标量值传播到各个元素
大小相同的数组之间的比较会生成布尔值数组
不同大小的数组之间的运算叫做广播(broadcasting)
索引
数组切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会 直接反映到源数组上。
数组转置和轴对换
转置是重塑的⼀种特殊形式,它返回的是源数据的视图(不会进 ⾏任何复制操作
.T
.transpose()
.swapaxes()
通⽤函数:快速的元素级数组函数
通⽤函数(即ufunc)是⼀种对ndarray中的数据执⾏元素级运算 的函数。你可以将其看做简单函数(接受⼀个或多个标量值,并 产⽣⼀个或多个标量值)的⽮量化包装器
一元ufunc
二元ufunc
利⽤数组进⾏数据处理
NumPy数组使你可以将许多种数据处理任务表述为简洁的数组 表达式(否则需要编写循环)。⽤数组表达式代替循环的做法, 通常被称为⽮量化
numpy.where函数是三元表达式x if condition else y的⽮量化版 本
基本数组统计⽅法
any⽤于测试数组中是否存在⼀个或多个True, ⽽all则检查数组中所有值是否都是True
顶级⽅法np.sort返回的是数组的已排序副本,⽽就地排序则会修 改数组本身
NumPy的集合函数
线性代数
伪随机数生成
Pandas入门
pandas的数据结构
Series是⼀种类似于⼀维数组的对象,它由⼀组数据(各种 NumPy数据类型)以及⼀组与之相关的数据标签(即索引)组 成
DataFrame是⼀个表格型的数据结构,它含有⼀组有序的列,每 列可以是不同的值类型(数值、字符串、布尔值等)。 DataFrame既有⾏索引也有列索引,它可以被看做由Series组成 的字典(共⽤同⼀个索引)。DataFrame中的数据是以⼀个或多 个⼆维块存放的(⽽不是列表、字典或别的⼀维数据结构)
索引对象
pandas的索引对象负责管理轴标签和其他元数据(⽐如轴名称 等)
基本功能
重新索引reindex
丢弃指定轴上的项drop
⽤轴标签(loc)或整数索引(iloc)
Series和DataFrame的算术⽅法
函数应⽤和映射
NumPy的ufuncs(元素级数组⽅法)也可⽤于操作pandas对 象
DataFrame的apply⽅法:将函数应⽤到由各列或⾏所形成的⼀维数 组上
DataFrame的applymap方法:将函数应用到元素级
Series有⼀个⽤于应⽤元素级函数 的map⽅法
排序和排名
sort_index()
对⾏或列索引进⾏排序
sort_values()
根据值排序
将⼀个或多个列的名字传递给sort_values的by选项, 即可根据一个或多个列中的值进行排序
rank()
默认情况下,rank是通过“为各 组分配⼀个平均排名”的⽅式破坏平级关系的
也可以根据值在原数据中出现的顺序给出排名: obj.rank(method='first')
汇总和计算描述统计
pandas对象拥有⼀组常⽤的数学和统计⽅法。它们⼤部分都属 于约简和汇总统计,⽤于从Series中提取单个值(如sum或 mean)或从DataFrame的⾏或列中提取⼀个Series。
约简方法的选项
描述统计方法
相关系数与协⽅差
corr()、cov()
Series的corr⽅法⽤于计算两个Series中重叠的、⾮NA的、按索 引对⻬的值的相关系数 returns['MSFT'].corr(returns['IBM'])
与此类似,cov⽤于计算协⽅差: returns['MSFT'].cov(returns['IBM'])
DataFrame的corr和cov⽅法将以DataFrame的形式 分别返回完整的相关系数或协⽅差矩阵
corrwith()
利⽤DataFrame的corrwith⽅法,你可以计算其列或⾏跟另⼀个 Series或DataFrame之间的相关系数
传⼊⼀个Series将会返回⼀个相关系数值Series(针对各列进⾏计算)
传⼊⼀个DataFrame则会计算按列名配对的相关系数
唯⼀值、值计数、成员资格⽅法