导图社区浅谈Numpy和Pandas

浅谈Numpy和Pandas

包含一种多维数组对象、通⽤函数：快速的元素级数组函数、利⽤数组进⾏数据处理、线性代数、伪随机数生成学等等。

编辑于2021-10-25 20:59:38

Yolo

他的近期作品集查看更多>>

MySQL数据库：从入门到精通含5个作品
从零基础入门，到精通 SQL 语法，再到高效数据库管理与优化，本作品集涵盖 MySQL 核心知识与实战技巧，助你快速提升数据库技能： 🔹 基础入门 ——SQL 语法、数据查询、增删改查，一步步打牢基础 🔹 进阶操作 ——多表查询、子查询、视图、存储过程，提升数据库能力 🔹 优化与管理——索引优化、事务控制、高效分页，打造高性能数据库 💡 理论 + 实战，循序渐进，让你轻松掌握 MySQL！快来开启数据库学习之旅吧！🚀🔥

他的近期作品查看更多>>

浅谈Numpy和Pandas

社区模板帮助中心，点此进入>>

Yolo

他的近期作品集查看更多>>

MySQL数据库：从入门到精通含5个作品
从零基础入门，到精通 SQL 语法，再到高效数据库管理与优化，本作品集涵盖 MySQL 核心知识与实战技巧，助你快速提升数据库技能： 🔹 基础入门 ——SQL 语法、数据查询、增删改查，一步步打牢基础 🔹 进阶操作 ——多表查询、子查询、视图、存储过程，提升数据库能力 🔹 优化与管理——索引优化、事务控制、高效分页，打造高性能数据库 💡 理论 + 实战，循序渐进，让你轻松掌握 MySQL！快来开启数据库学习之旅吧！🚀🔥

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 40.6k
- 979
- 2.5k
- 401
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 19.1k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 4.8k
- 171
- 11
- 4
- 0
jackrao
python思维导图
- 10.3k
- 559
- 242
- 7
- 0
(*^▽^*)
css
- 4.3k
- 1
- 43
- 3
- 0
A张舫
CSS
- 6.9k
- 272
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 8.7k
- 356
- 209
- 16
- 0
journey
计算机组成原理
- 4.4k
- 98
- 71
- 8
- 0
journey
IMX6UL(A7)
- 3.0k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 4.1k
- 51
- 10
- 1
- 0
蒋龙

浅谈Numpy和Pandas

NumPy基础

ndarray:一种多维数组对象

创建ndarray

ndarray的数据类型(dtype)

可以通过ndarray的astype方法明确地将一个数组从一个dtype 转换成另一个dtype

NumPy数组的运算

NumPy用户称其为矢量化(vectorization)

大小相等的数组之间的任何算术运算都会将运算应用到元素级

数组与标量的算术运算会将标量值传播到各个元素

大小相同的数组之间的比较会生成布尔值数组

不同大小的数组之间的运算叫做广播(broadcasting)

索引

数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

数组转置和轴对换

转置是重塑的⼀种特殊形式，它返回的是源数据的视图（不会进⾏任何复制操作

.transpose()

.swapaxes()

通⽤函数：快速的元素级数组函数

通⽤函数（即ufunc）是⼀种对ndarray中的数据执⾏元素级运算的函数。你可以将其看做简单函数（接受⼀个或多个标量值，并产⽣⼀个或多个标量值）的⽮量化包装器

一元ufunc

二元ufunc

利⽤数组进⾏数据处理

NumPy数组使你可以将许多种数据处理任务表述为简洁的数组表达式（否则需要编写循环）。⽤数组表达式代替循环的做法，通常被称为⽮量化

numpy.where函数是三元表达式x if condition else y的⽮量化版本

基本数组统计⽅法

any⽤于测试数组中是否存在⼀个或多个True，⽽all则检查数组中所有值是否都是True

顶级⽅法np.sort返回的是数组的已排序副本，⽽就地排序则会修改数组本身

NumPy的集合函数

线性代数

伪随机数生成

Pandas入门

pandas的数据结构

Series是⼀种类似于⼀维数组的对象，它由⼀组数据（各种 NumPy数据类型）以及⼀组与之相关的数据标签（即索引）组成

DataFrame是⼀个表格型的数据结构，它含有⼀组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。 DataFrame既有⾏索引也有列索引，它可以被看做由Series组成的字典（共⽤同⼀个索引）。DataFrame中的数据是以⼀个或多个⼆维块存放的（⽽不是列表、字典或别的⼀维数据结构）

索引对象

pandas的索引对象负责管理轴标签和其他元数据（⽐如轴名称等）

基本功能

重新索引reindex

丢弃指定轴上的项drop

⽤轴标签（loc）或整数索引（iloc）

Series和DataFrame的算术⽅法

函数应⽤和映射

NumPy的ufuncs（元素级数组⽅法）也可⽤于操作pandas对象

DataFrame的apply⽅法：将函数应⽤到由各列或⾏所形成的⼀维数组上

DataFrame的applymap方法：将函数应用到元素级

Series有⼀个⽤于应⽤元素级函数的map⽅法

排序和排名

sort_index()

对⾏或列索引进⾏排序

sort_values()

根据值排序

将⼀个或多个列的名字传递给sort_values的by选项，即可根据一个或多个列中的值进行排序

rank()

默认情况下，rank是通过“为各组分配⼀个平均排名”的⽅式破坏平级关系的

也可以根据值在原数据中出现的顺序给出排名： obj.rank(method='first')

汇总和计算描述统计

pandas对象拥有⼀组常⽤的数学和统计⽅法。它们⼤部分都属于约简和汇总统计，⽤于从Series中提取单个值（如sum或 mean）或从DataFrame的⾏或列中提取⼀个Series。

约简方法的选项

描述统计方法