导图社区 第4章:外部数据的读取与存储
在最炎热的季节,亿图团队不忘用户的期望与寄托,攻克一道道技术难关,把实用的新功能带入到MindMaster6.5版本中。
编辑于2021-01-24 22:51:36这是一篇关于物理与光电工程学院(理工学院)的思维导图,主要内容包括:近五年成就,学生规模,师资力量,学院贡献,历史沿革。物理与光电工程学院(理工学院)是一个在物理学、光电工程等领域具有较高学术声誉和研究水平的综合性学院,致力于培养高素质、高水平的专业人才,并推动相关学科领域的发展和创新。
这是一个关于高考志愿填报的思维导图,包含整体规划、院校与专业、冲一冲、稳一稳、保一保,帮助考生根据自身情况合理安排志愿顺序。便于考生系统地理解高考志愿填报的各个环节和要点,从而做出更加合理和科学的决策。
在最炎热的季节,亿图团队不忘用户的期望与寄托,攻克一道道技术难关,把实用的新功能带入到MindMaster6.5版本中。
社区模板帮助中心,点此进入>>
这是一篇关于物理与光电工程学院(理工学院)的思维导图,主要内容包括:近五年成就,学生规模,师资力量,学院贡献,历史沿革。物理与光电工程学院(理工学院)是一个在物理学、光电工程等领域具有较高学术声誉和研究水平的综合性学院,致力于培养高素质、高水平的专业人才,并推动相关学科领域的发展和创新。
这是一个关于高考志愿填报的思维导图,包含整体规划、院校与专业、冲一冲、稳一稳、保一保,帮助考生根据自身情况合理安排志愿顺序。便于考生系统地理解高考志愿填报的各个环节和要点,从而做出更加合理和科学的决策。
在最炎热的季节,亿图团队不忘用户的期望与寄托,攻克一道道技术难关,把实用的新功能带入到MindMaster6.5版本中。
第4章 外部数据的读取与存储
前言 对于数据分析而言,数据大部分来源于外部数据
CSV,EXCEL文件与数据库文件
文件的读取
pd.read_csv()
两种方法
pd.read_json()
两种方法
pd.read_table()
pd.read_excel()
pd.read_sql()
两种方法
pd.read_html()
文件的存储
df.to_csv()
df.to_json()
df.to_excel()
df.to_sql()
4.1 文本数据的读取与存储
4.1.1 CSV文件的读取
pd.read_csv() / pd.read_talbe() 常用参数
pandas库提供的将表格型数据转化为df格式数据的函数
path
文件的路径
读取csv文件时,如果路径中有中文,需要加open()函数,否则会报错
sep
分隔符
默认分隔符为 逗号
header
标题行
index_col
行索引
names
指定列索引的列名
skiprows
需要忽略的行数(从文件开始出算)
nrows
需要读取的行数(从文件开始处算)
chunksize
文件块的大小
usecols
指定读取的列
pd.read_csv()
注意事项
CSV是存储表格数据的常用格式文件
1.指定列作为索引
df = pd.read_csv( open(fp) , index_col = ' id' )
指定行索引
如果希望多个列做成一个层次化索引,传入列编号或者列名组成的列表即可
2.标题行设置
df = pd.read_csv ( open(fp) , header = None )
如果使用默认情况进行读取,会指定第一行为标题行
df = pd.read_csv( open(fp), names = [ ] )
指定行标题
3.自定义读取
由于数据分析或者数据原因的需要,有时可能只选取读取部分行或者列
df = pd.read_csv( open(fp) , usecols=[] )
使用部分列
df = pd.read_csv( open(fp) , skiprows=[0,5] )
跳过一些行
df = pd.read_csv( open(fp), nrows=10 )
选择读取行数
chunker = pd.read_csv( open(fp) , chunksize=100 )
for i in chunker: sex = sex.add( i['sex'].value_counts() , fill_value = 0 )
i 就是 100 个 数据 , 被分块了
pd.read_table()
默认分隔符为 制表符
!type filepath
可以查看文件
linux系统下 应用 !cat filepath
4.1.2 TXT文件的读取
df = pd.read_table( open(fp) , sep = '?' )
有些txt文件没有固定的分隔符
sep = '\s+'
适用于一些数量不定的空白符进行分割
4.1.3 文本数据的存储
在对数据进行分析和处理之后,通常会把数据存储起来
df.to_csv(fp)
df.to_csv(fp,sep='?')
df.to_csv( fp, index=False )
默认情况下会存储行和列索引
df.to_csv( fp, header=False)
4.2 JSON与Excel数据的读取与存储
4.2.1 json数据的读取与存储
json的特点
理想的数据交换语言
json 数据是一种轻量级的数据交换格式
具有简单清晰的层次结构
读取json
1. 用python自带的第三方库 json
json.dumps( str ) 将dict转化为json格式
df.sort_index()
由于数据类似字典结构,读取的时候可能会乱序
2.pd.read_json(fp)
存储
df.to_json( fp )
4.2.2 Excel数据的读取与存储
df.to_excel( fp, sheet_name='out' , index=None)
4.3 数据库的读取与存储
基础知识
在许多工作应用中,常使用的文件来源于数据库
Mysql 是目前最受欢迎的开源的关系型数据库
conda install pymysql
通过python连接mysql 需要加载第三方库 pymysql
4.3.1 建立连接
import pymysql conn = pymysql.connect( host, user, passwd, db, port, charset )
host='localhost'
port=3306
charset=utf8
4.3.2 操作
cursor = conn.cursor()
cursor.execute( option )
option 可以有 增删改查
conn.commit()
4.3.3 读取数据库
data = cursor.fetchall() df = DataFrame( list(data) )
将得到的元组化列表传给DataFrame构造器
df = pd.read_sql( 'select * from tablename , conn)
一个会带Header 一个不会带
4.3.4 存储数据库
df.to_sql( name='out6', con='' , if_exists='replace', index=False )
con='mysql+pymysql://root:123456@localhost:3306/mydb?charset=utf8'
4.4 Web数据的读取
网络上每天都会产生大量的非结构化的数据
4.4.1 读取HTML表格
df = pd.read_html( url )
读取的是审查元素里表格中的数据
4.4.2 网络爬虫