博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
待续 总结 - parquet 与 avro
阅读量:4217 次
发布时间:2019-05-26

本文共 490 字,大约阅读时间需要 1 分钟。

  • paruet列存文件结构

        可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量

        压缩编码可以降低磁盘存储空间

        只读取需要的列,支持向量运算,能够获取更好的扫描性能

         Schema :Parquet文件尾部存储了文件的元数据信息和统计信息,自描述的,方便解析

                Parquet列式存储带来的性能上的提高在业内已经得到了充分的认可,特别是当你们的表非常宽(column非常多)的时候,Parquet无论在资源利用率还是性能上都优势明显

  • avro嵌套列存结构

历史

历史的角度  Parquest 剩 Avro一筹  

新的就是好的(新的是解决老的问题)

Apache Parquest  on 25 May 2013   

Apache Avro   1.0版本 2010年出 

参考:

将 avro 转换为 parquet 格式

https://github.com/laserson/avro2parquet

https://blog.csdn.net/u012978731/article/details/71080940

https://yq.aliyun.com/articles/25504

你可能感兴趣的文章
CSS之Multi-columns的跨列
查看>>
CSS之浮动(一)
查看>>
CSS之浮动(二)
查看>>
AtomicInteger源码解析
查看>>
CopyOnWriteArraySet源码学习
查看>>
Openfiler 配置 NFS 示例
查看>>
Oracle 11.2.0.1 RAC GRID 无法启动 : Oracle High Availability Services startup failed
查看>>
Oracle 18c 单实例安装手册 详细截图版
查看>>
Oracle Linux 6.1 + Oracle 11.2.0.1 RAC + RAW 安装文档
查看>>
Oracle 11g 新特性 -- Online Patching (Hot Patching 热补丁)说明
查看>>
Oracle 11g 新特性 -- ASM 增强 说明
查看>>
Oracle 11g 新特性 -- Database Replay (重演) 说明
查看>>
Oracle 11g 新特性 -- 自动诊断资料档案库(ADR) 说明
查看>>
Oracle 11g 新特性 -- RMAN Data Recovery Advisor(DRA) 说明
查看>>
CSDN博客之星 投票说明
查看>>
Oracle wallet 配置 说明
查看>>
Oracle smon_scn_time 表 说明
查看>>
VBox fdisk 不显示 添加的硬盘 解决方法
查看>>
Secure CRT 自动记录日志 配置 小记
查看>>
RMAN RAC 到 单实例 duplicate 自动分配通道 触发 ORA-19505 错误
查看>>