层次性数据格式 HDF 与生物信息学和 BioHDF
HDF: http://www.hdfgroup.org
1 层次型数据格式 HDF, HDF4 与 HDF5
概述
Hierarchical Data Format,可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。大多数普通计算机都支持这种文件格式。
HDF
HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:
自述性:对于一个HDF文件里的每一个数据对象,有关于该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。
通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构,符号、数字和图形数据可以同时存储在一个HDF文件里。
灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据放到多个HDF文件里。
扩展性:HDF极易容纳将来新增加的数据模式,容易与其他标准格式兼容。
跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。
HDF4 与 HDF5
新一代的HDF5是由NCSA于1998年发布。NCSA支持HDF4并还将继续支持几年(细节如下)。HDF5被设计为改善HDF4的一些局限性。HDF4的某些局限性有:
单个文件不能存放多于20000个对象,单个文件大小也不能大于2G字节。
数据模式的兼容性不够好,有过多的对象类型,数据类型太严格。
库函数过时和过于复杂,不能有效地支持并行口的I/O,很难用于线程应用中。
HDF5包含如下的改进:
被设计为一种新的格式用来改进HDF4.x,特别是每个文件可以存储更大的文件和更多的对象。
数据模式更简洁、更全面,它包含两个基本结构:多维数组记录结构,和分组结构。
更简洁、更利于工程库和应用编程接口,支持并行I/O,线程和其他一些现代系统和应用要求。
虽然HDF5比HDF4有明显的优势,但HDF4仍然是在科学界使用得最为广泛。许多应用软件都是基于HDF4库开发的,许多数据产品是按HDF4格式生成的。把这些应用和数据产品从HDF4转换为HDF5需要花费时间和费用。因此,NCSA仍然支持HDF4并还将持续几年。
2 HDF 与生物信息学,BioHDF
Projects: http://www.hdfgroup.org/projects/
-
BioHDF
The BioHDF project is a collaborative effort to develop portable, scalable, next-generation sequencing (NGS) data storage technologies in HDF5.
BioHDF 写道
BioHDF包含三个部分:
1 The data model and file organization.
This determines which data will be stored, how it will be arranged in the data file and how it will be queried. Data will be stored as fundamental building blocks such as "sequences", "alignments" and "MS/MS spectra". Unlike most file formats, which are set in stone, BioHDF files will are self-describing, flexible and extensible as they are based on HDF5.
2 The C application programming interface (API) and library.
This is the library which will provide the basic means for manipulating the data stored in a BioHDF file. C is a useful language for the basic BioHDF API since it allows for easy interfacing with the HDF5 API, can be ported easily to many operating systems and can interoperate with most higher-level languages. Much bioinformatics work is done in higher-level languages, however, and we intend to make the BioHDF API easily wrappable for these languages using packages like SWIG and XS.
3 Command-line tools
Command-line tools are provided for data I/O and manipulation. Interoperability with existing bioinformatics tools will be provided by functions which allow for import and export of the data from/to existing bioinformatics file formats.
-
Bioinformatics
HDF5 has many potential applications in the growing field of bioinformatics.
Bioinfomatics 写道
1 BioHDF
2 LD Analysis
3 HapMap Data
4 Genotyping
5 Early Perl Work
3 stackoverflow 上关于 HDF 的问答: http://stackoverflow.com/questions/tagged/hdf5
PS:
在2008年8月份的时候,因为研究Broad的IGV(http://www.broadinstitute.org/igv/)而了解到HDF格式,当时的Seminar(http://bioinformatics.genomics.org.cn/bio/seminar2008.html)上内容较多,也未细讲,一带而过了;而且估计关心的人也不多。
分享到:
相关推荐
HDF 分层数据格式和IDL 交互式数据语言* 摘要:HDF 是一种新型的、有别于传统数据文件格式的分层数据格式,它的数据结构更为复杂,因此可包 含更为全面的数据及其数据各项属性的信息。除利用一般的程序读取语言外,...
打开hdf文件,查看hdf数据信息。用idl语言编写,理解后可对hdf格式文件有深入理解。
将解释什么是分层数据格式(HDF)和为什么创建它,还将介绍HDF文件的基本格式,以及使用HDF文件时HDF的初始数据结构和方法。
深入了解HDF格式才能做出好的空间数据应用系统!!!
浏览MODIS遥感数据的HDF格式数据的IDL程序-Browse MODIS remote sensing data of HDF format data IDL procedures
基于VS2013开发平台创建MFC工程,搭建LAStools、HDF_Group工程环境,利用车载移动测量系统采集到的LAS格式数据,设计了一款数据格式转换程序。经过实验验证,该转换程序稳定有效,解决了点云训练样本制作过程中数据格式...
这个软件包是用来读取HDF格式的辅助包,通过此包内的函数可以读取modis数据的各个波段数据,以及地理信息数据,用来分析和处理modis数据。
针对遥感数据的hdf5、hdf4、nc格式数据的解析类 可以跨平台使用类文件只是需要重新下载链接库 其他的不需要 本压缩文件中带有Windows下的链接库但是没有linux下的链接库
完整版《Python和HDF5大数据应用》 ... 通过真实世界的例子以及动手练习,你将依次学习科学数据集、层次性组织的组、用户定义的元数据,以及有互操作性的文件等主题。本书的例子对于Python2和Python3都适用。
HDFExplorer(MODIS数据查看神器),无需安装专业遥感软件,可以直接查看hdf格式的MODIS影像数据,方便快捷。
8.4 HDF数据格式转换工具 8.5 HDF数据压缩工具 第九章 使用JHV浏览HDF文件 9.1 本章简介 9.2 什么是JHV 9.3 获取和安装JHV 9.4 显示HDF对象的树状结构 9.5 显示文件和数据对象的注解 9.6 显示Vdatas 9.7 显示光栅...
HDF是一种广泛用于科学数据共享的国际标准数据格式,正确高效地读取HDF文件数据是对其进行应用的基础。本文首先介绍了HDF文件格式,以及几种常用的HDF文件读取方式和各自的优缺点。在此基础上,详细给出了MATLAB读取...
Arcgis使用Python代码将MODIS数据(hdf格式)中的某一类产品进行批量提取出来,代码注释详细,只需更改MODIS数据所在路径,提取结果输出路径,以及所要提取产品子集的序号即可
本软件适用于HDF4和HDF5文件的读取,可方便处理各类卫星数据
用来处理MODIS HDF数据的相关资料,来自官方网站
HDF是用于存储和分发科学数据的一种自我描述、多对象文件格式。一个HDF 文件应包括一个文件头,一个或多个描述符块,若干个数据元素。数据头是用来确定一个文件是否为HDF文件,描述符块存有数据描述符的序号。一个...
适用于进行小实验时练习使用,除了上述基于pyhdf和h5py的示例外,还给出了基于gdal处理HDF4和HDF5格式数据的示例。
MODIS数据HDF格式数据查看器,通过该软件,可以方便地查看原始MODIS数据的像元值,无效值等。
modelNet40、ModelNet10、以及ModelNet_resample和modelNet_hdf5等四种数据集
arcpy实现的将hdf格式文件转换为tif格式的文件;可以作为arcgis的插件使用,也可以作为独立的第三方功能函数。