Un nou compressor de dades permet reduir la mida del catàleg de la missió Gaia en un 15 %
El grup Gaia de la Universitat de Barcelona (IEEC-ICCUB), en col·laboració amb DapcomM Data Services, una spin off participada per la UB i la UPC, ha publicat una còpia alternativa del gruix dels fitxers del segon catàleg de la missió Gaia (Gaia DR2), que recull dades de 1.700 milions dʼestrelles. La còpia sʼha fet en FAPEC Archiver 19.0, un format nou que permet reduir la mida dels arxius un 15 % més que els compressors habituals.
El grup Gaia de la Universitat de Barcelona (IEEC-ICCUB), en col·laboració amb DapcomM Data Services, una spin off participada per la UB i la UPC, ha publicat una còpia alternativa del gruix dels fitxers del segon catàleg de la missió Gaia (Gaia DR2), que recull dades de 1.700 milions dʼestrelles. La còpia sʼha fet en FAPEC Archiver 19.0, un format nou que permet reduir la mida dels arxius un 15 % més que els compressors habituals.
FAPEC Archiver 19.0 és un programari professional de compressió de dades que ofereix una alta capacitat de compressió amb una gran rapidesa dʼexecució. Una de les opcions que proporciona és la compressió de fitxers de text tabulats (tipus CSV), com els del gruix de Gaia DR2. Per mostrar les capacitats de FAPEC, Dapcom ha convertit tots els fitxers CSV de Gaia DR2 a aquest format, fet que nʼha reduït la mida total: dels 554 GB originals (en format GZip) sʼha passat a només 471 GB, és a dir, FAPEC comprimeix aquests fitxers CSV un 15 % més que GZip. Altres compressors de dades com BZip2, RAR, Zstandard o 7-Zip no arriben a aquesta capacitat de reducció.
El catàleg de Gaia DR2, a més de la posició de 1.700 milions d'estrelles, inclou dades sobre la distància, el moviment i el color de més de 1.300 milions d'estrelles de la Via Làctia i de galàxies properes. A més del catàleg en línia —publicat en obert el 25 dʼabril de 2018—, es va posar a disposició de la comunitat científica una versió del catàleg en fitxers CSV per a la descàrrega. Aquesta opció permet fer unes anàlisis més exhaustives de les dades.
Rapidesa, eficiència i adaptabilitat
Aquest nou programari ofereix una millora en la compressió de dades que pot oscil·lar, típicament, entre un 10 i un 15 % respecte a altres estàndards de facto com el Zip. En diversos casos, la millora pot arribar a ser del 50 % o fins i tot del 100 %, és a dir, que pot arribar a doblar la compressió aconseguida per altres sistemes. El factor de compressió depèn principalment del tipus de dades. FAPEC suporta fitxers binaris i de text (com els esmentats CSV), sèries temporals, matrius multidimensionals, imatges amb diverses bandes de color, o formats específics com els usats en genòmica.
Un altre dels avantatges principals és la gran rapidesa en el procés de compressió, així com la possibilitat dʼadaptar-se al cas particular d'un tipus concret de dades, com ara un experiment científic, un sensor o una càmera. Actualment, FAPEC sʼestà fent servir, per exemple, per comprimir dades de radioocultació GNSS a bord de satèl·lits.
Grans volums de dades
FAPEC és un compressor pensat per a professionals que treballen amb grans volums de dades: experiments científics, instruments dʼalt rendiment, entorns de recerca, o fins i tot fotografia professional. En el camp de la recerca, a més de la física o lʼastronomia, es pot aplicar a dades de sondes marines utilitzades en geociències, en el camp de la genòmica, o en medicina (ressonàncies magnètiques, per exemple).