1.6 – Almacenamiento de la información, soportes y formatos. Capacidades y medidas.

Desde que surgieron las primeras formas de escritura hasta los centros de datos modernos, la raza humana no ha dejado de recopilar información. El crecimiento del sector tecnológico ha provocado el aumento desmesurado del volumen de datos, por lo que son necesarios sistemas de almacenamiento de datos más sofisticados.

El Censo de los Estados Unidos del año 1880 tardó ocho años en tabularse, y se calcula que el censo de 1890 hubiera necesitado más de 10 años para procesarse con los métodos disponibles en la época. Si no se hubieran realizado avances en la metodología, la tabulación no habría finalizado antes de que tuviera que realizarse el censo de 1900.

La sobrecarga de información prosiguió con el aumento desmesurado de la población en los Estados Unidos, la emisión de los números de la seguridad social y el crecimiento general del conocimiento (y la investigación), aspectos que exigían un registro de la información más preciso y organizado.

Las bibliotecas, fuente original de la organización y el almacenamiento de datos, tuvieron que adaptar sus métodos de almacenamiento para responder al rápido aumento de la demanda de nuevas publicaciones e investigación.

Los académicos comenzaron a denominar a esta increíble expansión de la información como la «explosión de la información». La primera señal de aviso sobre el crecimiento del conocimiento como problema inminente a la hora de almacenar y recuperar los datos tuvo lugar en 1944, cuando Fremont Rider, bibliotecario de la Universidad Wesleyana, calculó que las bibliotecas de las universidades de EE. UU. duplicaban su tamaño cada dieciséis años. Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale tendría en el año 2040 «aproximadamente 200.000.000 de volúmenes, que ocuparían 9656 km de estanterías… por lo que se necesitaría un personal de catalogado de más de seis mil personas».

A principios de la década de 1960, Price observó que la enorme mayoría de investigación científica suponía un esfuerzo abrumador para los humanos. Los resúmenes documentales, creados a finales de la década de 1800 como forma de gestionar los conocimientos, cada vez de mayor volumen, crecían también con la misma progresión (multiplicándose por un factor de diez cada cincuenta años), y ya habían alcanzado una magnitud preocupante. Habían dejado de ser una solución de almacenamiento o de organización de la información.

La información no solo se encontraba en pleno auge en el sector científico, también lo estaba en el sector de los negocios. Debido a la influencia que tuvo la información en la década de 1960, la mayoría de organizaciones empezaron a diseñar, desarrollar e implementar sistemas informáticos que les permitían automatizar los sistemas de inventario.

Base de datos relacional

En el año 1970, Edgar F. Codd, un matemático formado en Oxford que trabajaba en IBM Research Lab, publicó un artículo en el que se explicaba la forma en la que podía accederse a la información almacenada en bases de datos de gran tamaño sin saber cómo estaba estructurada la información o dónde residía dentro de la base de datos. Hasta ese momento, para recuperar la información se necesitaban conocimientos informáticos relativamente sofisticados, e incluso hasta los servicios de especialistas, por lo que se convertía en una tarea ardua que exigía tiempo y recursos económicos. Hoy en día, la mayoría de transacciones de datos rutinarias —acceder a cuentas bancarias, utilizar tarjetas de crédito, comerciar con acciones, realizar reservas de viaje, realizar compras a través de Internet— utilizan estructuras basadas en la teoría de la base de datos relacional.

Explosión de la World Wide Web

En la década de 1990 se produjo un crecimiento tecnológico explosivo, y los datos de la Inteligencia empresarial comenzaron a apilarse en forma de documentos de Microsoft Excel.

El futuro del almacenamiento de datos

Michael Lesk publicó How much information is there in the world?. Su conclusión fue que «Puede que la cantidad de información ascienda a varios miles de petabytes, y la producción de cinta y disco alcanzará ese nivel en el año 2000. Esto significa que, en unos años, (a) podremos guardarlo todo, no será necesario eliminar información, y que (b) la mayoría de la información jamás será consultada por un ser humano».

¿Cuánta información?

El estudio How Much Information? 2009 Report on American Consumers, realizado por Global Information Industry Center, revela que, en el año 2008, «los americanos consumieron la información equivalente a unos 1,3 billones de horas, lo que supone una media de 12 horas al día. El consumo total fue de 3,6 zettabytes y de 10.845 billones de palabras, lo que equivale a una media de 100.500 palabras y 34 gigabytes por persona al día». Este estudio tuvo su continuación en un informe, realizado en enero de 2011, titulado «How Much Information? 2010 Report on Enterprise Server Information», en el que se calculó que, en el año 2008, «los servidores del mundo procesaron 9,57 zettabytes de información, casi 10 elevado a la 22.ª potencia, o diez millones de millones de gigabytes. Esto equivale a 12 gigabytes de información al día de un trabajador medio, o a unos 3 terabytes de información por trabajador al año. Las distintas empresas del mundo procesaron, de media, 63 terabytes de información al año».

El crecimiento real de los datos

En un artículo titulado The World’s Technological Capacity to Store, Communicate, and Compute Information de Science Magazine, se calculó que la capacidad mundial de almacenamiento de información creció a una tasa anual del 25 % anual desde 1987 hasta 2007. En el mismo sentido, se afirmó que en el año 1986, el 99,2 % del almacenamiento de datos era analógico, pero en 2007 el 94 % de dicho almacenamiento era digital. Esto supone un cambio radical en un periodo de tiempo de tan solo 20 años (en 2002, el almacenamiento digital superó al no digital por primera vez).
La producción de datos aumenta a un ritmo espectacular. Entre los principales motivos que llevan a este cambio se incluyen el cambio de tecnologías analógicas a digitales y el rápido aumento en la generación de datos, tanto por particulares como por grandes empresas.

Soportes de almacenamiento de datos

El soporte de almacenamiento de datos o el medio de almacenamiento de datos es el material físico donde se almacenan los datos de la computadora, dispositivo electrónico o sistema informático.

Estudiaremos los diferentes soportes de almacenamiento desde la Wikipedia.

Capacidades y medidas

Hoy en día casi todos en el mundo están más o menos familiarizados con términos como megabyte, gigabytes, memoria, disco duro, etc. Todos hablamos de archivos, de lo que ocupan en nuestras computadoras, de lo que tardan las descargas en Internet, pero la verdad es que se desconoce (en muchos casos) como se almacena y distribuye esa información. Aquí daremos una explicación más o menos sencilla de las unidades básicas de información y almacenamiento de datos.

Empecemos con algunos conceptos:

Bit (b)

Un Bit es el acrónimo de Binary digit (dígito binario). Un bit es un dígito del sistema de numeración binario. Un sistema de numeración es un conjunto de símbolos y reglas de generación que permiten construir todos los números válidos y el sistema binario, en matemáticas e informática, es un sistema de numeración en el que los números se representan utilizando solamente las cifras cero y uno (0 y 1).

En pocas palabras, y como ya muchos sospechan: las computadoras solo entienden 0 y 1. Esto se debe principalmente a que trabajan con voltajes internos: encendido = 1 y apagado = 0.

Pues bien un bit o dígito binario puede representar uno de esos dos valores, 0 ó 1.

El bit es la unidad mínima de información empleada en informática, en cualquier dispositivo digital, o en la teoría de la información. Con él, podemos representar dos valores cuales quiera, como verdadero o falso, abierto o cerrado, blanco o negro, norte o sur, masculino o femenino, rojo o azul, etc. Basta con asignar uno de esos valores al estado de “apagado” (0), y el otro al estado de “encendido” (1).

Cuando se habla de CPUs o microprocesadores de 4, 8, 16, 32, 64 bits, se refiere al tamaño, en número de bits, que tienen los registros internos del procesador y también a la capacidad de procesamiento de la Unidad aritmético lógica (ALU). Un microprocesador de 4 bits tiene registros de 4 bits y la ALU hace operaciones con los datos en esos registros de 4 bits, mientras que un procesador de 8 bits tiene registros y procesa los datos en grupos de 8 bits.

unidadesinformacion

Byte (B)

Un Byte u octeto, es una secuencia de bits contiguos, cuyo tamaño depende del código de información o código de caracteres en que sea definido.
Se usa comúnmente como unidad básica de almacenamiento de datos en combinación con los prefijos de cantidad. Originalmente el byte fue elegido para ser un submúltiplo del tamaño de palabra de un ordenador, desde cinco a doce bits.

Así que tenemos que un byte = 8 bits

Kilobyte (kB)

El kB es una unidad de almacenamiento de información que equivale a 10^3 bytes. El término kilobyte y el símbolo kB se han utilizado históricamente para hacer referencia tanto a 1024 (2^10) bytes como a 1000 (10^3) bytes, dependiendo del contexto, en los campos de la informática y de la tecnología de la información.

En los inicios de la informática, las unidades se mostraban como múltiplos de 1000, pero en los años 60 se empezó a confundir 1000 con 1024, puesto que la memoria de los ordenadores trabaja en base binaria y no decimal. El problema radicó al nombrar estas unidades, ya que se adoptaron los nombres de los prefijos del Sistema Internacional de Medidas. Dada la similitud en las cantidades, se utilizaron los prefijos de base mil que se aplican a las unidades del sistema internacional (tales como el metro, el gramo, el voltio o el amperio). Sin embargo, etimológicamente es incorrecto utilizar estos prefijos (de base decimal) para nombrar múltiplos en base binaria. Como ocurre en el caso del kilobyte, a pesar de que 1024 se aproxime a 1000.

Kibibyte

Un kibibyte (contracción de kilobyte binario) es una unidad de información o almacenamiento de datos. Corresponde a 2^10 bytes, es decir 1024 bytes. Se representa con el símbolo KiB con K mayúscula.

Megabyte

El megabyte (MB) o megaocteto (Mo) es una unidad de medida de cantidad de datos informáticos. Es un múltiplo del byte u octeto, que equivale a 10^6 B (un millón de bytes). Se representa por MB y no por Mb, cuya correspondencia equivaldría a megabit. Coloquialmente a los megabytes se les denomina megas.

Es la unidad más típica actualmente, junto al múltiplo inmediatamente superior, el gigabyte, usándose para especificar la capacidad de la memoria RAM, de las memorias de tarjetas gráficas, de los CD-ROM, o el tamaño de los programas, de los archivos grandes, etc. La capacidad de almacenamiento se mide habitualmente en gigabytes, es decir, en miles de megabytes.

Mebibyte

Un mebibyte (contracción de megabyte binario) o, en su forma abreviada, MiB, es una unidad de información o memoria cuyo valor es de 2^20 equivalente a 1.048.576 bytes.

Gigabyte

Un gigabyte es una unidad de almacenamiento de información cuyo símbolo es el GB, equivale a 10^9 bytes. Esta es una unidad de almacenamiento
muy usada hoy en día en discos duros y unidades SSD, por ejemplo un disco duro de 500 GB o una unidad SSD de 120 GB de capacidad.

Este término puede ser fácilmente confundido con Gigabit, que es 1/8 de un gigabyte, puesto que está referido a bits en lugar de a bytes, y se abrevia como Gb o Gbit; se usa principalmente para describir el ancho de banda y las tasas de transmisión de flujos de datos de alta velocidad (por ejemplo: la velocidad actual de las interfaces de fibra óptica es de 2 Gbit por segundo).

Gibibyte

Un gibibyte (contracción de gigabyte binario) es una unidad de información o almacenamiento de datos. Corresponde a 2^30 bytes, es decir 1.073.741.824 bytes. Se representa con el símbolo GiB.

Terabyte

Un terabyte es una unidad de almacenamiento de información cuyo símbolo es el TB, y equivale a 10^12 bytes. Adoptado en 1960, el prefijo tera viene del significado griego “monstruo o bestia”.

1 TB = 10^3 GB = 10^6 MB = 10^9 kB = 10^12 bytes

Tebibyte

Tebibyte es una unidad de almacenamiento de información. Corresponde a 2^40 bytes, es decir 1.099.511.627.776 bytes. Se representa con el símbolo TiB. El empleo del prefijo “tebi” (tera binario) se debe a que es la potencia de 2 que más se aproxima a “tera”, prefijo cuyo valor es 10^12, es decir, 1.000.000.000.000.

Petabyte

Un petabyte es una unidad de almacenamiento de información cuyo símbolo es el PB, y equivale a 10^15 bytes = 1.000.000.000.000.000 de bytes. El prefijo peta viene del significado griego “cinco”, pues equivale a 1000^5 ó 10^15. Está basado en el modelo de tera, que viene del griego ‘monstruo’.

Como ejemplo de esta unidad podemos mencionar Google, quien procesa sobre 20 petabytes de datos cada día (posiblemente más); filmar la vida de una persona (100 años) en alta definición (10 megapíxels, 50 fotogramas por segundo) ocuparía 0,5 petabytes. Facebook tiene 60 mil millones de imágenes, lo que supone 1,5 petabytes de almacenamiento y crece a un ritmo de 220 millones de imágenes por semana.

Estos ejemplos nos dan una idea de lo que es un petabyte!

Pebibyte

Pebibyte es la denominación de una Unidad de almacenamiento de información. Corresponde a 2^50 bytes, es decir, 1.125.899.906.842.624 bytes. Se representa con el símbolo PiB. El empleo del prefijo «pebi» (peta binario) se debe a que es la potencia de 2 que más se aproxima a “peta”, prefijo cuyo valor es 1015, es decir, 1.000.000.000.000.000.

Exabyte

Un exabyte es una unidad de medida de almacenamiento de información cuyo símbolo es el EB, equivale a 10^18 bytes. El prefijo viene adoptado en 1991 del griego, con significado “seis” (como hexa-), pues equivale a 1000^6.

Tomemos como ejemplo el tráfico anual que puede tener Internet, se estima entre 5 y 9 exabytes. Del mismo modo, el tamaño de Internet (entendido como almacenamiento digital global) se estima en cerca de 500 exabytes.

Zettabyte

Un zettabyte es una unidad de almacenamiento de información cuyo símbolo es el ZB, equivale a 10^21 bytes. El prefijo viene adoptado del latín “septem” en 1991, que significa siete (como hepta-), pues equivale a 1000^7.

Como ejemplo, se ha estimado que a finales del año 2010 se alcanzó la cifra de 1,2 ZB de datos almacenados (a nivel mundial), y que estos datos alcanzarían los 1,8 ZB en 2011. Bastante!

Yottabyte

Un yottabyte es una unidad de almacenamiento de información cuyo símbolo es el YB, y equivale a 1024 bytes. Adoptado en 1991, el prefijo yotta viene del griego okto, que significa “ocho”.

Resumen

Hagamos un pequeño resumen, ya que esto puede resultar un poco complicado

1 bit = unidad mínima de almacenamiento, sistema binario (0 ó 1).
1 byte (B) = 8 bit
1 kB = 1024 byte
1 MB = 1024 kB
1 GB = 1024 MB
1 TB = 1024 GB
1 PB = 1024 TB
1 EB = 1024 PB

Hay medidas que, por su enormidad, casi escapan a nuestra comprensión. Ya existen en el mercado discos duros de 1 terabyte, y quizás dentro de pronto ya podremos ver los de petabyte o exabyte. ¿y el yottabyte? El yottabyte es todavía una enormidad de proporciones gigantescas y algo tan difícil de imaginar a medio plazo que la mayoría ni si quiera ha oído hablar de él. Quizás debamos esperar algún tiempo antes de ver unidades de almacenamiento de este tipo en las tiendas.

Terabyte: un disco duro de 1 solo terabyte permite almacenar 200.000 fotografías o canciones mp3.
Petabyte: equivaldría a 16 bloques de almacenamiento de los utilizados por Backblaze, alojados en dos cabinas de su centro de datos.
Exabyte: necesitaríamos 2.000 cabinas. O lo que es lo mismo: un centro de datos de 4 pisos.
Zettabyte: serían necesarios 1.000 centros de datos, lo que equivaldría a un 20% del tamaño de Manhattan, Nueva York.
Yottabyte: llenaríamos los estados de Delaware y Rhode Island, con 1 millón de centros de datos en total.
Un disco duro de 1 terabyte cuesta hoy en día unos 100 dólares. El coste equivalente de un yottabyte a día de hoy sería de 100 billones de dólares. En comparación, el producto interior bruto de Estados Unidos es de sólo 14 billones, el de Europa, 18 y el del mundo entero, 61 billones.

Unidades de almacenamiento

Aclaración: muchos fabricantes utilizan el sistema decimal como estándar de medida de capacidad.

Discos duros

disco_duroEl HDD (hard disk drive, disco rígido o disco duro) es un dispositivo de almacenamiento de datos no volátil que emplea un sistema de grabación magnética para almacenar datos digitales. Se compone de uno o más platos o discos rígidos, unidos por un mismo eje que gira a gran velocidad dentro de una caja metálica sellada. Sobre cada plato, y en cada una de sus caras, se sitúa un cabezal de lectura/escritura que flota sobre una delgada lámina de aire generada por la rotación de los discos. Todos los datos son grabados en discos magnéticos, y mientras más finos sean, mejor será la grabación. Dependiendo las características de esos discos, los HDD pueden tener capacidades de almacenamiento muy diferentes.

Los discos duros miden sus capacidades de almacenamiento en Megabytes (antiguamente), gigabytes y terabytes. Al menos hasta ahora estas son las unidades más comunes.

La tecnología inicial aplicada a los discos duros era relativamente simple. Consistía en recubrir con material magnético un disco de metal que era formateado en pistas concéntricas, que luego eran divididas en sectores. El cabezal magnético codificaba información al magnetizar diminutas secciones del disco duro, empleando un código binario de «ceros» y «unos». Los bits o dígitos binarios así grabados pueden permanecer intactos años. Originalmente, cada bit tenía una disposición horizontal en la superficie magnética del disco, pero luego se descubrió cómo registrar la información de una manera más compacta.

Dentro de un disco duro hay uno o varios discos (de aluminio o cristal) concéntricos llamados platos (normalmente entre 2 y 4, aunque pueden ser hasta 6 ó 7 según el modelo), y que giran todos a la vez sobre el mismo eje, al que están unidos. El cabezal (dispositivo de lectura y escritura) está formado por un conjunto de brazos paralelos a los platos, alineados verticalmente y que también se desplazan de forma simultánea, en cuya punta están las cabezas de lectura/escritura. Por norma general hay una cabeza de lectura/escritura para cada superficie de cada plato. Los cabezales pueden moverse hacia el interior o el exterior de los platos, lo cual combinado con la rotación de los mismos permite que los cabezales puedan alcanzar cualquier posición de la superficie de los platos.

Si hablamos de disco duro podemos citar los distintos tipos de conexión que poseen los mismos con la placa base, es decir pueden ser SATA, IDE, SCSI o SAS

SSD (Unidad de estado sólida)

ssdUna unidad de estado sólido o SSD (acrónimo en inglés de solid-state drive) es un dispositivo de almacenamiento de datos que usa una memoria no volátil, como la memoria flash, o una memoria volátil como la SDRAM, para almacenar datos, en lugar de los platos giratorios magnéticos encontrados en los discos duros convencionales. En comparación con los discos duros tradicionales, las unidades de estado sólido son menos susceptibles a golpes, son prácticamente inaudibles y tienen un menor tiempo de acceso y de latencia. Los SSD hacen uso de la misma interfaz que los discos duros, y por tanto son fácilmente intercambiables sin tener que recurrir a adaptadores o tarjetas de expansión para compatibilizarlos con el equipo.

Si hacemos una comparación rápida entre HDD y SSD lo primero que notamos son las velocidades de escritura y lectura, los SSD son mucho más rápidos que los HDD, su tiempo de vida es superior, son mucho más resistentes a golpes pero también son mucho más caros.

También se han desarrollado dispositivos que combinan ambas tecnologías, es decir discos duros y memorias flash, y se denominan discos duros híbridos, que resultan en mejores prestaciones que los discos duros convencionales y son más económicos que los SSD pero no tan rápidos como estos.

Las unidades híbridas son aquellas que combinan las ventajas de las unidades mecánicas convencionales con las de las unidades de estado sólido. Consisten en acoplar un conjunto de unidades de memoria flash dentro de la unidad mecánica, utilizando el área de estado sólido para el almacenamiento dinámico de datos de uso frecuente (determinado por el software de la unidad) y el área mecánica para el almacenamiento masivo de datos. Con esto se logra un rendimiento cercano al de unidades de estado sólido a un costo sustancialmente menor.

Al no poseer componentes electromecánicos para la lectura de los archivos, los SSD son completamente silenciosos. Esto también facilita el acceso a los datos, algo primordial para quienes necesitan velocidad (a diferencia de los discos rígidos, donde el ‘brazo’ mecánico de lectura necesita ir de una punta a otra para poder leer determinada información) el SSD tiene todo a mano. Además trabaja con menos temperatura y consume menos energía.

Los equipos que más utilizan SSD son los smartphones, las tablets y las netbooks, sin olvidar las máquinas fotográficas digitales, que utilizan este tipo de almacenamiento. Todos estos tipos de equipos no necesitan una memoria muy grande, pero necesitan que el tiempo de respuesta sea lo más rápido posible.

No existe mejor o peor modo de almacenamiento para los archivos, todo depende principalmente de las necesidades de cada usuario.

Las Unidades de estado sólido han sido categorizadas repetidas veces como “discos”, cuando es totalmente incorrecto denominarlas así, puesto que a diferencia de sus predecesores, sus datos no se almacenan sobre superficies cilíndricas ni platos. Esta confusión conlleva habitualmente a creer que “SSD” significa Solid State Disk, en vez de Solid State Drive, que es lo correcto.

Deja un comentario