Snowflake: The Data Cloud

Snowflake es un almacén de datos construido sobre los servicios web de Amazon o la infraestructura en la nube de Microsoft Azure. No hay hardware o software para seleccionar, instalar, configurar o administrar, por lo que es ideal para organizaciones que no quieren dedicar recursos a la configuración, mantenimiento y soporte de servidores internos. Y los datos se pueden mover fácilmente a Snowflake utilizando una solución ETL como Stitch .

No hace mucho tiempo, configurar un almacén de datos significaba comprar un dispositivo de hardware costoso y especialmente diseñado y ejecutarlo en su centro de datos. Por el contrario, Snowflake es un almacén de datos proporcionado como software como servicio (SaaS).

Entonces, ¿qué tiene de diferente Snowflake?

Snowflake está diseñado para la nube desde cero. Ofrece la flexibilidad y la eficiencia que simplemente no es posible con un almacén de datos tradicional.

Pero lo que distingue a Snowflake es su arquitectura y sus capacidades de intercambio de datos. La arquitectura Snowflake permite que el almacenamiento y la computación se escalen de forma independiente, por lo que los clientes pueden usar y pagar por el almacenamiento y la computación por separado. Y la funcionalidad para compartir facilita que las organizaciones compartan rápidamente datos controlados y seguros en tiempo real.

Snowflake: Arquitectura de copo de nieve

¿Recuerda cuando comprar un servicio de televisión por cable significaba que la infraestructura y el contenido eran un paquete? Hoy, esas cosas son distintas (pero integradas) y, en su mayor parte, las personas tienen más control sobre lo que usan y cómo lo pagan.

La arquitectura de Snowflake permite una flexibilidad similar con big data . Snowflake desacopla las funciones de almacenamiento y computación, lo que significa que las organizaciones que tienen altas demandas de almacenamiento pero menos necesidad de ciclos de CPU, o viceversa, no tienen que pagar por un paquete integrado que les obliga a pagar por ambos. Los usuarios pueden escalar hacia arriba o hacia abajo según sea necesario y pagar solo por los recursos que utilizan. El almacenamiento se factura por terabytes almacenados por mes y los cálculos se facturan por segundo.

De hecho, la arquitectura Snowflake consta de tres capas, cada una de las cuales es escalable de forma independiente: almacenamiento, computación y servicios.

Almacenamiento de base de datos

La capa de almacenamiento de la base de datos contiene todos los datos cargados en Snowflake, incluidos los datos estructurados y semiestructurados. Snowflake gestiona automáticamente todos los aspectos de cómo se almacenan los datos: organización, tamaño de archivo, estructura, compresión, metadatos y estadísticas. Esta capa de almacenamiento se ejecuta independientemente de los recursos informáticos.

Capa de cálculo

La capa informática está formada por almacenes virtuales que ejecutan las tareas de procesamiento de datos necesarias para las consultas. Cada almacén virtual (o clúster) puede acceder a todos los datos en la capa de almacenamiento y luego trabajar de forma independiente, por lo que los almacenes no comparten ni compiten por los recursos informáticos. Esto permite un escalado automático y sin interrupciones, lo que significa que mientras se ejecutan las consultas, los recursos informáticos pueden escalar sin la necesidad de redistribuir o reequilibrar los datos en la capa de almacenamiento.

Servicios en la nube

La capa de servicios en la nube utiliza ANSI SQL y coordina todo el sistema. Elimina la necesidad de gestión y ajuste manual del almacén de datos. Los servicios de esta capa incluyen:

  • Autenticación
  • Gestión de infraestructura
  • Gestión de metadatos
  • Análisis y optimización de consultas
  • Control de acceso

5 beneficios de Snowflake para su negocio

Snowflake está diseñado específicamente para la nube y está diseñado para abordar muchos de los problemas que se encuentran en almacenes de datos antiguos basados ​​en hardware, como escalabilidad limitada, problemas de transformación de datos y retrasos o fallas debido a altos volúmenes de consultas. A continuación, presentamos cinco formas en las que un almacén de datos Snowflake puede beneficiar a su empresa.

Rendimiento y velocidad

La naturaleza elástica de la nube significa que si desea cargar datos más rápido o ejecutar un gran volumen de consultas, puede ampliar su almacén virtual para aprovechar los recursos informáticos adicionales. Luego, puede reducir el almacén virtual y pagar solo por el tiempo que utilizó.

Almacenamiento y soporte de datos estructurados y semiestructurados

Puede combinar datos estructurados y semiestructurados para su análisis y cargarlos en la base de datos en la nube sin necesidad de convertirlos o transformarlos primero en un esquema relacional fijo. Snowflake optimiza automáticamente cómo se almacenan y consultan los datos.

Simultaneidad y accesibilidad

Con un almacén de datos tradicional y una gran cantidad de usuarios o casos de uso, puede experimentar problemas de concurrencia (como retrasos o fallas) cuando demasiadas consultas compiten por los recursos.

Snowflake aborda los problemas de concurrencia con su arquitectura multiclúster única: las consultas de un almacén virtual nunca afectan las consultas de otro, y cada almacén virtual puede escalar hacia arriba o hacia abajo según sea necesario. Los analistas de datos y los científicos de datos pueden obtener lo que necesitan, cuando lo necesitan, sin esperar a que se completen otras tareas de carga y procesamiento.

Intercambio de datos sin problemas

La arquitectura de Snowflake permite compartir datos entre los usuarios de Snowflake. También permite a las organizaciones compartir datos sin problemas con cualquier consumidor de datos, ya sea cliente de Snowflake o no, a través de cuentas de lector que se pueden crear directamente desde la interfaz de usuario. Esta funcionalidad permite al proveedor crear y administrar una cuenta de Snowflake para un consumidor.

Disponibilidad y seguridad

Snowflake se distribuye en las zonas de disponibilidad de la plataforma en la que se ejecuta, ya sea AWS o Azure, y está diseñado para funcionar de forma continua y tolerar fallas de componentes y redes con un impacto mínimo para los clientes. Tiene la certificación SOC 2 Tipo II y se encuentran disponibles niveles adicionales de seguridad, como soporte para datos PHI para clientes de HIPAA y cifrado en todas las comunicaciones de red.

Conecta tu ecosistema

Si tiene un ecosistema de datos diverso o una base de datos de soluciones de IoT, querrá un almacén de datos basado en la nube que ofrezca una expansión, escalabilidad y facilidad de uso casi infinitas. Y necesitará una solución de integración de datos que esté optimizada para el funcionamiento en la nube. El uso de Stitch para extraer y cargar datos simplifica la migración y los usuarios pueden ejecutar transformaciones en los datos almacenados en Snowflake.