Categoría: Artículos

Autor: Diego Benavides

Gerente de Gobierno y Arquitectura de Datos de Movistar.

25 junio, 2024

. 15 minutos de lectura.

Mis Experiencias durante el Data + AI Summit 2024 + Microsoft EBC

El Data + AI Summit de Databricks es un evento organizado por la misma empresa desde el 2013 cuando el evento aún llevaba nombre de Spark Summit. En el 2020 (entrando en el contexto COVID) decidieron renombrarlo a Spark + AI Summit para cubrir mayor alcance en las tecnologías actuales en el evento y soportado por el renacimiento del interés por la inteligencia artificial debido al reciente auge de la Inteligencia Artificial Generativa. Un año después quedaría el nombre actual, Data + AI Summit.

Este año es interesante notar el crecimiento significativo en el número de asistentes al evento respecto años anteriores. En 2020, sin duda impactado por el contexto COVID, se recibieron más de 7000 asistentes y en un esquema híbrido. En 2023 se llegó a tener una asistencia de más de 12 mil asistentes presenciales. En el 2024, Databricks vuelve a romper su propio record logrando la asistencia de 16 mil personas en modalidad presencial, 60 mil en total (presencial + virtual) y con la representación de 140 países.

Anuncio Ali Ghodsi

Por otro lado, debemos resaltar la gran comunidad que Databricks viene formando a nivel mundial y esto se refleja en 1B+ de descargas por año que registra Apache Spark, 1B+ de descargas por año que registra Delta Lake, 200M+ de descargas por año que registra MLFlow y 12M de líneas de código escritas por empleados de Databricks que han contribuído al proyecto Open Source.

Finalmente, y no era extraño de esperar, la inteligencia artificial (IA) tuvo un gran espacio como parte de los tópicos resaltantes del evento en todo sentido (keynotes, sesiones, sala de proveedores, y braindates). En la sección de anuncios de este articulo daré mi punto de vista de cómo entender los anuncios respecto a IA pero aquí me quedo con el resumen de algunos mensajes importantes que dió el CEO de Databricks, Ali Ghodsi, respecto a lo que debe ser de nuestro interés respecto a IA en este momento.

Ali comienza quizás con una de las declaraciones más recurrentes del equipo de Databricks de los últimos meses, "Cada compañía en el planeta ahora quiere ser una compañía de datos en IA", resaltando que los CEOs y CIOs referentes en el medio, consideran que los datos y la IA serán super estratégicos en los próximos 5 años. Luego, tras señalar que tanto la comunidad de investigadores y la empresa privada tienen como principal objetivo democratizar la IA, nos pasó a listar los problemas que debemos tratar de abordar juntos en este nuevo viaje 1) ¿Quién es el propietario de la IA? 2) ¿Cómo abordar los temas de seguridad y privicidad de los datos y de la IA Generativa? 3) ¿Cómo abordamos la fragmentación de los datos?

Algunos de estos desafíos no nos son indiferentes y vienen de la era del Big Data, específicamente el punto 3) quizás con ciertos matices. Mi interés se enfocó en el punto 1) y 2) al ser actualmente la Inteligencia Artificial Generativa (IAGen) tema tendencia en todos los foros estratégicos de negocio, de datos y analítica. Sin embargo, debo resaltar que el enfoque de plataforma de datos moderna cada vez viene teniendo mayor entendimiento por la comunidad y gran parte de nosotros estamos de acuerdo en que es necesario reducir la complejidad de nuestros ecosistemas de datos para reducir los costos y evitar el conocido bloqueo por proveedor.

Desde mi entendimiento a los mensajes que deja Ali respecto del punto 1), puedo concluir que es de vital importancia definir correctamente las responsabilidades que involucra poner una solución de IAGen en producción. Esto se debe ver desde el punto de vista técnico como también desde el punto de vista legal y de negocio, y que en conjunto se garantice un valor sostenible a la organización. Ali, resalta al inicio el último textit{Benchmark} más conocido (MMLU) de modelos linguísticos grandes (LLMs) pero al mismo tiempo le resta importancia destacando que actualmente la preocupación debe enfocarse en identificar el por qué actualmente el 85% de solución de IAGen no llegan a producción.

MMLU Benchmarks

I don´t care about standard benchmarks; I want the model to do well on my data ...

Su mensaje final resalta tres puntos que debemos tener en consideración al momento de poner en marcha un proyecto de IA Gen. 1) debemos garantizar que el modelo haga bien las tareas que queremos que la solución ejecute, 2) asegurar que sea costo-eficiente desde un inicio y 3) que garantice la privacidad de los datos y la seguridad de la solución. Este último punto viene siendo de gran preocupación desde ya varios años atrás por la comunidad y por el gobierno de varios países en el mundo. Se habla mucho de utilizar la IA de manera ética en beneficio de las personas evitando cualquier tipo de sesgo. En ese sentido, se insta a las organizaciones a estar al tanto de las regulaciones promovidas por las entidades del estado de tal forma en que los datos de las personas se mantengan seguros, la tecnología se use en beneficio ético de las personas y estemos preparados para cualquier tipo de ciber-atáque que se pueda estar planeando a través de estás nuevas tecnologías.

Le pregunté a Lucas Lyon, Gerente de Planificación Comercial de Telefónica Vivo, con quien atendí la primera Keynote, cuáles considera que son los desafíos actuales para democratizar de la IA Generativa en Telefónica Vivo, luego del evento y él respondió:

Lucas Lyon

La democratización de la IA Generativa en Vivo enfrenta varios desafíos significativos. Primero, la implementación de IA generativa requiere una infraestructura robusta y recursos computacionales avanzados, lo que exige inversiones en computación en la nube. Además, los altos costos asociados al desarrollo y a la implementación de estas tecnologías pueden ser prohibitivos, haciendo necesario el uso de estrategias de optimización de costos, como modelos pre-entrenados y asociaciones con startups y universidades. Otro desafío es la capacitación de los colaboradores, desde el nivel más alto hasta incluso quienes están comenzando su carrera, lo cual puede abordarse a través de programas de entrenamiento y talleres.

Las cuestiones de privacidad y seguridad también son primordiales, necesitando protocolos rigurosos y cumplimiento con regulaciones como la LGPD y ANATEL. Además, aspectos éticos, como la generación de contenido engañoso, deben ser cuidadosamente gestionados a través de directrices éticas claras y transparencia en el uso de la IA. La accesibilidad es otra pieza fundamental, requiriendo la creación de interfaces amigables para profesionales no técnicos.

Una de las cuestiones más complejas es la integración con sistemas legados, demandando un enfoque gradual y el uso de APIs y microservicios para garantizar la interoperabilidad. Finalmente, la aceptación cultural de la IA dentro de la organización es vital, siendo promovida a través de una cultura de innovación y la demostración de los beneficios prácticos de la IA para diversos departamentos.

Los Esperados Anuncios

Para ser honesto vengo atendiendo de manera virtual el Data + AI Summit de Databricks desde hace varios años atrás y debo decir que los anuncios que estuvieron dejando en ellos siempre me han dejado satisfecho desde un punto de vista técnico como ingeniero de datos y arquitecto de datos. Anuncios respecto a los avances en las versiones del proyecto Apache Spark o el lanzamiento del concepto Lakehouse me han dejado fascinado y entusiasmado como investigador y profesional en el mundo de la tecnología. Incluso la llegada de Unity Catalog como parte del producto Databricks. Sin embargo, este año puedo decir que hubieron, al menos, 3 anuncios que dejaron en mi una sensación de satisfacción más allá del aspecto técnico. En esta parte quiero resumir mis impresiones en 4 secciones. La primera enfocada en el anuncio de la adquisición de Tabular que fue fundada por los creadores del proyecto Apache Iceberg. La segunda, orientada a la liberación de Unity Catalog como proyecto de código abierto. La tercera respecto al enfoque de democratización de la IAGen que propone Databricks y finalmente la asociación entre NVidia y Databricks.

  • Adquisición de Tabular: Desde un punto de vista técnico la adquisición de Tabular, que tras bambalinas viene con los creadores de proyecto Apache Iceberg y quizás la mayor parte de desarrolladores que vienen evolucionando el proyecto Open Source y toda su experiencia, deja el mensaje de que a futuro los equipos de los proyectos Delta Lake y Apache Iceberg trabajarán para que cada vez estos dos proyectos sean menos diferentes pero satisfaciendo las necesidades de ambas comunidades. Sin embargo, más allá de las implicancias técnicas de lo que esto pueda significar más adelante, me quedo con el mensaje de que Databricks, otras empresas y las comunidades, comienzan a poner manos a la obra para abordar el problema de fragmentación de los datos, reforzando la compatibilidad y la interoperatibilidad entre diferentes tecnologías. Un mensaje bastante fuerte, por cierto, dado que interoperatibilidad es una característica de un producto de datos, que es uno de los pilares de enfoques como DataMesh dentro de los cambios culturales fuertes en una organización.

Delta Lake UniForm

  • Unity Catalog Open Source: La primera vez que vi Unity Catalog como parte del producto de Databricks no deje de pensar en las capacidades que este brindaría a nuestros ecosistemas de datos para mejorar la seguridad y el acceso a los datos. Más allá de que año tras año ha venido evolucionado con aún más capacidades que buscan atender los desafíos enmarcados dentro del gobierno de los datos, este anuncio me dejó como mensaje que Databricks y sus creadores quieren regresar a la esencia misma de proyectos como Apache Hadoop, Apache Spark, Apache Hive, entre otros, y esa esencia, en efecto, es la fuerza colaborativa que estas comunidades demostraron en su momento para hacer crecer estos proyectos de código abierto, y que también demuestran ahora para abordar los grandes desafíos del gobierno de datos en los ecosistemas de datos actuales. Nostalgia y esperanza para el futuro.

Unity Catalog OSS

  • Democratización de la IA Generativa: Parte de la propuesta de Databricks para la democratizar la IA Generativa dentro de las organizaciones se resumen en dos líneas de trabajo bien definidas a mi parecer. Una orientada a brindarle acceso rápido a estas capacidades a usuarios finales o usuarios de negocio que lo único que quieren es acceder cada vez más rápido a los datos y que la generación de Insights sea más sencilla. En ese sentido, Genie de Databricks parece que da una vez más en el clavo. Representación máxima de lo que se conoce como analítica contextual, Genie soportada por una metadata bien estructurada dentro de Unity Catalog, le permite a los usuarios finales utilizar todas las capacidades de generación de contenido a través de IAGen pero focalizados dentro del contexto de los datos de la compañía. La otra línea de trabajo es el marco de trabajo, Mosaic AI, para el ciclo de desarrollo de soluciones de IAGen donde se destacan 5 etapas muy conocidas, la preparación de los datos, la construcción de los modelos, el despliegue de la solución, la evaluación de resultados y el gobierno de los datos, modelos y herramientas.

Mosaic AI

Durante el evento pude compartir algunos espacios con Pedro Bazzarella, Especialista de Planificación Comercial de Telefónica Vivo, a quien le pregunté cómo podría Telefónica Vivo aprovechar las capacidades que ofrece Genie de Databricks, y el respondió:

Pedro Bazzarella

La utilización de la IA para "conversar con nuestros datos" sería una forma práctica y segura de democratizar el acceso a la información para los usuarios (independientemente de conocer o no SQL o cualquier otro lenguaje). Es aplicar cada vez más el concepto de Data Driven y la cultura analítica, pero con gobernanza, seguridad, responsabilidad y asertividad de la información para la mejor toma de decisiones.

  • Nvidia & Databricks, Better together: Seguramente lo más resaltante del primer textit{Keynote} fue el anuncio formal de la asociación entre Nvidia y Databricks de la voz de sus CEO's, Jensen Huang y Ali Ghodsi. Cada uno resaltando la experiencia y el foco de sus empresas. Por el lado de Databricks la experiencia, capacidades y herramientas orientadas al desarrollo de modelos de IA Generativa como DBRX y el procesamiento de datos masivos, y por el lado de Nvidia el foco de trabajo para optimizar las capacidades de computo para procesar macro datos en lo que Jensen previamente había denominado la tendencia de Accelerated Computing. Desde mi punto vista el mensaje más importante de esta parte fue lo dicho por Jensen respecto al trabajo que venían haciendo los últimos 5 años sobre un conjunto de librerías basadas en Apache Spark que actualmente pueden acelerar el procesador Photon. Esto trae como consecuencia el consumo de menos energía para procesar los datos. En definitiva, un compromiso de ambas empresas con la sostenibilidad de nuestro planeta ya que todos somos conscientes del impacto que está causando el computo masivo de datos en los grandes centros de datos para entrenar los grandes modelos de IA generativa.

Nvidia & Databricks

Le pregunté a Felipe Tomazini, Especialista de Soluciones de Datos de Microsoft, qué expectativa le generó la asociación de Nvidia y Databricks, y el respondió:

Felipe Tomazini

Mi expectativa con la asociación entre Databricks y NVIDIA es que se lancen optimizaciones en la ejecución de cargas de trabajo de Data&AI, utilizando computación acelerada en el núcleo de la plataforma Databricks, con enfoque en mejorar la eficiencia, precisión y desempeño de los pipelines en general.

Mirando más específicamente desde el punto de vista de analytics, espero que alcancemos nuevos estándares de mercado para la relación precio x rendimiento, donde veo la posibilidad de un gran destaque para el uso de la tecnología Databricks Photon con soporte nativo de NVIDIA.

Bonus Track: Microsoft EBC - Silicon Valley

Visitar San Francisco y no visitar Silicon Valley para un apasionado de la tecnología debe resultar frustrante. Afortunadamente no es mi caso y de una comitiva de Telefónica Vivo (Brasíl), que acompañados por dos guías, uno de Microsoft LATAM y otro de Databricks LATAM, tuvimos la oportunidad de hacer.

Silicon Valley

La cita estaba pactada para el segundo día del evento de Databricks sabiendo que pudiéramos perdernos algunas sesiones importantes del Summit. Sin embargo, considero que valió toda la pena del mundo.

Todo empezó bien temprano por la mañana. Salimos en conjunto hacia el Valle del Silicio donde nos esperaba las oficinas de Microsoft Technology Center para tomar un desayuno con los anfitriones. Esa mañana tuvimos 3 sesiones donde el equipo de Microsoft nos dio un resumen de todos los productos relacionados con IAGen y su propuesta, entramos en detalles técnicos respecto a cómo se construyen los modelos de IAGen actualmente y para qué se pueden utilizar en una organización, y finalmente nos presentaron su nuevo producto Microsoft Fabric que intenta sintetizar lo mejor del stack de datos en la nube de Azure incluyendo Azure Databricks.

Por la tarde, nos presentaron algunas demostraciones de soluciones futuristas que abarcan casi todas las industrias como banca, retail, manufactura y medicina. Finalmente, dimos un paseo por todas las oficinas donde pudimos experimentar de primera mano cómo es trabajar en una de las empresas más grandes del mundo en el mismo Valle del Silicio.

Retail Demo

Está experiencia es denominada por Microsoft como Executive Briefing Center (EBC) y ofrece un compromiso de nivel ejecutivo con el liderazgo de ingeniería, ventas, industria y funciones comerciales de Microsoft para colaborar en oportunidades de transformación digital con sus clientes. Considero que las reuniones nos inspiraron a generar ideas y propuestas de trabajo en conjunto entre Telefónica Hispam y Telefónica Vivo para poner en práctica los casos de uso que pudimos presenciar de primera mano de los expertos.

Telefónica Vivo + Hispam

Si tienen la oportunidad de vivir esta experiencia no duden en realizarla. Muchas gracias Microsoft y a todo el equipo involucrado en llevar a cabo esta experiencia única.

Guilherme Sepe, Especialista de Ventas Estratégicas de Databricks, quien nos acompañó durante el Microsoft EBC, me dejó la siguiente reflexión respecto de las sesiones de IA Generativa.

Guilherme Sepe

Hasta hace poco, la IA había hecho solo incursiones limitadas en las empresas, pero esto está a punto de cambiar en la era de la IA generativa, que está posibilitando la democratización de los datos y la IA de manera verdaderamente corporativa.

En mi opinión, análogamente al efecto que los computadores trajeron a las organizaciones en los años 90, estamos viviendo un punto de inflexión similar, guardadas las debidas proporciones, donde basta con adoptar la tecnología y te beneficiarás de ella —si aprendes a usar la IA generativa tendrás una buena carrera.