Libros de Cabecera

¿Con qué hago el análisis de datos?

Jorge Béjar Magaldi
Data para mi madre

Nota del editor: Nos complace ofrecer un extracto del libro Data para mi madre escrito por Jorge Béjar Magaldi y publicado por Libros de Cabecera.

El listado de herramientas que existen en el mundillo de Data es infinito. Por un lado, se debe a que es un mundo que ha crecido muchísimo en los últimos años, con lo que todavía está en una fase donde no todo está inventado. La otra gran razón es la amplitud del mercado, pues casi toda empresa tiene que gestionar la parte de Data de un modo u otro. No todo está perdido en el primer párrafo. Que el listado de herramientas sea casi infinito no significa ni que sea inabarcable, ni que sea necesario abarcarlo todo.

No es inabarcable porque muchas herramientas trabajan bajo lógicas muy parecidas, separándolas solamente algunos matices. Podemos agruparlas bajo características comunes y ahí el problema se vuelve mucho más sencillo (lo haremos más adelante). Es la idea culinaria de tener 200 cuchillos superespecializados, pero luego conoces a cualquier chef profesional y te dice que con tres cuchillos vas que chutas. Eso en Data también se da bastante, a veces nos agobia un poco la gran cantidad de herramientas que existen, pero si hablas con cualquiera del mundillo te dirá que con conocer bien tres o cuatro, y dignamente otras tantas, se puede hacer carrera.

Tampoco es necesario abarcarlas todas, primero por lo comentado arriba (agrupadas son muchas menos), y segundo porque en la gran mayoría de casos ni a las empresas ni a los analistas nos conviene irnos a cosas muy especializadas (el mercado se movería mucho menos). En la mayoría de los departamentos de Data se puede hacer todo con las herramientas consideradas normales o estándar en el mundillo. Luego hay algún lugar en que hacen cosas más complicadas o especializadas, y ahí ya se van a herramientas de nicho. Entendida esta idea de que el mundo de las herramientas en Data, a pesar de ser infinito, ni es inabarcable ni hace falta abarcarlo todo, lo que haremos será empezar con las características que los analistas valoramos al juzgar una herramienta de Data. Después te sugiero que te mires el anexo 1, donde he detallado las herramientas más comunes de cada fase, back end, middle end y front end. En tercer lugar, te daré varios ejemplos de empresas reales donde he trabajado, para que veas cómo tenían estructurado el mundo de las herramientas. Por último, hablaré de las herramientas que creo que te conviene conocer de cara a entrar en el mundo de Data con buen pie.

Qué hay que pedirle a una herramienta

Con las herramientas ocurre un poco como con los idiomas: no hay buenos o malos idiomas, el hecho de que unos idiomas se hablen más que otros se explica por razones geopolíticas y económicas, combinadas con su facilidad de aprendizaje. Lo relevante es que de un modo implícito nos hemos puesto de acuerdo en la idea de tener un gran idioma común (el inglés), y luego ya que cada uno en su casa haga lo que quiera. Las herramientas en Data se mueven bajo una lógica parecida. Compensa usarlas en la medida en que sé que podré usarlas en otros lugares. Nadie aprenderá una herramienta poco usada (bajo criterios de eficiencia al menos), y a la empresa tampoco le compensará tener herramientas nicho, salvo que hagan algo muy específico y único que le resulte imprescindible. Así, aunque haya herramientas de Data para parar un tren, conviene llegar a ciertos consensos de uso. Este hecho, el limitarlas, lleva implícito que la mayoría de herramientas tienen que servir para varias cosas o partes del proceso, esto es, deben ser transversales, un poco al menos.

Las herramientas en los equipos de Data se suelen elegir bajo una serie de lógicas y criterios que tienen en cuenta estas ideas de la limitación y la transversalidad. En este sentido, a continuación te muestro un breve listado de las que juzgo que son las características más importantes que debe cumplir una herramienta en Data. De cara a que el tema quede ejemplificado, comentaré cada característica a nivel de Excel, que es tal vez la herramienta de Data más conocida (aunque haya mucho flipado que dice que no sirve para nada).

  • Comunalidad. La gran mayoría de los departamentos y equipos de Data acabamos haciendo cosas muy parecidas (una vez lo tenemos todo bajo control). La consecuencia de esto es que la mayoría de analistas estaremos usando las mismas herramientas, o al menos herramientas de la misma familia. Sería un sinsentido para las empresas utilizar herramientas raras, pues ni los analistas que entrasen las conocerían, ni serían fácilmente reemplazables una vez las conocen. Vamos, que perder un analista en ese contexto sería un drama. Además, las herramientas más conocidas son productos de empresas muy grandes, lo que es garantía de continuidad y de soporte. Por lo mismo, el hecho de que se usen mucho implica que hay una gran cantidad de recursos online, tutoriales, etc., donde se puede resolver casi cualquier duda. En resumen, que una herramienta se use mucho no la convierte en buena, pero sí la convierte en buena en el contexto de cualquier departamento o equipo de Data que no haga cosas únicas.
    Excel. Es la herramienta universalmente conocida. Si se sigue usando no es tanto porque la conozcamos todos los analistas, sino porque la conocen nuestros clientes. Su mayor virtud es que representa un nexo de unión con nuestros interlocutores a nivel de visualizar datos (en plan, hazlo como quieras, pero la parte final, el emplatado, dámelo en Excel, que ahí me siento cómodo). A nivel de visualización sigue siendo decente por esta parte de conectar con el cliente, pues otras herramientas mejores y más avanzadas tienen el problema de que requieren ser enseñadas y el cliente no siempre está abierto a ello (es una de las grandes batallas que libramos en Data).
  • Conectividad. No existe la herramienta mágica que lo soluciona todo (la herramienta maná). La consecuencia es que la mayoría de las tareas que hacemos implican a más de una herramienta. Sabido esto, si vamos un poco más allá, entenderemos que será necesario las más de las veces que las herramientas puedan conectarse entre ellas de cara a trasladar los datos en sus distintos estados. Así, por ejemplo, a nivel de front end, una de las cosas que más se valora en las llamadas herramientas de visualización es la variedad de fuentes de datos a las que pueden conectarse. Una fuente de datos no es más que un lugar donde tengo los datos, más o menos tratados, que quiero visualizar. A menudo ese lugar será una base de datos (a la que accederé con SQL), pero es posible que además tenga otras fuentes, que pueden ir desde hojas Excel hasta otros informes hechos en la propia herramienta (la capacidad de conectarse a sí misma, el hermafroditismo llevado al mundo de Data).
    Excel. Permite conectarse a una base de datos cualquiera y obtener datos de allí (tanto tablas enteras como consultas SQL con el dato más trabajado). En general, sale perdiendo con casi cualquier herramienta de visualización a nivel de conectividad, pero aun así permite acceder a la mayoría de las fuentes de datos usadas en Data. En cuanto al lenguaje de programación, en el caso de Excel serían las macros, un lenguaje propio que es mejor que nada. Excel no va sobrado en cuanto a conectividad en relación a las demás herramientas, pero lo que permite es aceptable.
  • Escalabilidad. Un equipo de Data no tiene las mismas necesidades ni hace las mismas cosas el día que se crea, que al año, que a los diez años. Así, las herramientas no siempre se usan del mismo modo, ni se les exige el mismo rendimiento. Cuanto más se adapte una herramienta a estos nuevos usos y al crecimiento de los volúmenes (de datos, de cálculos, etc.) más útil será a medio y largo plazo (y por tanto elegiremos usarla al inicio, pensando ya en esas fases posteriores).
    Excel. Permite pequeños análisis y visualizaciones dignas, pero ni permite tratar grandes volúmenes de datos, ni permite grandes análisis. La falta de escalabilidad suele ser la gran razón por la que Excel pierde importancia progresivamente en los equipos y departamentos de Data, a medida que los problemas se hacen más complejos y el volumen de datos es mayor.
  • Amigabilidad. La idea del servicio ampliado que comentábamos en el capítulo 2 es de aplicación también al mundo de las herramientas. Aunque lo más importante de cualquier herramienta es que sea usada en el mundillo, que interactúe con otras y que permita afrontar problemas variados (lo que sería el servicio básico), no es lo mismo tratar con una herramienta intuitiva, en que todo funciona bajo las mismas lógicas, donde todo tiene un diseño homogéneo, que con una herramienta en la que hacer cada cosa sea un drama.
    Muchas herramientas son muy parecidas a nivel de servicio básico, pero hay que prever que a menudo la misma herramienta la usamos analistas y clientes. Así, por ejemplo, Tableau, o cualquier herramienta de visualización decente, tiene una parte para crear visualizaciones (usada por el analista) y otra para verlas (usada por el cliente o usuario final, que a veces puede ser también un analista). En consecuencia, la amigabilidad debe aplicarse tanto para montar como para ver, y por tanto irá enfocada a dos públicos relativamente distintos. De hecho, alguna vez pasa que ciertas herramientas las decide gente no técnica porque la parte que ven les gusta más y les resulta más cómoda de usar en su día a día, sin atender a las necesidades de los analistas.
    Excel. Tiene la gran virtud (y el gran defecto) de que es amigable para la mayoría de gente que trata con Data, pues es la herramienta que han usado toda la vida. Es decir, la amigabilidad no se basa ahí tanto en un mejor o peor interfaz, sino en la idea de «conozco esto, y esto usaré». Una batalla frecuente en Data consiste en intentar que el resto de la empresa pase a utilizar herramientas algo más avanzadas que Excel, particularmente cuando llega el momento inevitable en que, tanto por complejidad de las tareas como por volumen de datos, Excel ya no da más de sí.
  • Fuerza bruta. Sería la cantidad de datos y operaciones que puede manejar una herramienta sin colapsar o ralentizarse. Ocurre en muchas herramientas de visualización que, a pesar de ser muy buenas, decaen a la que les metes un volumen de datos con el que otras herramientas siguen fluyendo. Esto no es algo que se vea al momento, pero sí que quien más quien menos en el mundillo sabe lo que se le puede pedir y lo que se puede esperar de cada herramienta. En cualquier empresa el volumen de datos y la complejidad de lo que se hace con ellos van únicamente hacia arriba, con lo que usar herramientas que tarden en ser superadas por dichos problemas siempre facilita las cosas. Un mínimo de fuerza bruta se considera servicio básico, y a partir de ciertos niveles ya es servicio ampliado. Si para el 5% de temas más complejos tengo que buscar una herramienta especial, la busco, pero al menos saber que con las que tengo cubro el 95% de situaciones presentes y futuras.
    Excel. Directamente no compite. Es una herramienta en la que a la que entras en decenas de miles de registros empieza a resentirse mucho en su rendimiento. Vamos, que fuera de visualizaciones y análisis muy sencillos no es algo que queramos usar (aunque para eso, por más que digan, va realmente bien).

Sigue leyendo

Acerca del libro

Data para mi madre

Data para mi madre

Jorge Béjar Magaldi

El oficio de analista de datos visto desde la trinchera

Gastos de envío gratuitos para pedidos en España

Acerca del autor

Jorge Béjar Magaldi

Jorge Béjar Magaldi

Jorge Béjar Magaldi (Barcelona, 1985) es licenciado y MBA por Esade, diplomado en diseño por BAU (Universitat de Vic), y posgrado en Comercio Internacional por ESIC.

Desarrolló sus primeros años de carrera en el mundo de las finanzas corporativas, participando en una gran variedad de proyectos de fusiones y adquisiciones, financiación de startups, y restructuración de deuda.

Durante la última década ha trabajado en diversos equipos y departamentos de Data, tanto en consultoría como en multinacionales, en los sectores de banca, real estate, apuestas online y call centers.

Es autor del libro Data para mi madre (Libros de Cabecera), donde describe en un tono informal y asequible las distintas características, circunstancias y conceptos del que ha sido su mundo laboral en Data durante los últimos años.

Utilizamos cookies para realizar medición de la navegación de los usuarios. Si continuas navegando, consideramos que aceptas su uso. Puedes cambiar la configuración u obtener más información aquí.