Anàlisi de dades per a legos: evita els 5 errors més comuns

NaN-tic 26 de maig 2022

L'anàlisi de dades és una de les eines empresarials que més ha canviat i desenvolupat en el que portem de segle XXI. El lloc d'analista de dades, que fa deu anys gairabé no se sentia, a dia d'avui és dels perfils professionals que més ha crescut la seva demanda en empreses de tota mena, en grans empreses i no tan grans. De fet, ¿no et passa que es fa extrany acabar un dia sense haver escoltat o llegit les paraules «big data», «data scientist», «machine learning» o «intel·ligència artificial»?

En aquest article posarem els peus a terra aclarint (per a legos) què són i què no són alguns conceptes, i amb això descobriràs els errors més comuns en l'anàlisi de dades perquè puguis posar-li solució a la teva empresa o projecte.

Per a això, entrevistem una experta en anàlisi de dades, Cristina Campos, data scientist i divulgadora científica. Cristina és llicenciada en Física en l'especialització d'Astrofísica per la Universitat de La Laguna i va ser becada per l'Institut Astrofísic de Canàries per estudiar les nebuloses planetàries. En acabar la carrera, va guanyar la beca per ocupar el lloc d'astrofísic resident de l'IAC, quedant en primer lloc, on va treballar per al programa Sunrise de la NASA. Després d’aquesta etapa es va especialitzar en matemàtica estocàstica i intel·ligència artificial estudiant Finances a la UOC, Intel·ligència Artificial a la Universitat de Standford i el màster de Matemàtiques per a instruments financers de la UAB, i va treballar fent prediccions de borsa en el sector bancari. Avui dia, Cristina Campos se centra en la IA, l'anàlisi de dades i la seva visualització en l'empresa Dainso, de la qual és co-fundadora.

Després de parlar amb la Cristina, t'adones que és una apassionada de la ciència, i que transmet els seus coneixements amb habilitat per entusiasmar.

Big data ¿per on començo per ordenar aquest caos?

El primer, hem de matisar què és el big data. Simplificant, és exactament el mateix treball d'anàlisi de dades, la diferència rau en el fet que el big data és una ingent quantitat de dades, el maneig de les quals requereix recursos computacionals i de programació que no estan a l'abast de tothom per la seva dificultat i potència. La bona notícia és que la majoria de les empreses no té big data, tenen com a molt large data, que és un altre nivell. Però la ciència que hi ha darrere per a la seva estructuració i profit és la mateixa independentment de la seva mida, és l'anàlisi de dades.

L'anàlisi de dades per saber i comprendre el que ja ha ocorregut en el passat, o sigui un model descriptiu, és el que solen voler les empreses i està lluny de veure's afectat pel que anomenaríem caos. En canvi, si parlem de l'anàlisi de dades per generar prediccions a partir del que ha succeït en el passat, el model predictiu és diferent, aquí les possibilitats de variables imprevistes augmenten. No obstant això, aconseguint un 70% o 80% de fiabilitat en la teva predicció ja tens molt guanyat en la presa de decisions empresarials, molt més que llançant una moneda a l'aire. S'apliquen, per exemple, tècniques de machine learning, matemàtiques estocàstiques on es tenen en compte moviments aleatoris (es fa servir molt per exemple en el món financer).

Al final, ho deixarem tot en mans de les màquines, on queda la capacitat humana d'aprendre i intuir per decidir davant el machine learning o les simulacions predictives basades en l'anàlisi de dades?

El machine learning és precisament una imitació del funcionament del cervell humà, imita les nostres connexions neuronals per aprendre del que ja ha passat, i en base a això prediu. L'anàlisi de dades i els models predictius no són més que una eina, per exemple, un comercial experimentat pot saber què ha de vendre més del seu catàleg de productes, però si el catàleg és gran li falta informació, l'automatització de les dades i de l'anàlisi l'ajudarà a que no se li passin per alt oportunitats de venda.

El poder de l'anàlisi de dades és gran i científicament provat, però nosaltres els legos podem crear-nos falses expectatives... ¿Quins són els errors més comuns que cometen les empreses en el maneig de les seves dades?

  • El primer error és l'ús de programes que no van ser dissenyats per a l'anàlisi de dades a dia d'avui, que tenen una presentació rudimentària de les dades i que, a més, la recollida de dades és manual amb la quantitat d'errors que això implica.

  • El segon error és com estructuren les dades, no totes les dades són rellevants i ens poden introduir soroll segons el que vulguem mesurar. Així doncs, el resultat és que no obtenim la informació que necessitem.

  • En tercer lloc, no tenir objectius realistes amb relació a què podem obtenir de l'anàlisi de dades. Sobretot pel que fa a models predictius, de vegades s'esperen resultats que no són possibles. Expectatives alimentades per la creença que la Intel·ligència Artificial és sobrehumana, i no ho és, en absolut.

  • Una altra dificultat afegida és la dispersió de les dades, si no es fa servir un programari que integri totes les dades i que està dissenyat perquè aquestes dades estiguin sincronitzades en tots els processos, com és un ERP, la disgregació de la informació juga en contra nostra.

  • En cinquè i últim lloc, la manca d'objectivitat. Si algú té molt d’interès en trobar un resultat a través de les dades, el trobarà. És molt important basar l'elecció, estructuració i combinació de les dades de forma objectiva, a més d'un modelatge correcte, per acostar-nos el màxim possible al coneixement de la realitat. Per això és molt bo que agents externs a l'organització revisin el treball d'anàlisi de dades.

Dainso (empresa especialitzada en anàlisi de dades de la qual ets co-fundadora) juntament amb NaN-tic, heu creat una eina per a l'automatització dels quadres de comandament. Els famosos dashboards que tant agraden als CEO. Quina és la importància que li donaries a que la informació arribi al receptor de manera visual?

És súper important per una raó molt senzilla, en el seu dia a dia, una persona que està dedicada a dirigir un negoci, ha de concentrar els seus esforços en moltes direccions, i no es pot passar el dia mirant número a número, amb la qual cosa, el dashboard ha de ser una eina que l'ajudi a, segons s'obri, a primer cop de vista, li doni la informació més important perquè pugui prendre les decisions a temps, abans que les coses puguin empitjorar. És molt important poder anticipar-se. Que la presa d'informació sigui visual li estalvia moltes hores.

És possible que les empreses estiguin treballant amb eines que en realitat no coneixen? IA, Data Science, Machine Learning, Bessons Virtuals... L'accés a la informació que tenim a través d'internet i les formacions exprés (ràpides i a pressió) ¿poden estar creant el miratge que sabem el que estem fent, sempre, i potser no ho sabem algunes vegades importants?

El sector financer, com el mèdic, com l'educatiu i com tants altres, han canviat molt des dels nostres pares a nosaltres. Ara tot és molt ràpid, algú pot fer un seminari de dues setmanes de programació o de data science intensiu, però les persones que dediquem els nostres anys universitaris a les matemàtiques, a les enginyeries, a la física, etc., aprenem a com pensar per solucionar problemes i en el món de l'anàlisi de dades i models predictius no hi ha dreceres, requereix temps.



Fins aquí l'entrevista a Cristina Campos que ha estat tan amable de contestar les nostres preguntes.

Si vols conduir la teva empresa amb autèntica intel·ligència, compta amb equips especialitzats que t'escoltin i et responguin honestament per aplicar els seus coneixements i recursos al servei de la teva empresa.

 

T'esperem!

 

 

 

Amunt