sábado, 21 de marzo de 2015

Tendencias en Big Data para 2015

Aunque ya estamos a finales de marzo, quiero exponer aquí un texto sobre las tendencias en Big Data para 2015 que he encontrado en la web de Tableau.
Por supuesto, no es que descubra grandes cosas, pero sí que me ha parecido que las resume de una manera muy simple y clara, así:

1. El Big Data sigue en la nube. 
La nube está en todas partes, y seguiremos viendo cómo adopta volúmenes impresionantes. Y Big Data está haciendo crecer a un montón de nubes, como Amazon Redshift, Google Big Query. Teradata también está saltando al terreno de juego.

2. ETL se vuelve personal.
Siempre se ha dicho que el 80 % del tiempo a análisis se gasta en preparar los datos, mientras que sólo el 20 % se utiliza para el descubrimiento de nuevo conocimiento. Varias herramientas como Trifacta, Alteryx, Paxata y Informatica REV están haciendo la preparación de datos más fácil de usar con menos tecnología e infraestructura que la soporte.

3. SQL o NoSQL, esa es la cuestión.
Pese a lo que muchos piensan aún, NoSQL está haciendo su marca en la industria. NoSQL fue creado para proveer escalabilidad, flexibilidad y la posibilidad de manejar grandes cantidades de datos más rápido. Compañías como MarkLogic, Casandra, Couchbase y MongoDB están aportando innovaciones al mercado de las bases de datos SQL y haciéndolo bastante bien con grandes implementaciones en lugares sorprendentes.

4. Hadoop: parte de la nueva normalidad en el almacenamiento de datos.
Hadoop es ya parte de la arquitectura big data en muchas compañías y parece que está aquí para quedarse y es sinónimo de arquitectura big data.

5. Comenzarás a intentar pescar en el lago de datos.
El concepto de un lago de big data, un gran volumen de datos que existe de una forma natural está todavía en sus primeros estadios. Esta idea responde a algunas preguntas fundamentales acerca de cómo almacenar, gestionar y usar de manera efectiva cantidades masivas de datos que llegan. Algunas empresa punteras como Google y Facebook han desarrollado maneras de manipular el lago de datos, pero deberían ser considerados early adopters. Sea como sea, el lago de datos es aún un concepto naciente y requerirá una nueva manera de gestión para ser efectiva.

6. El ecosistema Big Data comenzará a cambiar de forma.
Cuando se comienzan a hacer las cosas de una nueva forma, se crea un nuevo ecosistema alrededor. Lo mismo ocurrirá con Big Data. Habrá nuevas maneras de almacenar datos, limpiarlos, añadir contenidos, traer social media, hacer análisis profundos y, por supuesto, visualizar los datos. En este año esperamos ver sorprendentes cambios en el ecosistema actual. Específicamente, esperamos ver MPP (Massively Parallel Processing) jugando un diferente y menos prominente rol.

7. Internet de las cosas (IoT) continuará creciendo y proporcionando nuevas soluciones de datos.
Algunos coches envían datos a los fabricantes que les permite saber si algo no funciona.

En 2015 las compañías continuarán viendo la evolución de este entorno. Las empresas ya han comenzado a seguir el camino de conseguir big data para el aumento de ingresos, control de costes y encuentro de nuevas visiones para guiar su negocio.

Puedes encontrar el texto original en la web de Tableau.

jueves, 19 de marzo de 2015

¿Qué es Data Mining o Minería de Datos?

Minería de datos es un análisis avanzado de los datos para descubrir reglas y patrones significativos. El objetivo es conseguir una serie de modelos analíticos (algoritmos) que se ajusten lo mejor posible a los datos.

No es necesario utilizar grandes soluciones tecnológicas, aunque sea extendida la opinión de que es algo caro y al alcance de unas pocas empresas. Existen soluciones opensource y otras propietarias que son asequibles a PYMES.

Para poder aplicar Data Mining se necesita un objetivo de negocio concreto. Conocer y predecir el comportamiento de clientes, productos o servicios o incluso puntos de venta; hacer una previsión de la demanda; predecir el riesgo o el abandono y optimizar precios o el stock son preguntas a las que da respuesta este tipo de análisis. 

Una vez definidos los objetivos, analizada la situación actual del negocio y realizado un plan del proyecto de minería de datos, se pasa a la fase de datos, que comenzará con una revisión de éstos mediante un inventario (¿qué es lo que hay?), un análisis de la calidad de los datos y de la viabilidad de los modelos que se generarán. Resulta imprescindible asegurar la calidad del dato antes de comenzar a modelizar, pues una mala calidad del dato generará un modelo inviable. Se utilizarán procedimientos de Data Profiling, Data Cleasing, Data Enrichment y Data Matching para mejorar lla calidad. Estas labores se deben realizar periódicamente, pues son muchos los procesos que afectan a la calidad del dato: desde procesos externos (entrada manual de datos, migraciones, consolidaciones, etc), internos (procesamientos, enriquecimientos, historificación) o el deterioro natural (nuevos usos de los campos, cambios no registrados, actualización de los sitemas, automatización de procesos o pérdida de know-how en el equipo). 

Cuando se puede asegurar la calidad con un determinado umbral de tolerancia, ya es posible pasar a preparar los datos antes de modelizar. Los datos para el modelo pueden provenir de un Datawarehouse, de un Datamart o de un tablón, por ejemplo.

Entrando ya en el modelado propiamente dicho, voy a hacer referencia a la metodología SEMMA, que es utilizada por algunas herramientas propietarias. Consiste en:
SAMPLE - EXPLORE - MODIFY - MODEL - ASSESS

Se trabaja con muestras grandes y estratificadas de los datos, no con la población completa. Estas muestras se exploran para encontrar relaciones previas de la informacón, como ciclos, tendencias, anomalías, etc. Una vez comprendido realmente el problema analítico, pues se procede a modificar los datos, ya sea creando nuevas variables de negocio (por ejemplo, ratios), transformando otras o seleccionando aquellas que son claves para el problema que se quiere resolver. La siguiente fase ya es el modelado propiamente dicho utilizando técnicas predictivas. De los diferentes modelos generados, se evaluará aquel que más se ajuste y que será el que, finalmente, se ponga en producción.

Las claves del éxito de este procedimiento se basan en el conocimiento del problema de negocio para el que se busca una respuesta. Por ello, es imprescindible la involucración absoluta de los usuarios de negocio y la realización de análisis desde el punto de vista funcional y técnico de los requisitos del sistema y de las fuentes de datos.

Las cuestiones clave en Business Intelligence

Esta entrada trata sobre cuáles son las cuestiones clave en BI, es decir, aquellos procesos que deben hacerse lo mejor posible, pues inciden directamente en el éxito del proyecto.

1. Identificar bien los requerimientos del negocio
Los objetivos deben ser estratégicos y SMART (concretos, medibles, alcanzables, orientados a resultados y limitados en el tiempo). Para que esto sea así, es absolutamente imprescindible la implicación de la Dirección de la organización y de los usuarios que utilizarán los resultados del sistema BI.

2. Ver qué información está disponible en la empresa
Para ello hay que preguntar a todos los departamentos de la empresa: ¿qué información tenéis? Puede que ellos piensen que esa información no es clave para el negocio, pero resulte que sí lo sea. Preguntar, investigar, averiguar la relación entre las distintas fuentes de información operacionales, dónde está, qué formato tiene.

3. Valorar la relevancia de la Información externa para el negocio
Existen múltiples fuentes que pueden proporcionar datos valiosísimos para la estrategia de negocio. Un ejemplo claro es la información sociodemográfica, financiera o geolocalización.

4. Conocer cuáles son las principales Fuentes de información
Se puede tener mucha información de pocas fuentes, o poca de muchas y variadas. Las principales fuentes son operacionales (CRM, ERP, etc.), departamentales (presupuestos, previsiones, etc.) o información no estructurada (mails o vídeos, por ejemplo).

5. Elegir la herramienta
Este proceso puede ser muy complejo, incluso suponer un miniproyecto. Primero se hace necesario ver qué herramientas ya existen en la empresa para poder tener un buen punto de partida. El cumplimiento de los objetivos debe ser la prioridad: responder a consultas, cruzar entidades, navegar en la información, análisis avanzado (Data mining), distribuir las conclusiones y tomar decisiones. 
¿Elegir herramientas propietarias o soluciones opensource? Pues depende de las necesidades. La cuestión es hacer una selección rigurosa y basándose en criterios bien definidos y estructurados. Se puede hacer un Comité de selección que se encargará de seguir los pasos adecuados para conseguir la mejor herramienta. Los pasos más habituales suelen incluir una preselección fruto de una búsqueda inicial, luego se confecciona una lista con 5 o 6 soluciones. A esos proveedores se les hará llegar un formulario con los requisitos. Los que satisfagan los requisitos imprescindibles (suelen ser 2 o 3) tendrán la posibilidad de hacer una prueba piloto con datos reales de la empresa. Con los resultados de esa prueba funcional se realizará la selección definitiva de la herramienta.

6. Modelizar la estructura informacional
En esta fase ya estaremos pensando en cómo será el almacenamiento de los datos (tablas, Datawarehouse, Datamarts, OLAP, no estructurado), en cuál es la calidad de los datos, los procesos ETL y en el análisis avanzado.

Cuando hemos llegado aquí, aún no hemos comenzado el proyecto de BI propiamente dicho, pero hay que tener en cuenta que, si no hemos "hecho los deberes", el éxito estará gravemente comprometido.



¿Para qué sirve realmente el Business Intelligence?

Reconozco que hay muchas, muchas, muchas páginas sobre Business Intelligence, así que una de las cuestiones puede ser el ¿por qué una más?. Los motivos son sencillos:
- Porque realmente escribo como una manera de reflexionar sobre el tema.
- Porque puede ser que a alguien le resulte interesante una perspectiva más orientada al negocio y menos técnica en su sentido estricto. 

En esta entrada me gustaría comenzar por el principio, es decir, intentar responder a la primera pregunta que se hace alguien cuando oye hablar de Business Intelligence, BI o Inteligencia de negocio: ¿para qué sirve realmente el Business Intelligence famoso?


El BI sirve para conocer el comportamiento humano.


Así de simple y, a la vez, enormemente complejo. Saber qué hace la gente y por qué lo hace es el núcleo de multitud de disciplinas, desde la Psicología, hasta el Marketing. Todo gira en torno a las personas y qué motiva sus comportamientos.

Bajando al suelo y orientando el foco a los negocios, pues estaremos hablando de CLIENTES. 

Nos interesará saber qué productos y servicios consumen, cuándo, dónde, cómo y por qué (la pregunta del millón).

Lo que conseguimos con esta información son aspectos claves para los negocios:
- ¿Quiénes son mis clientes potenciales?
- ¿Cómo puedo captar su atención?
- ¿Cuándo una persona va a ser mi cliente y cuándo va a dejar de serlo?
- ¿Qué puedo hacer para que no me abandone?
- ¿Qué riesgo me supone tener ese cliente?¿Me va a dejar una deuda?
- ¿Por qué unos puntos de venta están llenos y otros no logran sobrevivir teniendo los mismos productos?
- ¿Voy a tener suficiente surtido para ser atractivo?
- ¿Necesito mucho stock?
- ¿Cómo logro reducir mis costes sin que el cliente sufra una pérdida del servicio?
- ¿Qué pasaría si...?
Para tener más probabilidades de dar en la diana, es necesario convertir los datos en información, ésta en conocimiento que se incorporará a la estrategia del negocio.


Como es fácilmente deducible, las áreas de negocio que se beneficiarían de la implementación de BI serían, nada más y nada menos, que control de gestión, comercial, desarrollo de negocio, recursos humanos y marketing.

Además, el conocimiento integral que se genera con la utilización de BI permite poder beneficiarse de ese Santo Grial que suelen llamar INNOVACIÓN.

¿Por qué Big Data y Comportamiento humano?

Entiendo que la tecnología está al servicio de las personas. Una de las maneras de cumplir con su objetivo es adecuarse cada vez más a lo que necesitamos, de manera que la interacción persona-máquina sea cómoda, flexible, gratificante y, por supuesto, útil.

A mi entender, atrás deben quedar los tiempos en los que la tecnología era un canal para recibir indeseados emails, SMS y llamadas telefónicas de las compañías. Ahora, el marketing debe tener por objetivo el servir al consumidor para ofrecerle EXCLUSIVAMENTE aquellos productos y servicios que puedan satisfacer sus necesidades.

En ese escenario de absoluto respeto al consumidor, que al fin y al cabo lo somos todos, sólo cabe el conocer y respetar a la persona.
Las herramientas de Business Intelligence y el Big Data pretenden eso, conocer al consumidor para que éste, con plena consciencia y decisión, opte por unos productos y no por otros.