Design of Experiment: qué es y cómo se aplica en la práctica

El Design of Experiment (DoE) es una metodología estadística utilizada en la investigación y desarrollo, así como en la optimización de procesos y productos. El crecimiento exponencial del interés y el desarrollo de la Inteligencia Artificial (IA) permitió en los últimos años la realización de técnicas y algoritmos indispensables para impulsar la investigación científica y el escalado de los procesos industriales.

Según el Global AI Adoption Index 2022, el 51% de las empresas argentinas están explorando el uso de la IA. A su vez, el 66% de los profesionales de TI en compañías que están explorando o implementando IA en Argentina han acelerado sus inversiones y su despliegue de IA en los últimos 24 meses.

Si lo llevamos al campo de la investigación y metodología estadística, la IA como materia prima sirvió para acelerar la transferencia de los resultados obtenidos experimentalmente hacia soluciones industriales de ingeniería, capaces de cumplir las normas de calidad y seguridad.

En comparación con las técnicas tradicionales, el uso de algoritmos de aprendizaje automático permite analizar problemas cada vez más complejos, en los que, por ejemplo, a las restricciones funcionales pueden añadirse restricciones medioambientales. Entre las herramientas más utilizadas que pueden beneficiarse del uso de técnicas y modelos de IA se encuentra el Design of Experiment (DoE), gracias al cual es posible optimizar las campañas de experimentación y ensayo.

Índice de temas

El Design of Experiment: qué es y de dónde viene

La importancia del control y la selección de los parámetros experimentales fue propuesta por primera vez por Charles S. Peirce en 1878 y retomada más ampliamente por Ronald Fischer en las décadas de 1920 y 1930. A lo largo de los años, la definición matemática y la descripción del problema han evolucionado para responder a la complejidad cada vez mayor de los distintos campos de investigación.

El objetivo principal del Design of Experiment es identificar las relaciones que existen entre una combinación de variables de entrada y medir su efecto sobre las salidas, minimizando el número de ensayos experimentales que deben realizarse.

A esta primera fase, denominada de cribado, le sigue una segunda fase de optimización, en la que se construye un modelo de predicción capaz de predecir el comportamiento del sistema a partir de las entradas seleccionadas con un margen de incertidumbre reducido. La presencia de un modelo descriptivo del proceso de interés (gemelo digital) permite identificar los parámetros óptimos que pueden maximizar el resultado deseado.

Funcionamiento del Design of Experiment

Para cada variable de entrada del proceso de interés, es necesario recopilar los rangos dentro de los cuales las variables pueden asumir valores y las restricciones asociadas a ellos. Por ejemplo, suponiendo que se esté modelizando un reactor químico en el que tiene lugar una determinada reacción, se podrían definir como variables de entrada la presión, la temperatura y la composición química de los reactivos. Mientras que la presión y la temperatura pueden variar libremente dentro de unos márgenes definidos, las concentraciones de los reactivos podrían limitarse para asumir valores dentro de un rango concreto, lo que limitaría las posibles opciones de variables de entrada.

Además de las variables de entrada controlables, también existen variables no controlables que pueden medirse pero que no pueden utilizarse para controlar el proceso e influyen igualmente en las características de los productos.

Cuanto más complejo es el problema, más complejo resulta el espacio de variables de entrada dentro del cual la DoE debe identificar un número mínimo de pruebas experimentales capaces de describir correctamente el fenómeno. Por ello, la identificación de los puntos experimentales óptimos ya no se lleva a cabo mediante métodos estadísticos, sino mediante la solución de un problema de optimización (por ejemplo, el diseño óptimo).

Posibles limitaciones asociadas al Design of Experiment

Si bien es cierto que, en comparación con el proceso experimental tradicional, el DoE permite reducir el número de ensayos experimentales y, en consecuencia, el tiempo y los costos asociados a los mismos, el enfoque clásico del DoE presenta una serie de limitaciones importantes:

Los resultados del DoE se basan en la hipótesis de linealidad e independencia de las variables de entrada
El costo experimental es independiente del valor de las variables de entrada (por ejemplo, en el ejemplo anterior, las pruebas realizadas a mayor temperatura y presión pueden requerir más tiempo de preparación o mayores costes energéticos)
No se establece un orden de prioridad entre las pruebas que deben realizarse dentro de un mismo grupo de pruebas
La modelización no suele tener en cuenta la incertidumbre experimental relacionada tanto con los datos de entrada como con las mediciones de salida realizadas
El aliasing entre variables debe definirse a priori. Por estas razones, a lo largo de los años se propusieron posibles soluciones para modelizar la búsqueda óptima de puntos experimentales de gran complejidad.

De DoE a OED

Partiendo del enfoque DoE, el Diseño Experimental Óptimo (DoE) explota no sólo el conocimiento a priori que se tiene del proceso (como en el caso del DoE), sino también los datos recogidos progresivamente durante la campaña experimental. De hecho, si ya se han realizado pruebas, es posible explotar la información contenida en ellas para priorizar los ensayos experimentales posteriores.

En efecto, la recogida de un número limitado de datos experimentales permite construir un “modelo basado en datos” que, por aproximado que sea, es capaz de predecir el resultado del proceso. Los modelos utilizados suelen pertenecer a la estadística bayesiana, gracias a la cual se modela no sólo la salida, sino también la incertidumbre asociada a ella.

La presencia de un modelo permite definir sobre todo el dominio de variables de entrada, una función de utilidad que describe el beneficio (estimado) que podemos obtener de la realización de una determinada prueba experimental. La combinación de esta función y de las restricciones que caracterizan las variables de entrada define un problema de optimización relativo a la búsqueda de un valor máximo para la función de utilidad.

La función más sencilla que podemos imaginar es la combinación de la incertidumbre asociada al modelo y el resultado esperado, asociando un peso diferente a cada uno. La definición de los pesos permite priorizar la prueba y la búsqueda de nuevos puntos experimentales.

En el ejemplo anterior de la reacción química, el interés principal podría ser modelizar el proceso lo mejor posible, pero hacerlo sólo en las regiones en las que el resultado (por ejemplo, la cantidad de producto de la reacción) es suficientemente elevado. Por tanto, hay que tener cuidado de incluir el valor de salida esperado dentro de la función de utilidad, de modo que se exploren las regiones de mayor interés industrial.

Las ventajas del DoE

La modelización del problema del diseño experimental es ciertamente más compleja que en el caso clásico del DoE, pero ofrece algunas ventajas fundamentales:

Se puede dar prioridad a las pruebas experimentales (o a grupos de ellas)
La función de utilidad puede ampliarse para incluir no sólo la incertidumbre del modelo, sino también los costos experimentales que pueden depender de las variables de entrada (multiobjetivo, por ejemplo, los costes de preparación de las pruebas, el consumo de energía o el impacto medioambiental)
Según la fase experimental en la que uno se encuentre, es posible actuar sobre los pesos de las funciones de utilidad para explorar el dominio de las variables de entrada (exploración) o concentrar la búsqueda en una zona precisa del dominio (explotación)
La utilización de modelos de IA permite tener en cuenta la incertidumbre experimental de las observaciones y de los datos de entrada (multifidelidad).

DoE y OED, principales aplicaciones

El DoE y el OED son herramientas importantes y, en algunos casos, fundamentales para orientar la investigación científica. En efecto, ambas permiten justificar la necesidad de realizar más pruebas e indicar en qué región del dominio variable deben realizarse. Además de su aplicación a los procesos industriales y de investigación, estas herramientas también pueden utilizarse para estudiar y analizar simuladores numéricos y modelos físicos para los que es necesario construir un modelo sustitutivo.

En estos casos, la aplicación de la OED es indispensable para guiar la elección de los puntos experimentales que deben simularse, activando un proceso de aprendizaje continuo en el que el modelo basado en datos y el modelo físico intercambian datos e información (aprendizaje activo).

Gracias a la evolución de las herramientas de IA y los simuladores numéricos, también es posible construir marcos más complejos en los que, en función de los costos y las limitaciones experimentales, las pruebas puedan realizarse alternativamente en el laboratorio o mediante un simulador numérico. En todos estos casos, el objetivo final sigue siendo construir un modelo de aprendizaje automático que refleje fielmente la realidad experimental pero que sea más rápido de interrogar que los modelos numéricos.

Design of Experiment: software

El software de Design of Experiments (DoE) es una categoría de aplicaciones informáticas diseñadas específicamente para ayudar a los investigadores, ingenieros y científicos a planificar, ejecutar y analizar experimentos de manera eficiente y efectiva. Estos programas están diseñados para simplificar el proceso de diseño experimental y análisis de datos. Esto facilita la toma de decisiones basada en datos y la optimización de productos y procesos.

Algunos ejemplos de software de DoE populares incluyen Minitab, JMP, Design-Expert, R (utilizando paquetes específicos de DoE). También varios módulos y herramientas dentro de programas más amplios de análisis estadístico como SAS, SPSS y Excel (mediante complementos o complementos específicos de DoE). La elección del software de DoE dependerá de tus necesidades específicas y tu familiaridad con las herramientas disponibles.

Conclusiones

Frente al enfoque tradicional, que suele implicar varias etapas -desde la elaboración de una hipótesis teórica hasta los resultados y posibles análisis y correcciones a posteriori-, el DoE y el OED son dos nuevos paradigmas estadísticos destinados a maximizar la información derivada de los datos experimentales.

En particular, al aprovechar el potencial de la ciencia de datos y los algoritmos de IA, estos dos enfoques permiten acelerar la fase de estudio y comprensión del proceso, orientando rápidamente las actividades hacia las fases de optimización y control. Con resultados significativos, en particular para las empresas, generando:

Reducción del tiempo de desarrollo
Mayor fiabilidad del proceso
Utilización eficaz de los recursos

El Design of Experiment es una herramienta poderosa para la toma de decisiones basada en datos y la mejora de procesos. Permite a los investigadores y científicos obtener información valiosa de manera eficiente y sistemática. Los diseñadores experimentales tienen en cuenta la cantidad de experimentos necesarios, la elección de los niveles de factores y la disposición de los ensayos para lograr resultados confiables y significativos.

Tommaso Gallingani

Contacto