Es decir que para esta selección se debe de considerar el objetivo principal del proyecto y la relación con las herramientas de Data Mining existentes.
Por ejemplo, si nuestro problema a resolver es un problema de clasifican (por ejemplo decidir si una flor pertenece a una especie con base a sus características) es posible elegir entre árboles de decisión, k-vecino más próximo o razonamiento basado en casos (CBR), en cambio si el problema es de predicción (calcular el valor de una casa a través del tiempo) es posible usar análisis de regresión, redes neuronales, técnicas de visualización, etc. Una vez construido un modelo, se debe generar un procedimiento destinado a probar la calidad y validez del mismo.
Una vez que la técnica es seleccionada, esta se ejecuta sobre los datos previamente preparados para genera uno a más modelos.
La selección de los mejores parámetros es un proceso iterativo y se basa exclusivamente en los resultados generados los cuales deben de ser interpretados y justificar su rendimiento.
En esta tarea, se interpretan los modelos de acuerdo al conocimiento preexistente del dominio y los criterios de existo preestablecidos.