La minería de datos es el proceso de descubrimiento de patrones en grandes conjuntos de datos que implica métodos en la intersección del aprendizaje automático, la estadística y los sistemas de bases de datos. La minería de datos es un subcampo interdisciplinario de las ciencias de la computación y la estadística con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior. La minería de datos es la etapa de análisis del proceso de descubrimiento de conocimientos en bases de datos o KDD. Aparte del paso de análisis en bruto, también implica aspectos de gestión de bases de datos y datos, preprocesamiento de datos, consideraciones de modelo e inferencia, métricas de interés, consideraciones de complejidad, posprocesamiento de las estructuras descubiertas, visualización y actualización en línea.
El término minería de datos es un término erróneo, porque el objetivo es la extracción de patrones y conocimiento de grandes cantidades de datos, no la extracción (minería) de datos en sí. También es una palabra de moda y se aplica con frecuencia a cualquier forma de procesamiento de datos o información a gran escala (recopilación, extracción, almacenamiento, análisis y estadística), así como a cualquier aplicación de sistema informático de apoyo a la toma de decisiones, incluida la inteligencia artificial (por ejemplo, el aprendizaje automático) y la inteligencia empresarial. El libro Data mining: Practical machine learning tools and techniques with Java (que abarca sobre todo material de aprendizaje automático) iba a llamarse originalmente sólo Practical machine learning, y el término minería de datos sólo se añadió por razones de marketing. A menudo, los términos más generales (a gran escala) de análisis de datos y análisis o, cuando se refiere a los métodos reales, la inteligencia artificial y el aprendizaje de la máquina son más apropiados.
La tarea real de la minería de datos es el análisis semiautomático o automático de grandes cantidades de datos para extraer patrones interesantes previamente desconocidos, tales como grupos de registros de datos (análisis de clúster), registros inusuales (detección de anomalías), y las dependencias (minería de reglas de asociación, minería de patrones secuenciales). Para ello se suelen utilizar técnicas de bases de datos como los índices espaciales. Estos patrones pueden considerarse una especie de resumen de los datos de entrada, y pueden utilizarse en análisis posteriores o, por ejemplo, en el aprendizaje automático y el análisis predictivo. Por ejemplo, el paso de minería de datos podría identificar múltiples grupos en los datos, que luego pueden ser utilizados para obtener resultados de predicción más precisos por un sistema de apoyo a la decisión. Ni la recopilación de datos, ni la preparación de los mismos, ni la interpretación de los resultados y la elaboración de informes forman parte del paso de minería de datos, sino que pertenecen al proceso general de KDD como pasos adicionales.
Un almacén de datos se construye integrando datos de múltiples fuentes heterogéneas.
Soporta informes analíticos, consultas estructuradas y/o ad hoc y toma de decisiones. Este tutorial adopta un enfoque paso a paso para explicar todos los conceptos necesarios de data warehousing.
Las colecciones de categorías del tutorial se encuentran a continuación y proporcionan todos los temas como,
Descripción del Almacén de Datos
Conceptos del Sistema de Almacén de Datos
Arquitectura del Almacén de Datos
Proceso de Entrega del Almacén de Datos
Almacén de Datos OLAP Multidimensional
Esquemas del Almacén de Datos
Test del Almacén de Datos
Almacén de Datos Aspectos Futuros
Preguntas de la Entrevista del Almacén de Datos
Estrategia de Particionamiento del Almacén de Datos
Conceptos de Metadatos del Almacén de Datos
Marting de Datos del Almacén de Datos
Administradores de Sistemas del Almacén de Datos
Administradores de Procesos del Almacén de Datos
Seguridad del Almacén de Datos
Ajuste del Almacén de Datos
y muchos otros