¿Qué es el aprendizaje no supervisado?

En el ámbito de la inteligencia artificial, el aprendizaje no supervisado es un tipo de aprendizaje automático que aprende de los datos sin supervisión humana. A diferencia del aprendizaje supervisado, a los modelos de aprendizaje automático no supervisado se les proporcionan datos sin etiquetar y se les permite descubrir patrones e información valiosa sin necesidad de instrucciones o directrices explícitas.

Aunque muchos no son conscientes de ello, la inteligencia artificial y el aprendizaje automático influyen en todos los aspectos de tu día a día y ayudan a convertir los datos en información valiosa que permita aumentar la eficiencia, reducir costes y mejorar la toma de decisiones fundamentada. Hoy en día, las empresas usan algoritmos de aprendizaje automático para ofrecer recomendaciones personalizadas, traducciones en tiempo real o incluso generar automáticamente texto, imágenes y otros tipos de contenido.

En este artículo, abordaremos los aspectos básicos del aprendizaje automático no supervisado, su funcionamiento y algunas de sus aplicaciones habituales de la vida real.

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar Gemini Enterprise Agent Platform y otros productos de Google Cloud.

¿Cómo funciona el aprendizaje no supervisado?

Como su nombre indica, el aprendizaje no supervisado usa algoritmos de autoaprendizaje, es decir, algoritmos que aprenden sin etiquetas ni entrenamiento previos. En su lugar, el modelo recibe datos sin procesar y sin etiquetar, y tiene que inferir sus propias reglas y estructurar la información en función de similitudes, diferencias y patrones, sin instrucciones explícitas sobre cómo trabajar con cada dato.

Los algoritmos de aprendizaje no supervisado son más adecuados para tareas de procesamiento más complejas, como la organización de grandes conjuntos de datos en clústeres. Resultan útiles para identificar patrones en los datos que no se hayan detectado hasta el momento, así como para identificar características útiles para categorizar los datos.

Imagina que tienes un gran conjunto de datos sobre el clima. Un algoritmo de aprendizaje no supervisado analizará los datos e identificará patrones en los puntos de datos. Por ejemplo, puede agrupar los datos por temperatura o por patrones meteorológicos similares.

Aunque el algoritmo no entiende estos patrones a partir de la información que has proporcionado anteriormente, puedes examinar las agrupaciones de datos e intentar clasificarlas según lo que entiendas del conjunto de datos. Por ejemplo, es posible que detectes que los diferentes grupos de temperatura representan las cuatro estaciones o que los patrones meteorológicos están divididos en distintos tipos de condiciones meteorológicas, como lluvia, aguanieve o nieve.

Métodos de aprendizaje automático no supervisados

En general, hay tres tipos de tareas de aprendizaje no supervisado: agrupamiento en clústeres, reglas de asociación y reducción de dimensionalidad.

A continuación, profundizaremos en cada tipo de técnica de aprendizaje no supervisado.

Agrupamiento en clústeres

El agrupamiento en clústeres es una técnica que permite examinar datos sin procesar y sin etiquetar, y desglosarlos en grupos (o clústeres) en función de ciertas similitudes o diferencias. Se utiliza en diversas aplicaciones, como la segmentación de clientes, la detección de fraudes y el análisis de imágenes. Los algoritmos de agrupamiento en clústeres dividen los datos en grupos naturales buscando estructuras o patrones similares en datos sin clasificar.

El agrupamiento en clústeres es una de las estrategias de aprendizaje automático no supervisado más populares. Hay varios tipos de algoritmos de aprendizaje no supervisado que se usan para el agrupamiento en clústeres, entre los que se incluyen los exclusivos, los superpuestos, los jerárquicos y los probabilísticos.

Clústeres exclusivos: los datos se agrupan de forma que solo puede existir un único punto de datos en un clúster. Este proceso también se conoce como agrupamiento en clústeres "duros". Un ejemplo habitual de agrupamiento en clústeres exclusivo es el algoritmo de agrupamiento en clústeres K-medias, que divide los puntos de datos en un número K de clústeres definido por el usuario.
Clústeres superpuestos: los datos se agrupan de manera que un único punto de datos puede existir en dos o más clústeres con diferentes niveles de pertenencia. Este proceso también se conoce como agrupamiento en clústeres "blando".
Agrupación jerárquica: los datos se dividen en distintos grupos según sus similitudes, que se fusionan y se organizan repetidamente en función de sus relaciones jerárquicas. Hay dos tipos principales de agrupamiento jerárquico: agrupamiento aglomerativo y agrupamiento divisivo. Este método también se conoce como análisis jerárquico de clústeres (HAC, por sus siglas en inglés).
Clústeres probabilísticos: los datos se agrupan en clústeres según la probabilidad de que cada punto de datos pertenezca a cada clúster. Este enfoque difiere de los otros, que agrupan puntos de datos en función de sus similitudes con otros del mismo clúster.

Asociación

La minería de reglas de asociación es un enfoque basado en reglas que revela relaciones interesantes entre puntos de datos de grandes conjuntos de datos. Los algoritmos de aprendizaje no supervisado buscan frecuentemente asociaciones "si-entonces" (también denominadas "reglas") para descubrir correlaciones y repeticiones en los datos y las diferentes conexiones entre los objetos de datos.

Suelen usarse para analizar cestas de retail o conjuntos de datos transaccionales que representan la frecuencia con la que se compran ciertos artículos juntos. Estos algoritmos desvelan los patrones de compra de los clientes y las relaciones entre productos que hasta entonces estaban ocultas, lo que proporciona información a los motores de recomendaciones u otras oportunidades de venta cruzada. Es posible que hayas visto ejemplos de estas reglas, como las secciones "Comprados juntos habitualmente" y "Los usuarios que han comprado este artículo también han comprado" de tu tienda online favorita.

Las reglas de asociación también se suelen usar para organizar conjuntos de datos médicos para diagnósticos clínicos. El uso del aprendizaje automático no supervisado y las reglas de asociación puede ayudar a los médicos a identificar la probabilidad de un diagnóstico específico comparando las relaciones entre los síntomas de casos de pacientes anteriores.

Normalmente, los algoritmos Apriori son los más utilizados para el aprendizaje de reglas de asociación con el objetivo de identificar colecciones de elementos o conjuntos de elementos relacionados. Sin embargo, se utilizan otros tipos, como los algoritmos Eclat y de crecimiento de FP.

Reducción de dimensiones

La reducción de dimensionalidad es una técnica de aprendizaje no supervisado que reduce el número de características o dimensiones de un conjunto de datos. En general, cuanto mayor sea la cantidad de datos, mejor será para el aprendizaje automático. No obstante, esto también puede dificultar la visualización de los datos.

La reducción de dimensionalidad extrae características importantes del conjunto de datos, lo que reduce el número de elementos irrelevantes o aleatorios presentes. Este método utiliza algoritmos de análisis de componentes básicos (PCA) y algoritmos de descomposición de valores únicos (SVD) para reducir el número de entradas de datos sin comprometer la integridad de las propiedades de los datos originales.

Ejemplos reales de aprendizaje no supervisado

Ahora que conoces los aspectos básicos del funcionamiento del aprendizaje no supervisado, veamos los casos prácticos más habituales que ayudan a las empresas a consultar rápidamente grandes volúmenes de datos.

Aquí tienes algunos ejemplos reales de aprendizaje no supervisado:

Detección de anomalías: los clústeres no supervisados pueden procesar grandes conjuntos de datos y detectar puntos de datos que no sean atípicos en ellos.
Motores de recomendaciones: mediante las reglas de asociación, el aprendizaje automático no supervisado puede ayudar a analizar los datos de transacciones para descubrir patrones o tendencias que se puedan usar para generar recomendaciones personalizadas para los comercios online.
Segmentación de clientes: el aprendizaje no supervisado también se suele usar para generar perfiles ficticios de compradores agrupando las características comunes de los clientes o sus comportamientos de compra. Estos perfiles pueden servir para orientar las estrategias de marketing y otras estrategias de negocio.
Detección de fraudes: el aprendizaje no supervisado es útil para detectar anomalías, ya que revela puntos de datos inusuales en los conjuntos de datos. Esta información puede ayudarte a descubrir eventos o comportamientos que se desvían de los patrones normales de los datos, lo que revela transacciones fraudulentas o comportamientos inusuales, como actividad de bots.
Procesamiento del lenguaje natural (PLN): el aprendizaje no supervisado se utiliza habitualmente para diversas aplicaciones de PLN, como la categorización de artículos en secciones de noticias, la traducción y clasificación de textos o el reconocimiento de voz en interfaces de conversación.
Investigación genética: la agrupación genética es otro ejemplo habitual de aprendizaje no supervisado. Los algoritmos jerárquicos de agrupamiento en clústeres se suelen utilizar para analizar patrones de ADN y revelar relaciones evolutivas.

El aprendizaje no supervisado es ideal para las tareas que requieren examinar grandes cantidades de datos sin etiquetar. Este enfoque facilita que las empresas obtengan información valiosa a partir de los datos cuando no hay etiquetas, lo que les ayuda a comprender la estructura subyacente de un conjunto de datos e identificar patrones y relaciones entre conjuntos de datos sin necesidad de que una persona los entrene.

Aprendizaje supervisado y aprendizaje no supervisado

La principal diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado es el tipo de datos de entrada que utilizas. A diferencia de los algoritmos de aprendizaje automático no supervisados, el aprendizaje supervisado se basa en datos de entrenamiento etiquetados para determinar si el reconocimiento de patrones en un conjunto de datos es preciso.

Los objetivos de los modelos de aprendizaje supervisado también están predeterminados, lo que significa que el tipo de resultado de los modelos ya se conoce antes de aplicar los algoritmos. Es decir, la entrada se asigna a la salida en función de los datos de entrenamiento.

Soluciona los retos empresariales que se te presenten con Google Cloud

Los nuevos clientes reciben 300 USD en crédito sin coste para invertirlos en Google Cloud.

Habla con un especialista del equipo de ventas de Google Cloud sobre tus necesidades específicas con más detalle.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito sin coste económico y más de 20 productos que siempre se ofrecen sin coste.

¿Necesitas ayuda para empezar?
Contactar con Ventas
Colabora con un partner de confianza
Buscar un partner
Sigue explorando nuestras soluciones
Ver todos los productos