Este proyecto es el trabajo final de la Certificación del Programa de Inteligencia Artificial de IBM. El objetivo es aplicar técnicas de aprendizaje automático para la detección de fraudes en transacciones de tarjetas de crédito. A lo largo del proyecto, se sigue un flujo de análisis y desarrollo orientado a la clasificación de transacciones como fraudulentas (clase 1) o no fraudulentas (clase 0).

Dataset

Fuente: Kaggle – Credit Card Fraud Detection
Descripción: El dataset contiene un conjunto de transacciones con un marcado desbalance entre transacciones fraudulentas (0.16%) y no fraudulentas.

Pasos del Proyecto

1. Carga y Limpieza de Datos

Se importaron las bibliotecas necesarias, y el dataset fue cargado en un DataFrame.
Se eliminaron filas duplicadas, y se verificó que no hubiera valores nulos.

2. Análisis Exploratorio de Datos (EDA)

Distribución de Fraudes: Se visualizó la proporción de transacciones fraudulentas y no fraudulentas.
Distribución del Monto en Transacciones Fraudulentas: Se exploró mediante un histograma, destacando los patrones de gasto en transacciones sospechosas.

3. Desarrollo de Modelos

Los datos se dividieron en conjuntos de entrenamiento y prueba (80%-20%).
Se entrenó un modelo de clasificación usando Random Forest con hiperparámetros ajustados para mejorar el rendimiento en datos desbalanceados.

4. Evaluación del Modelo

Métricas de Rendimiento: Las principales métricas evaluadas fueron:
- Precisión para medir la proporción de transacciones predichas correctamente.
- Recall para evaluar la capacidad del modelo de detectar fraudes (minimizar falsos negativos).
- F1-Score como métrica de balance entre precisión y recall.
Matriz de Confusión: La matriz de confusión mostró excelentes resultados en la clasificación de transacciones no fraudulentas, y resultados buenos en las fraudulentas, con una precisión general del modelo de 99.95%.

Conclusiones

El modelo Random Forest demostró ser altamente eficaz para detectar transacciones fraudulentas, aunque se sugiere trabajar en técnicas de mejora para minimizar los falsos negativos en la detección de fraudes.

Requisitos

Para reproducir el análisis y el modelo:

Python 3.x
Bibliotecas: pandas, numpy, seaborn, matplotlib, scikit-learn

Código

Puedes encontrar este proyecto en Kaggle o en GitHub.

Expandir código

Proyecto Final – Programa de IA de IBM – Credit Card Fraud

Detección de fraudes con tarjetas de crédito¶

Enlace al dataset: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

Importa las bibliotecas necesarias¶

In [6]:

# Importa la bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

Importación del dataset¶

In [5]:

# Organizar los datos en un dataframe
data = pd.read_csv('/kaggle/input/creditcardfraud/creditcard.csv', sep=',')
data.head()

Out[5]:

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	…	V21	V22	V23	V24	V25	V26	V27	V28	Amount
0	0.0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	…	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	149.62
1	0.0	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	…	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	2.69
2	1.0	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	…	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0.139097	-0.055353	-0.059752	378.66
3	1.0	-0.966272	-0.185226	1.792993	-0.863291	-0.010309	1.247203	0.237609	0.377436	-1.387024	…	-0.108300	0.005274	-0.190321	-1.175575	0.647376	-0.221929	0.062723	0.061458	123.50
4	2.0	-1.158233	0.877737	1.548718	0.403034	-0.407193	0.095921	0.592941	-0.270533	0.817739	…	-0.009431	0.798278	-0.137458	0.141267	-0.206010	0.502292	0.219422	0.215153	69.99

5 rows × 31 columns

Limpieza de datos¶

A. Valores perdidos¶

In [11]:

# No tenemos valores perdidos en el dataset
perdidos = data.isnull().sum()
porcentaje = (100*data.isnull().sum()/data.count())
pd.concat([perdidos, porcentaje], axis=1, keys=['Valores perdidos', 'Porcentaje']).transpose()

Out[11]:

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	…	V21	V22	V23	V24	V25	V26	V27	V28	Amount	Class
Total	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Porcentaje	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

2 rows × 31 columns

B. Datos duplicados¶

In [12]:

# Tenemos algunas filas duplicadas
duplicados = data.duplicated().sum()
duplicados

Out[12]:

In [16]:

# Vemos cuales son las dimensiones del dataframe antes de eliminar los duplicados
data.shape

Out[16]:

(284807, 31)

In [17]:

# Eliminamos los duplicados y comprobamos que se ha realizado correctamente
data = data.drop_duplicates(keep = False)
data.shape

Out[17]:

(282953, 31)

Análisis de los datos¶

Pregunta 1: ¿Cuál es el porcentaje de transacciones fraudulentas en el dataset?¶

In [13]:

# Calculamos el porcentaje de transacciones fraudulentas
nfraudulentas = data['Class'].sum()
ntotal = data['Class'].count()
pfraudulentas = 100 * nfraudulentas / ntotal

# Muestra el porcentaje de transacciones fraudulentas
print(f'Número de operaciones fraudulentas --> {nfraudulentas}')
print(f'Número total de operaciones --> {ntotal}')
print(f'Porcentaje de operaciones fraudulentas --> {pfraudulentas:.2f}%')

Número de operaciones fraudulentas --> 492
Número total de operaciones --> 284807
Porcentaje de operaciones fraudulentas --> 0.17%

Pregunta 2: ¿Cuál es el importe medio de las transacciones fraudulentas?¶

In [14]:

# Calcula el importe medio de las transacciones fraudulentas
mediafraudulentas = data[data.Class == 1]['Amount'].mean()

# Muestra el importe medio de las transacciones fraudulentas
print(f'Importe medio de las transacciones fraudulentas --> {mediafraudulentas:.2f}€')

Importe medio de las transacciones fraudulentas --> 122.21€

Visualiza los datos¶

Pregunta 1: ¿Cuántas transacciones fraudulentas hay en comparación con las no fraudulentas? (Utiliza un gráfico de barras)¶

In [15]:

# Cuenta el número de transacciones fraudulentas y no fraudulentes
nnofraudulentas = ntotal - nfraudulentas

In [16]:

# Muestra la distribución de las transacciones fraudulentas con respecto de las no fraudulentas
fig, ax = plt.subplots()
gbarras = ax.bar(['No Fraude', 'Fraude'], [nnofraudulentas, nfraudulentas], color=['tab:green', 'red'])
ax.set_title('No fraudulentas vs Fraudulentas')
ax.set_ylabel('Número de operaciones')
ax.set_xlabel('Tipo de operaciones')

for tipo in gbarras:
    altura = tipo.get_height()
    ax.text(tipo.get_x() + tipo.get_width()/2, altura, f'{altura}', ha='center', va='bottom')
fig.show()

No description has been provided for this image

Pregunta 2: ¿Cuál es la distribución de los importes de las transacciones fraudulentas? (Utiliza un histograma)¶

In [17]:

# Separa los datos de transacciones fraudulentas
data_fraudulentas = data[data.Class == 1]['Amount']
data_fraudulentas.head()

# Muestra la distribución de los importes de las transacciones fraudulentas
fig, ax = plt.subplots()
ghistograma = ax.hist(data_fraudulentas, bins=30)
ax.set_title('Distribución de los importes fraudulentos')
ax.set_ylabel('Importe')
ax.set_xlabel('Conteo')
fig.show()

Desarrollo y evaluación de modelos¶

División del dataset en datos de entrenamiento y test¶

In [18]:

from sklearn.model_selection import train_test_split

In [19]:

# Separa los datos de entrenamiento y evaluación
y = data["Class"] # variable objetivo
X = data.drop("Class", axis=1) # variables descriptivas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
# cotejamos cuales son las dimensiones finales de la división
print('Las dimensiones de X_train son: ', X_train.shape)
print('Las dimensiones de y_train son: ', y_train.shape)
print('Las dimensiones de X_test son: ', X_test.shape)
print('Las dimensiones de y_test son: ', y_test.shape)

Las dimensiones de X_train son:  (227845, 30)
Las dimensiones de y_train son:  (227845,)
Las dimensiones de X_test son:  (56962, 30)
Las dimensiones de y_test son:  (56962,)

Modelo Random Forest¶

In [20]:

# Entrenamos el modelo
from sklearn.ensemble import RandomForestClassifier
randomforest = RandomForestClassifier(max_depth = 150, random_state = 42)
randomforest.fit(X_train, y_train)

Out[20]:

RandomForestClassifier(max_depth=150, random_state=42)

In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

In [21]:

# Generamos las predicciones
predicciones = randomforest.predict(X_test)

Resultados¶

In [22]:

# Observamos las metricas
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
print(classification_report(y_test, predicciones))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56847
           1       0.95      0.80      0.87       115

    accuracy                           1.00     56962
   macro avg       0.97      0.90      0.93     56962
weighted avg       1.00      1.00      1.00     56962

Clase 0

La clase 0 hace referencia a la transacciones que no son fraudulentas, en este caso tiene métricas de precision, recall y f1-score muy buenas.

La precision del modelo nos indica que no tiene transacciones fraudulentas que sean mal clasificadas como transacciones normales.
El recall nos indica que el modelo identifica correctamente las transacciones normales sin dejar ninguna fuera como transacción fraudulenta.
El F1-Score nos está indicando que el modelo es muy eficaz para la clase 0 con una combinación perfecta entre precision y recall.

Clase 1

La clase 1 hace referencia a la transacciones fraudulentas, en este caso tiene métricas de precision, recall y f1-score más bajas en comparación con la otra clase.

La precision del modelo nos indica que cuando el modelo predice una transacción como fraudulenta, tiene un 97% de posibilidades de ser cierto.
El recall nos indica que el modelo está detectando el 74% de las transacciones fraudulentas y por tanto está dejando escapar un 26%.
El F1-Score nos indica el equilibiro entre precision y recall para las transacciones fraudulentas en el que el recall tiene una posible mejora.

Accuracy

El modelo tiene una exactitud global muy alta, pero hay que tener en cuenta que se debe sobre todo a que las transacciones normales tienen mucha má frecuencia que las fraudulentas y tenemos un dataset desbalanceado en favor de la clase 0 que es la mayoritaria. Hay que tener en cuenta que en el contexto de detección de fraude lo que nos interesa es detectar aquellas transacciones que son fraudulentas pero que no han sido detectadas, es decir, los falsos negativos para la clase 1, que como hemos visto en la correspondiente métrica de recall supone un 26% del total de transacciones categorizadas como fraudulentas.

In [29]:

# Creamos el gráfico
plt.figure(figsize=(6, 6))
sns.heatmap(confusion_matrix(y_test, predicciones), annot=True, fmt="d", cmap="Blues", cbar=False, xticklabels=["No Fraude", "Fraude"], yticklabels=["No Fraude", "Fraude"])

# Etiquetas y título
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión")
plt.show()

In [30]:

accuracy = accuracy_score(y_test, predicciones) *100
print(f"Exactitud del modelo: {accuracy:.2f}%")

Exactitud del modelo: 99.95%

Cerrar código

Dataset

Fuente: Kaggle – Credit Card Fraud Detection
Descripción: El dataset contiene un conjunto de transacciones con un marcado desbalance entre transacciones fraudulentas (0.16%) y no fraudulentas.

Pasos del Proyecto

1. Carga y Limpieza de Datos

Se importaron las bibliotecas necesarias, y el dataset fue cargado en un DataFrame.
Se eliminaron filas duplicadas, y se verificó que no hubiera valores nulos.

2. Análisis Exploratorio de Datos (EDA)

Distribución de Fraudes: Se visualizó la proporción de transacciones fraudulentas y no fraudulentas.
Distribución del Monto en Transacciones Fraudulentas: Se exploró mediante un histograma, destacando los patrones de gasto en transacciones sospechosas.

3. Desarrollo de Modelos

Los datos se dividieron en conjuntos de entrenamiento y prueba (80%-20%).
Se entrenó un modelo de clasificación usando Random Forest con hiperparámetros ajustados para mejorar el rendimiento en datos desbalanceados.

4. Evaluación del Modelo

Métricas de Rendimiento: Las principales métricas evaluadas fueron:
- Precisión para medir la proporción de transacciones predichas correctamente.
- Recall para evaluar la capacidad del modelo de detectar fraudes (minimizar falsos negativos).
- F1-Score como métrica de balance entre precisión y recall.
Matriz de Confusión: La matriz de confusión mostró excelentes resultados en la clasificación de transacciones no fraudulentas, y resultados buenos en las fraudulentas, con una precisión general del modelo de 99.95%.

Conclusiones

Requisitos

Para reproducir el análisis y el modelo:

Python 3.x
Bibliotecas: pandas, numpy, seaborn, matplotlib, scikit-learn

Código

Puedes encontrar este proyecto en Kaggle o en GitHub.

Expandir código

Proyecto Final – Programa de IA de IBM – Credit Card Fraud

Detección de fraudes con tarjetas de crédito¶

Enlace al dataset: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

Importa las bibliotecas necesarias¶

In [6]:

# Importa la bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

Importación del dataset¶

In [5]:

# Organizar los datos en un dataframe
data = pd.read_csv('/kaggle/input/creditcardfraud/creditcard.csv', sep=',')
data.head()

Out[5]:

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	…	V21	V22	V23	V24	V25	V26	V27	V28	Amount
0	0.0	-1.359807	-0.072781	2.536347	1.378155	-0.338321	0.462388	0.239599	0.098698	0.363787	…	-0.018307	0.277838	-0.110474	0.066928	0.128539	-0.189115	0.133558	-0.021053	149.62
1	0.0	1.191857	0.266151	0.166480	0.448154	0.060018	-0.082361	-0.078803	0.085102	-0.255425	…	-0.225775	-0.638672	0.101288	-0.339846	0.167170	0.125895	-0.008983	0.014724	2.69
2	1.0	-1.358354	-1.340163	1.773209	0.379780	-0.503198	1.800499	0.791461	0.247676	-1.514654	…	0.247998	0.771679	0.909412	-0.689281	-0.327642	-0.139097	-0.055353	-0.059752	378.66
3	1.0	-0.966272	-0.185226	1.792993	-0.863291	-0.010309	1.247203	0.237609	0.377436	-1.387024	…	-0.108300	0.005274	-0.190321	-1.175575	0.647376	-0.221929	0.062723	0.061458	123.50
4	2.0	-1.158233	0.877737	1.548718	0.403034	-0.407193	0.095921	0.592941	-0.270533	0.817739	…	-0.009431	0.798278	-0.137458	0.141267	-0.206010	0.502292	0.219422	0.215153	69.99

5 rows × 31 columns

Limpieza de datos¶

A. Valores perdidos¶

In [11]:

# No tenemos valores perdidos en el dataset
perdidos = data.isnull().sum()
porcentaje = (100*data.isnull().sum()/data.count())
pd.concat([perdidos, porcentaje], axis=1, keys=['Valores perdidos', 'Porcentaje']).transpose()

Out[11]:

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	…	V21	V22	V23	V24	V25	V26	V27	V28	Amount	Class
Total	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0
Porcentaje	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	…	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

2 rows × 31 columns

B. Datos duplicados¶

In [12]:

# Tenemos algunas filas duplicadas
duplicados = data.duplicated().sum()
duplicados

Out[12]:

In [16]:

# Vemos cuales son las dimensiones del dataframe antes de eliminar los duplicados
data.shape

Out[16]:

(284807, 31)

In [17]:

# Eliminamos los duplicados y comprobamos que se ha realizado correctamente
data = data.drop_duplicates(keep = False)
data.shape

Out[17]:

(282953, 31)

Análisis de los datos¶

Pregunta 1: ¿Cuál es el porcentaje de transacciones fraudulentas en el dataset?¶

In [13]:

# Calculamos el porcentaje de transacciones fraudulentas
nfraudulentas = data['Class'].sum()
ntotal = data['Class'].count()
pfraudulentas = 100 * nfraudulentas / ntotal

# Muestra el porcentaje de transacciones fraudulentas
print(f'Número de operaciones fraudulentas --> {nfraudulentas}')
print(f'Número total de operaciones --> {ntotal}')
print(f'Porcentaje de operaciones fraudulentas --> {pfraudulentas:.2f}%')

Número de operaciones fraudulentas --> 492
Número total de operaciones --> 284807
Porcentaje de operaciones fraudulentas --> 0.17%

Pregunta 2: ¿Cuál es el importe medio de las transacciones fraudulentas?¶

In [14]:

# Calcula el importe medio de las transacciones fraudulentas
mediafraudulentas = data[data.Class == 1]['Amount'].mean()

# Muestra el importe medio de las transacciones fraudulentas
print(f'Importe medio de las transacciones fraudulentas --> {mediafraudulentas:.2f}€')

Importe medio de las transacciones fraudulentas --> 122.21€

Visualiza los datos¶

Pregunta 1: ¿Cuántas transacciones fraudulentas hay en comparación con las no fraudulentas? (Utiliza un gráfico de barras)¶

In [15]:

# Cuenta el número de transacciones fraudulentas y no fraudulentes
nnofraudulentas = ntotal - nfraudulentas

In [16]:

# Muestra la distribución de las transacciones fraudulentas con respecto de las no fraudulentas
fig, ax = plt.subplots()
gbarras = ax.bar(['No Fraude', 'Fraude'], [nnofraudulentas, nfraudulentas], color=['tab:green', 'red'])
ax.set_title('No fraudulentas vs Fraudulentas')
ax.set_ylabel('Número de operaciones')
ax.set_xlabel('Tipo de operaciones')

for tipo in gbarras:
    altura = tipo.get_height()
    ax.text(tipo.get_x() + tipo.get_width()/2, altura, f'{altura}', ha='center', va='bottom')
fig.show()

Pregunta 2: ¿Cuál es la distribución de los importes de las transacciones fraudulentas? (Utiliza un histograma)¶

In [17]:

# Separa los datos de transacciones fraudulentas
data_fraudulentas = data[data.Class == 1]['Amount']
data_fraudulentas.head()

# Muestra la distribución de los importes de las transacciones fraudulentas
fig, ax = plt.subplots()
ghistograma = ax.hist(data_fraudulentas, bins=30)
ax.set_title('Distribución de los importes fraudulentos')
ax.set_ylabel('Importe')
ax.set_xlabel('Conteo')
fig.show()

Desarrollo y evaluación de modelos¶

División del dataset en datos de entrenamiento y test¶

In [18]:

from sklearn.model_selection import train_test_split

In [19]:

# Separa los datos de entrenamiento y evaluación
y = data["Class"] # variable objetivo
X = data.drop("Class", axis=1) # variables descriptivas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
# cotejamos cuales son las dimensiones finales de la división
print('Las dimensiones de X_train son: ', X_train.shape)
print('Las dimensiones de y_train son: ', y_train.shape)
print('Las dimensiones de X_test son: ', X_test.shape)
print('Las dimensiones de y_test son: ', y_test.shape)

Las dimensiones de X_train son:  (227845, 30)
Las dimensiones de y_train son:  (227845,)
Las dimensiones de X_test son:  (56962, 30)
Las dimensiones de y_test son:  (56962,)

Modelo Random Forest¶

In [20]:

# Entrenamos el modelo
from sklearn.ensemble import RandomForestClassifier
randomforest = RandomForestClassifier(max_depth = 150, random_state = 42)
randomforest.fit(X_train, y_train)

Out[20]:

RandomForestClassifier(max_depth=150, random_state=42)

In [21]:

# Generamos las predicciones
predicciones = randomforest.predict(X_test)

Resultados¶

In [22]:

# Observamos las metricas
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
print(classification_report(y_test, predicciones))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56847
           1       0.95      0.80      0.87       115

    accuracy                           1.00     56962
   macro avg       0.97      0.90      0.93     56962
weighted avg       1.00      1.00      1.00     56962

Clase 0

La clase 0 hace referencia a la transacciones que no son fraudulentas, en este caso tiene métricas de precision, recall y f1-score muy buenas.

La precision del modelo nos indica que no tiene transacciones fraudulentas que sean mal clasificadas como transacciones normales.
El recall nos indica que el modelo identifica correctamente las transacciones normales sin dejar ninguna fuera como transacción fraudulenta.
El F1-Score nos está indicando que el modelo es muy eficaz para la clase 0 con una combinación perfecta entre precision y recall.

Clase 1

La clase 1 hace referencia a la transacciones fraudulentas, en este caso tiene métricas de precision, recall y f1-score más bajas en comparación con la otra clase.

La precision del modelo nos indica que cuando el modelo predice una transacción como fraudulenta, tiene un 97% de posibilidades de ser cierto.
El recall nos indica que el modelo está detectando el 74% de las transacciones fraudulentas y por tanto está dejando escapar un 26%.
El F1-Score nos indica el equilibiro entre precision y recall para las transacciones fraudulentas en el que el recall tiene una posible mejora.

Accuracy

In [29]:

# Creamos el gráfico
plt.figure(figsize=(6, 6))
sns.heatmap(confusion_matrix(y_test, predicciones), annot=True, fmt="d", cmap="Blues", cbar=False, xticklabels=["No Fraude", "Fraude"], yticklabels=["No Fraude", "Fraude"])

# Etiquetas y título
plt.xlabel("Predicción")
plt.ylabel("Realidad")
plt.title("Matriz de Confusión")
plt.show()

In [30]:

accuracy = accuracy_score(y_test, predicciones) *100
print(f"Exactitud del modelo: {accuracy:.2f}%")

Exactitud del modelo: 99.95%

Cerrar código

Patricia Luengo Carretero

Data Scientist & Docente & UX/UI Designer

Detección de fraude en tarjetas de crédito

Dataset

Pasos del Proyecto

1. Carga y Limpieza de Datos

2. Análisis Exploratorio de Datos (EDA)

3. Desarrollo de Modelos

4. Evaluación del Modelo

Conclusiones

Requisitos

Código

Dataset

Pasos del Proyecto

1. Carga y Limpieza de Datos

2. Análisis Exploratorio de Datos (EDA)

3. Desarrollo de Modelos

4. Evaluación del Modelo

Conclusiones

Requisitos

Código

Detección de fraudes con tarjetas de crédito¶

Importa las bibliotecas necesarias¶

Importación del dataset¶

Limpieza de datos¶

A. Valores perdidos¶

B. Datos duplicados¶

Análisis de los datos¶

Pregunta 1: ¿Cuál es el porcentaje de transacciones fraudulentas en el dataset?¶

Pregunta 2: ¿Cuál es el importe medio de las transacciones fraudulentas?¶

Visualiza los datos¶

Pregunta 1: ¿Cuántas transacciones fraudulentas hay en comparación con las no fraudulentas? (Utiliza un gráfico de barras)¶

Pregunta 2: ¿Cuál es la distribución de los importes de las transacciones fraudulentas? (Utiliza un histograma)¶

Desarrollo y evaluación de modelos¶

División del dataset en datos de entrenamiento y test¶

Modelo Random Forest¶

Resultados¶