%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.figsize':(7,5)})


            
              """
Define uma folha de estilos pro notebook
"""
from IPython.core.display import HTML
def css_styling():
    styles = "<style>" + open("./estilos.css", "r").read() + "</style>"
    return HTML(styles)
css_styling()


            
              df_original = pd.read_csv("tic-tac-toe.data", names=[0, 1, 2, 3, 4, 5, 6, 7, 8, "Result"])
df_original.head()


            
              print("Exemplos x características: ", (df_original.shape[0], df_original.shape[1]-1))
positive_ratio = len(df_original.loc[df_original["Result"] == "positive"]) / df_original.shape[0]
negative_ratio = 1 - positive_ratio
print(f"Taxa de positivos: {positive_ratio:.2f}")
print(f"Taxa de negativos: {negative_ratio:.2f}")

Exemplos x características:  (958, 9)
Taxa de positivos: 0.65
Taxa de negativos: 0.35


            
              from sklearn.model_selection import train_test_split


# 1. muda a ordem das colunas colocando o label primeiro (para próximo passo)
cols = df_original.columns.tolist()
cols = cols[-1:] + cols[:-1]
df = df_original[cols]


# 2. valor numérico para rótulo
df["Result"] = df["Result"].map({
    "positive":  1,
    "negative": -1
})

# 3. transforma cada coluna de feature em 3 colunas binárias
df = pd.get_dummies(df, columns=[0, 1, 2, 3, 4, 5, 6, 7, 8])

# 4. embaralha
df = df.sample(frac=1)

# 5. DataFrame >> ndarray
# 6. X, y
dados = df.to_numpy()
y = dados[:, 0]
X = dados[:, 1:]

# 7. particiona em dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.2)


            
              # configuração do experimento inicial
iterations = 350


            
              from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score

clf_baseline = AdaBoostClassifier(n_estimators=iterations)
clf_baseline.fit(X_train, y_train)

AdaBoostClassifier(n_estimators=350)


            
              y_hat_baseline = clf_baseline.predict(X_test)

score_baseline = accuracy_score(y_test, y_hat_baseline)
print(f"Acurácia de AdaBoost({iterations}):", score_baseline)

Acurácia de AdaBoost(350): 0.96875


            
              from couto_boost import CoutoBoostClassifier

clf = CoutoBoostClassifier(iterations=iterations)
clf.fit(X_train, y_train)

CoutoBoostClassifier(iterations=350)


            
              y_hat = clf_baseline.predict(X_test)

score = accuracy_score(y_test, y_hat)
print(f"Acurácia de CoutoBoost({iterations}):", score)

Acurácia de CoutoBoost(350): 0.96875


            
              import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import zero_one_loss
from sklearn.metrics import plot_confusion_matrix

accuracies = []
errors = []

for max_iterations in np.arange(1, iterations):
    y_hat = clf.predict(X_test, iterations_to_consider=max_iterations)
    score = accuracy_score(y_test, y_hat)
    error = zero_one_loss(y_test, y_hat)
    accuracies.append(score)
    errors.append(error)

# mostra o erro ao longo das iterações
plt.rcParams.update({'figure.figsize':(16,6)})
fig, [axL, axR] = plt.subplots(1, 2)
fig.suptitle(f"Análise incial de CoutoBoost")
axL.plot(np.arange(1, iterations), errors)
axL.set(xlabel='iterações', ylabel='erro',
       title='Erro por iteração')
axL.grid()

plot_confusion_matrix(clf, X_test, y_test, cmap=plt.cm.Blues, display_labels=["negative", "positive"], normalize="all", ax=axR)
axR.set_title(f"Matriz de confusão na iteração {iterations}")

Text(0.5, 1.0, 'Matriz de confusão na iteração 350')


            
              X = np.append(X_train, X_test, axis=0)
y = np.append(y_train, y_test, axis=0)


            
              from sklearn.metrics import auc, plot_roc_curve, precision_recall_curve, plot_precision_recall_curve, average_precision_score
from sklearn.model_selection import StratifiedKFold

def analyze_and_plot_estimator(estimator, estimator_name, X, y):
    """
    Faz (1) validação cruzada, gerando gráfico de curva AOC-ROC e (2) testando nos dados de teste para gerar curva precision-recall
    """
    # 1. curva ROC
    cross_validator = StratifiedKFold(n_splits=5)
    tprs = []
    aucs = []
    mean_fpr = np.linspace(0, 1, 100)

    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.suptitle(f"Análise da validação cruzada de {estimator_name}")
    for i, (train, test) in enumerate(cross_validator.split(X, y)):
        estimator.fit(X[train], y[train])
        vizualization = plot_roc_curve(estimator, X[test], y[test], name=f"ROC do fold {i}", alpha=0.3, lw=1, ax=ax1)
        interp_tpr = np.interp(mean_fpr, vizualization.fpr, vizualization.tpr)
        interp_tpr[0] = 0.0
        tprs.append(interp_tpr)
        aucs.append(vizualization.roc_auc)

    ax1.plot([0, 1], [0, 1], linestyle="--", lw=1, color="r", label="Acaso", alpha=.8)

    mean_tpr = np.mean(tprs, axis=0)
    mean_tpr[-1] = 1.0
    mean_auc = auc(mean_fpr, mean_tpr)
    std_auc = np.std(aucs)

    ax1.plot(mean_fpr, mean_tpr, color="b", label=r"ROC média (AUC = %0.4f $\pm$ %0.4f)" % (mean_auc, std_auc), lw=1, alpha=.8)

    std_tpr = np.std(tprs, axis=0)
    tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
    tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
    ax1.fill_between(mean_fpr, tprs_lower, tprs_upper, color="grey", alpha=.2,
                    label=r"$\pm$ 1 desvio padrão")
    ax1.set(xlim=[-0.05, 1.05], ylim=[-0.05, 1.05],
           title=f"Curva ROC")
    ax1.set_ylabel("Taxa de verdadeiros positivos")
    ax1.set_xlabel("Taxa de falsos positivos")
    ax1.legend(loc="lower right")
    for axis in ["top", "bottom", "left", "right"]:
        ax1.spines[axis].set_linewidth(1)
    ax1.tick_params(width=1)
    
    
    # 2. Precisão e revocação em train/test
    visualization = plot_precision_recall_curve(estimator, X, y, ax=ax2, lw=1)
    visualization.ax_.set_title(f"Curva precisão-revocação")

    for axis in ["top", "bottom", "left", "right"]:
        ax2.spines[axis].set_linewidth(1)
    ax2.tick_params(width=1)
    
    
    fig.tight_layout()
    plt.show()
    return dict(mean_fpr=mean_fpr, mean_tpr=mean_tpr, label=r"ROC média (AUC = %0.4f $\pm$ %0.4f) %s" % (mean_auc, std_auc, estimator_name))


            
              plt.rcParams.update({'figure.figsize':(14,7)})
roc = analyze_and_plot_estimator(clf, f"CoutoBoost({iterations})", X, y)


            
              from matplotlib.lines import Line2D


# mostra o erro e importância do stump escolhido em cada iteração
plt.rcParams.update({'figure.figsize':(16,6)})
fig, [axL, axR] = plt.subplots(1, 2)
fig.suptitle(f"Análise do processo de boosting")
axL.plot(np.arange(0, iterations), clf.iteration_errors, label="Erro do stump")
axL.plot(np.arange(0, iterations), clf.iteration_alphas, label="Alfa do stump")
axL.set(xlabel='iterações', ylabel='erro/alfa',
       title='Erro e importância do melhor stump por iteração')
axL.legend()
axL.grid()

# stumps, iterations
max_stumps_or_iterations = np.maximum(clf.n_estimators, clf.iterations)
pad_width = max_stumps_or_iterations - clf.iterations


unit_x = np.arange(0, max_stumps_or_iterations)   # iterações
unit_y = np.pad(clf.iteration_stumps, (0, np.minimum(max_stumps_or_iterations - clf.iterations, clf.n_estimators)),
                mode="constant", constant_values=-1)
unit_y = np.ma.masked_equal(unit_y, -1)
axR.set_title("Uso dos stumps ao longo das iterações")

stump_per_iteration = np.ndarray((len(clf.iteration_stumps), 3))
for i, idx in enumerate(clf.iteration_stumps):
    stump_per_iteration[i] = clf.stumps[idx]

#print("stump_per_iteration", stump_per_iteration)
stump_feature_per_iteration = np.array([stump[0] for stump in stump_per_iteration], dtype=int)
stump_label_per_iteration = np.array([stump[2] for stump in stump_per_iteration], dtype=int)

colors_by_tictactoe_line = np.array(["red", "blue"])[(stump_label_per_iteration+1)//2]
markers_by_tictactoe_line = np.array([("b", "o", "x")[feature % 3] for feature in stump_feature_per_iteration])
mask_b = markers_by_tictactoe_line == "b"
mask_o = markers_by_tictactoe_line == "o"
mask_x = markers_by_tictactoe_line == "x"

scatter = axR.scatter(unit_x[mask_b], unit_y[mask_b], alpha=0.5, c=colors_by_tictactoe_line[mask_b], marker="s")
scatter = axR.scatter(unit_x[mask_o], unit_y[mask_o], alpha=0.5, c=colors_by_tictactoe_line[mask_o], marker="o")
scatter = axR.scatter(unit_x[mask_x], unit_y[mask_x], alpha=0.5, c=colors_by_tictactoe_line[mask_x], marker="x")

legend1 = axR.legend([Line2D([0], [0], color="white", marker="s", markerfacecolor="red", markersize=8, alpha=0.5),
                      Line2D([0], [0], color="white", marker="s", markerfacecolor="blue", markersize=8, alpha=0.5)],
                     ["negative", "positive"], title="Rótulo do stump", bbox_to_anchor=(1.0, 1.0))
legend2 = axR.legend([Line2D([0], [0], color="white", marker="s", markerfacecolor="black", markersize=8, alpha=0.5),
                      Line2D([0], [0], color="white", marker="o", markerfacecolor="black", markersize=8, alpha=0.5),
                      Line2D([0], [0], color="white", marker="X", markerfacecolor="black", markersize=8, alpha=0.5)],
                     ["em branco", "jogador o", "jogador x"], title="Célula do stump", bbox_to_anchor=(1.0, 0.8))
axR.add_artist(legend1)
axR.add_artist(legend2)

<matplotlib.legend.Legend at 0x20ad5df4a90>

TP2 - Boosting com o CoutoBoost¶

Descrição dos dados¶

Implementação¶

Experimentos¶

Preparação dos dados¶

Baseline: AdaBoost¶

CoutoBoost¶

Análises¶

Análise Cruzada¶

Processo de Boosting¶

	0	1	2	3	4	5	6	7	8	Result
0	x	x	x	x	o	o	x	o	o	positive
1	x	x	x	x	o	o	o	x	o	positive
2	x	x	x	x	o	o	o	o	x	positive
3	x	x	x	x	o	o	o	b	b	positive
4	x	x	x	x	o	o	b	o	b	positive