Add files via upload

Hellisotherpeople · web-flow · commit bb99346b8bfd · 2019-08-07T06:27:58.000Z
diff --git a/card_classification.csv b/card_classification.csv
diff --git a/classification.py b/classification.py
@@ -0,0 +1,119 @@
+import string
+import csv
+from flair.data import Sentence
+from flair.models import SequenceTagger
+from flair.embeddings import WordEmbeddings, FlairEmbeddings, StackedEmbeddings, DocumentPoolEmbeddings, BertEmbeddings, ELMoEmbeddings, OpenAIGPTEmbeddings
+import torch
+from torch import tensor
+import numpy as np
+from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, log_loss, roc_auc_score, make_scorer, balanced_accuracy_score, classification_report, confusion_matrix
+from sklearn.naive_bayes import BernoulliNB
+from sklearn.metrics.pairwise import cosine_similarity
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.svm import SVC
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV, cross_val_score
+from sklearn.naive_bayes import ComplementNB
+from sklearn.neural_network import MLPClassifier
+from time import time
+import pickle
+import umap
+from sklearn.pipeline import make_union, Pipeline
+from sklearn.base import TransformerMixin, BaseEstimator
+#from sklearn.pipeline import Pipeline, make_pipeline
+import eli5 
+from eli5.lime import TextExplainer
+from eli5 import explain_prediction
+from eli5.formatters import format_as_text
+import pandas as pd
+from sklearn.externals import joblib
+
+
+def parse_string(a_str):
+    to_ret = "".join([c.lower() for c in a_str if c in string.ascii_letters or c in string.whitespace])
+    to_ret2 = to_ret.split()
+    to_ret3 = " ".join(to_ret2)
+    return to_ret3
+
+class Text2Vec( BaseEstimator, TransformerMixin):
+    '''
+    def __init__():
+        self.X = None
+    '''
+    def fit(self, X, y=None):
+        return self 
+
+    def transform(self, X):
+        list_of_emb = []
+        size_of_emb = list_of_embeddings[1].size
+        if not isinstance(X, str):
+            for doc in X:
+                p_str = parse_string(doc)
+                if not p_str:
+                    list_of_emb.append(np.zeros((size_of_emb,), dtype=np.float32))##TODO: don't hard code vector size 
+                else:
+                    a_set = Sentence(p_str)
+                    stacked_embeddings.embed(a_set)
+                    list_of_emb.append(a_set.get_embedding().detach().numpy())
+            to_ret = np.array(list_of_emb)
+        else:
+            try:
+                p_str = parse_string(X)
+                if not p_str:
+                    to_ret = np.zeros((size_of_emb,), dtype=np.float32)##TODO here too
+                else:
+                    a_set = Sentence(p_str)
+                    stacked_embeddings.embed(a_set)
+                    to_ret = a_set.get_embedding().detach().numpy().reshape(1, -1)
+            except:
+                print(type(X))
+                print(X)
+        return to_ret
+
+
+
+stacked_embeddings = DocumentPoolEmbeddings([WordEmbeddings('en'),
+                                        WordEmbeddings('glove'),])
+
+with open('card_classification.csv') as csvfile:
+    reader = csv.reader(csvfile)
+    list_of_sentences = []
+    list_of_labels = []
+    list_of_embeddings = []
+    for row in reader:
+        list_of_labels.append(row[0])
+        parsed_string = parse_string(row[1])
+        list_of_sentences.append(parsed_string)
+        set_obj = Sentence(parsed_string)
+        stacked_embeddings.embed(set_obj)
+        list_of_embeddings.append(set_obj.get_embedding().detach().numpy())
+
+
+X_train, X_val, Y_train, Y_val, Emb_train, Emb_val = train_test_split(list_of_sentences, list_of_labels, list_of_embeddings, test_size = 0.30, stratify = list_of_labels, random_state=42)
+
+
+#model = SVC(kernel = "rbf", probability = True)
+#model = KNeighborsClassifier(n_neighbors=5, metric='cosine', weights = 'distance')
+#model  = AdaBoostClassifier(n_estimators = 100, random_state = 42)
+#model = RandomForestClassifier(n_jobs = -1, n_estimators = 100, max_features = "auto", criterion = "entropy")
+model = MLPClassifier(hidden_layer_sizes=(500,), activation = 'relu', solver = 'adam', verbose = True, max_iter = 100) #early_stopping = True, validation_fraction = 0.3, n_iter_no_change = 100)
+pipe = Pipeline([('text2vec', Text2Vec()), ('model', model)])
+#model.fit(Emb_train, Y_train)
+pipe.fit(X_train, Y_train)
+
+pred = pipe.predict(X_val)
+
+print(accuracy_score(Y_val, pred))
+
+labels = np.unique(Y_val)
+conf = confusion_matrix(Y_val, pred, labels=labels)
+
+print(pd.DataFrame(conf, index=labels, columns=labels))
+
+probs = pipe.predict_proba(X_val)
+a_df = pd.DataFrame(probs, index=Y_val, columns=labels)
+a_df[a_df.eq(0)] = np.nan
+print(a_df)
+
+joblib.dump(pipe, 'saved_card_classification.pkl')
+print("Model Dumped!!!!")
diff --git a/docu_learn.py b/docu_learn.py
@@ -0,0 +1,141 @@
+import glob
+import os
+from bs4 import BeautifulSoup
+import bs4
+import string
+import flair
+from flair.data import Sentence
+from flair.models import SequenceTagger
+from flair.embeddings import WordEmbeddings, FlairEmbeddings, StackedEmbeddings, DocumentPoolEmbeddings, BertEmbeddings, ELMoEmbeddings
+import torch
+# create a StackedEmbedding object that combines glove and forward/backward flair embeddings
+from sklearn.metrics.pairwise import cosine_similarity
+from sklearn.metrics import jaccard_similarity_score
+#import numpy as np
+from docx import Document
+import sys
+import numpy as np
+from itertools import islice
+from collections import deque
+import csv
+from random import shuffle
+from sklearn.externals import joblib
+from time import time
+import pickle
+import umap
+from sklearn.pipeline import make_union, Pipeline
+from sklearn.base import TransformerMixin, BaseEstimator
+#from sklearn.pipeline import Pipeline, make_pipeline
+import eli5 
+from eli5.lime import TextExplainer
+from eli5 import explain_prediction
+from eli5.formatters import format_as_text
+import pandas as pd
+
+
+increment = False
+
+stacked_embeddings = DocumentPoolEmbeddings([
+                                        WordEmbeddings('en'),
+                                        WordEmbeddings('glove'),
+                                        #WordEmbeddings('extvec'),#ELMoEmbeddings('original'),
+                                        #BertEmbeddings('bert-base-cased'),
+                                        #FlairEmbeddings('news-forward-fast'),
+                                        #FlairEmbeddings('news-backward-fast'),
+                                        ]) #, mode='max')
+
+def parse_string(a_str):
+    to_ret = "".join([c.lower() for c in a_str if c in string.ascii_letters or c in string.whitespace])
+    to_ret2 = to_ret.split()
+    to_ret3 = " ".join(to_ret2)
+    return to_ret3
+
+class Text2Vec( BaseEstimator, TransformerMixin):
+    '''
+    def __init__():
+        self.X = None
+    '''
+    def fit(self, X, y=None):
+        return self 
+
+    def transform(self, X):
+        list_of_emb = []
+        size_of_emb = stacked_embeddings.embedding_length
+        if not isinstance(X, str):
+            for doc in X:
+                p_str = parse_string(doc)
+                if not p_str:
+                    list_of_emb.append(np.zeros((size_of_emb,), dtype=np.float32))##TODO: don't hard code vector size 
+                else:
+                    a_set = Sentence(p_str)
+                    stacked_embeddings.embed(a_set)
+                    list_of_emb.append(a_set.get_embedding().detach().numpy())
+            to_ret = np.array(list_of_emb)
+        else:
+            try:
+                p_str = parse_string(X)
+                if not p_str:
+                    to_ret = np.zeros((size_of_emb,), dtype=np.float32)##TODO here too
+                else:
+                    a_set = Sentence(p_str)
+                    stacked_embeddings.embed(a_set)
+                    to_ret = a_set.get_embedding().detach().numpy().reshape(1, -1)
+            except:
+                print(type(X))
+                print(X)
+        return to_ret
+
+
+
+pipe = joblib.load('saved_card_classification.pkl')
+
+te = TextExplainer(random_state=42, n_samples=1000, position_dependent=True)
+
+def explain_pred(sentence):
+    te.fit(sentence, pipe.predict_proba)
+    #txt = format_as_text(te.explain_prediction(target_names=["green", "neutral", "red"]))
+    txt = format_as_text(te.explain_prediction(top = 20, target_names=["ANB", "CAP", "ECON", "EDU", "ENV", "EX", "FED", "HEG", "NAT", "POL", "TOP"]))
+    print(txt)
+    print(te.metrics_)
+
+def direct_explain_pred(sentence):
+    txt = format_as_text(eli5.explain_prediction(model, doc=sentence, target_names=["green", "neutral", "red"], vec=Text2Vec())) #get vector importances
+    print(txt)
+
+def print_misclass():
+    print("misclassified examples!!!")
+    print(np.where(Y_val != pipe.predict(X_val)))
+
+    
+
+with open('card_classification.csv', 'a') as csvfile:
+    spamwriter = csv.writer(csvfile)
+    done = False
+    while not done:
+        to_process = input("Please copy and paste a document to be classified Ctrl-shift-D or ctrl-D to exit")    
+        print("MODEL PREDICTION:")
+        pred = pipe.predict(str(to_process))
+        print(pred)
+        explain_pred(str(to_process))
+        label = input("What is the ground truth label of this? Seperate labels with a space")
+        if label == "":
+            pass
+        elif label == "f":
+            break
+        elif label == "stop":
+            csvfile.close()
+            joblib.dump(pipe, 'saved_card_classification.pkl')
+            print("Model Dumped!!!!")
+            done = True
+            sys.exit()
+        else:
+            the_labels = label.split()
+            if increment == True:
+                t_model = pipe.named_steps['model']
+                ppset = Sentence(str(to_process))
+                stacked_embeddings.embed(ppset)
+                the_emb = ppset.get_embedding().detach().numpy().reshape(1, -1)
+                t_model.partial_fit(the_emb, the_labels) ##INCREMENTAL LEARNING MODE ENGAGED
+            the_labels.append(str(to_process))
+            spamwriter.writerow(the_labels)
+            csvfile.flush()