Hellisotherpeople
diff --git a/‎classification.py‎
Lines changed: 34 additions & 6 deletions b/‎classification.py‎
Lines changed: 34 additions & 6 deletions
diff --git a/‎docu_learn.py‎
Lines changed: 35 additions & 13 deletions b/‎docu_learn.py‎
Lines changed: 35 additions & 13 deletions
diff --git a/‎explaination2.png‎
627 KB b/‎explaination2.png‎
627 KB
diff --git a/‎explaination3.png‎
423 KB b/‎explaination3.png‎
423 KB
@@ -27,8 +27,14 @@
 from eli5.formatters import format_as_text
 import pandas as pd
 from sklearn.externals import joblib
+from keras.callbacks import ModelCheckpoint
+from keras.wrappers.scikit_learn import KerasClassifier
+from keras.models import Sequential
+from keras.layers import Dense
 
 
+keras = False
+
 def parse_string(a_str):
     to_ret = "".join([c.lower() for c in a_str if c in string.ascii_letters or c in string.whitespace])
     to_ret2 = to_ret.split()
@@ -54,7 +60,7 @@ def transform(self, X):
                 else:
                     a_set = Sentence(p_str)
                     stacked_embeddings.embed(a_set)
-                    list_of_emb.append(a_set.get_embedding().detach().numpy())
+                    list_of_emb.append(a_set.get_embedding().cpu().detach().numpy())
             to_ret = np.array(list_of_emb)
         else:
             try:
@@ -64,7 +70,7 @@ def transform(self, X):
                 else:
                     a_set = Sentence(p_str)
                     stacked_embeddings.embed(a_set)
-                    to_ret = a_set.get_embedding().detach().numpy().reshape(1, -1)
+                    to_ret = a_set.get_embedding().cpu().detach().numpy().reshape(1, -1)
             except:
                 print(type(X))
                 print(X)
@@ -73,7 +79,7 @@ def transform(self, X):
 
 
 stacked_embeddings = DocumentPoolEmbeddings([WordEmbeddings('en'),
-                                        WordEmbeddings('glove'),])
+                                        WordEmbeddings('glove'), WordEmbeddings('extvec')])
 
 with open('card_classification.csv') as csvfile:
     reader = csv.reader(csvfile)
@@ -86,17 +92,36 @@ def transform(self, X):
         list_of_sentences.append(parsed_string)
         set_obj = Sentence(parsed_string)
         stacked_embeddings.embed(set_obj)
-        list_of_embeddings.append(set_obj.get_embedding().detach().numpy())
+        list_of_embeddings.append(set_obj.get_embedding().cpu().detach().numpy())
 
 
 X_train, X_val, Y_train, Y_val, Emb_train, Emb_val = train_test_split(list_of_sentences, list_of_labels, list_of_embeddings, test_size = 0.30, stratify = list_of_labels, random_state=42)
 
 
+
+def create_model(optimizer='adam', kernel_initializer='glorot_uniform', epochs = 5):
+        model = Sequential()
+        model.add(Dense(list_of_embeddings[1].size, activation='relu',kernel_initializer='he_uniform', use_bias = False))
+        model.add(Dense(11,activation='softmax',kernel_initializer=kernel_initializer, use_bias = False))
+        model.compile(loss='categorical_crossentropy',optimizer=optimizer, metrics=['accuracy'])
+        return model
+
+
+
+if keras:
+    checkpointer = ModelCheckpoint(filepath='/tmp/weights.hdf5', verbose=1, save_best_only=True)    
+    model = KerasClassifier(build_fn=create_model, batch_size = 32, epochs = 100, callbacks=[checkpointer], validation_split = 0.2)
+
 #model = SVC(kernel = "rbf", probability = True)
-#model = KNeighborsClassifier(n_neighbors=5, metric='cosine', weights = 'distance')
+model = KNeighborsClassifier(n_neighbors=5, metric='cosine', weights = 'distance')
 #model  = AdaBoostClassifier(n_estimators = 100, random_state = 42)
 #model = RandomForestClassifier(n_jobs = -1, n_estimators = 100, max_features = "auto", criterion = "entropy")
-model = MLPClassifier(hidden_layer_sizes=(500,), activation = 'relu', solver = 'adam', verbose = True, max_iter = 100) #early_stopping = True, validation_fraction = 0.3, n_iter_no_change = 100)
+#model = MLPClassifier(hidden_layer_sizes=(500,), activation = 'relu', solver = 'adam', verbose = True, max_iter = 100) #early_stopping = True, validation_fraction = 0.3, n_iter_no_change = 100)
+
+
+
+
+
 pipe = Pipeline([('text2vec', Text2Vec()), ('model', model)])
 #model.fit(Emb_train, Y_train)
 pipe.fit(X_train, Y_train)
@@ -115,5 +140,8 @@ def transform(self, X):
 a_df[a_df.eq(0)] = np.nan
 print(a_df)
 
+if keras:
+    pipe.named_steps['model'].model.save('keras_model.h5')
+    pipe.named_steps['model'].model = None
 joblib.dump(pipe, 'saved_card_classification.pkl')
 print("Model Dumped!!!!")
@@ -29,21 +29,35 @@
 import eli5 
 from eli5.lime import TextExplainer
 from eli5 import explain_prediction
-from eli5.formatters import format_as_text
+from eli5.formatters import format_as_text, format_as_html
 import pandas as pd
+from IPython.display import display
+from keras.callbacks import ModelCheckpoint
+from keras.wrappers.scikit_learn import KerasClassifier
+from keras.models import Sequential
+from keras.layers import Dense
+from keras.models import load_model
 
-
+keras = False
 increment = False
 
 stacked_embeddings = DocumentPoolEmbeddings([
                                         WordEmbeddings('en'),
                                         WordEmbeddings('glove'),
-                                        #WordEmbeddings('extvec'),#ELMoEmbeddings('original'),
+                                        WordEmbeddings('extvec'),#ELMoEmbeddings('original'),
                                         #BertEmbeddings('bert-base-cased'),
                                         #FlairEmbeddings('news-forward-fast'),
                                         #FlairEmbeddings('news-backward-fast'),
                                         ]) #, mode='max')
 
+def create_model(optimizer='adam', kernel_initializer='glorot_uniform', epochs = 5):
+        model = Sequential()
+        model.add(Dense(list_of_embeddings[1].size, activation='relu',kernel_initializer='he_uniform', use_bias = True))
+        model.add(Dense(11,activation='softmax',kernel_initializer=kernel_initializer, use_bias = True))
+        model.compile(loss='categorical_crossentropy',optimizer=optimizer, metrics=['accuracy'])
+        return model
+
+
 def parse_string(a_str):
     to_ret = "".join([c.lower() for c in a_str if c in string.ascii_letters or c in string.whitespace])
     to_ret2 = to_ret.split()
@@ -69,7 +83,7 @@ def transform(self, X):
                 else:
                     a_set = Sentence(p_str)
                     stacked_embeddings.embed(a_set)
-                    list_of_emb.append(a_set.get_embedding().detach().numpy())
+                    list_of_emb.append(a_set.get_embedding().cpu().detach().numpy())
             to_ret = np.array(list_of_emb)
         else:
             try:
@@ -79,7 +93,7 @@ def transform(self, X):
                 else:
                     a_set = Sentence(p_str)
                     stacked_embeddings.embed(a_set)
-                    to_ret = a_set.get_embedding().detach().numpy().reshape(1, -1)
+                    to_ret = a_set.get_embedding().cpu().detach().numpy().reshape(1, -1)
             except:
                 print(type(X))
                 print(X)
@@ -89,18 +103,23 @@ def transform(self, X):
 
 pipe = joblib.load('saved_card_classification.pkl')
 
-te = TextExplainer(random_state=42, n_samples=1000, position_dependent=True)
+if keras:
+    pipe.named_steps['model'].model = load_model('keras_model.h5')
+
+
+te = TextExplainer(random_state=42, n_samples=10000, position_dependent=True)
 
 def explain_pred(sentence):
     te.fit(sentence, pipe.predict_proba)
     #txt = format_as_text(te.explain_prediction(target_names=["green", "neutral", "red"]))
-    txt = format_as_text(te.explain_prediction(top = 20, target_names=["ANB", "CAP", "ECON", "EDU", "ENV", "EX", "FED", "HEG", "NAT", "POL", "TOP"]))
-    print(txt)
+    t_pred = te.explain_prediction(top = 20, target_names=["ANB", "CAP", "ECON", "EDU", "ENV", "EX", "FED", "HEG", "NAT", "POL", "TOP"])
+    txt = format_as_text(t_pred)
+    html = format_as_html(t_pred)
+    html_file = open("latest_prediction.html", "a+")
+    html_file.write(html)
+    html_file.close()
     print(te.metrics_)
 
-def direct_explain_pred(sentence):
-    txt = format_as_text(eli5.explain_prediction(model, doc=sentence, target_names=["green", "neutral", "red"], vec=Text2Vec())) #get vector importances
-    print(txt)
 
 def print_misclass():
     print("misclassified examples!!!")
@@ -124,6 +143,9 @@ def print_misclass():
             break
         elif label == "stop":
             csvfile.close()
+            if keras:
+                pipe.named_steps['model'].model.save('keras_model.h5')
+                pipe.named_steps['model'].model = None
             joblib.dump(pipe, 'saved_card_classification.pkl')
             print("Model Dumped!!!!")
             done = True
@@ -134,8 +156,8 @@ def print_misclass():
                 t_model = pipe.named_steps['model']
                 ppset = Sentence(str(to_process))
                 stacked_embeddings.embed(ppset)
-                the_emb = ppset.get_embedding().detach().numpy().reshape(1, -1)
+                the_emb = ppset.get_embedding().cpu().detach().numpy().reshape(1, -1)
                 t_model.partial_fit(the_emb, the_labels) ##INCREMENTAL LEARNING MODE ENGAGED
             the_labels.append(str(to_process))
             spamwriter.writerow(the_labels)
-            csvfile.flush()
+            csvfile.flush()