Add files via upload

Hellisotherpeople · web-flow · commit 04eb017af428 · 2019-08-12T21:41:51.000Z
diff --git a/classification.py b/classification.py
@@ -2,7 +2,7 @@
 import csv
 from flair.data import Sentence
 from flair.models import SequenceTagger
-from flair.embeddings import WordEmbeddings, FlairEmbeddings, StackedEmbeddings, DocumentPoolEmbeddings, BertEmbeddings, ELMoEmbeddings, OpenAIGPTEmbeddings, RoBERTaEmbeddings, XLNetEmbeddings, BytePairEmbeddings
+from flair.embeddings import WordEmbeddings, FlairEmbeddings, StackedEmbeddings, DocumentPoolEmbeddings, BertEmbeddings, ELMoEmbeddings, OpenAIGPTEmbeddings, RoBERTaEmbeddings, XLNetEmbeddings, BytePairEmbeddings, XLNetEmbeddings, OpenAIGPT2Embeddings
 import torch
 from torch import tensor
 import numpy as np
@@ -30,12 +30,13 @@
 from keras.callbacks import ModelCheckpoint
 from keras.wrappers.scikit_learn import KerasClassifier
 from keras.models import Sequential
-from keras.layers import Dense, Conv1D, Conv2D, MaxPooling1D, Flatten, Embedding, Reshape, Input, SimpleRNN, LSTM, InputLayer, GRU
+from keras.layers import Dense, Conv1D, Conv2D, MaxPooling1D, Flatten, Embedding, Reshape, Input, SimpleRNN, LSTM, InputLayer, GRU, GlobalMaxPooling1D
 import torch.nn as nn
 import torch.nn.functional as F
 
 
 keras = True
+keras_mode = "MLP"
 
 def parse_string(a_str):
     to_ret = "".join([c.lower() for c in a_str if c in string.ascii_letters or c in string.whitespace])
@@ -45,7 +46,6 @@ def parse_string(a_str):
 
 
 def get_misclass():
-    print("misclassified examples!!!")
     return np.where(Y_val != pipe.predict(X_val))
 
 class Text2Vec( BaseEstimator, TransformerMixin):
@@ -88,8 +88,12 @@ def transform(self, X):
 
 
 stacked_embeddings = DocumentPoolEmbeddings([WordEmbeddings('en'),
-                                        #WordEmbeddings('glove'),
-                                        #WordEmbeddings('en-crawl',
+                                            #XLNetEmbeddings('base-cased')
+                                            #OpenAIGPT2Embeddings(),
+                                        #FlairEmbeddings('news-forward-fast'),
+                                        #FlairEmbeddings('news-backward-fast'),
+                                        WordEmbeddings('glove'),
+                                        WordEmbeddings('en-crawl'),
                                        #BytePairEmbeddings('en', 300),
                                        ])
 
@@ -114,25 +118,31 @@ def transform(self, X):
 
 def create_model(optimizer='adam', kernel_initializer='glorot_uniform', epochs = 5):
         model = Sequential()
-        #model.add(InputLayer(input_shape=(153, 1, 300)))
-        #print(model.output_shape)
-        model.add(Reshape((1, list_of_embeddings[1].size), input_shape = Emb_train.shape[1:])) ##magical fucking stupid keras BS needed for RNN/CNN
-        #print(model.output_shape)
-        #model.add(Conv1D(filters=20, kernel_size=1, activation='relu')) ##works now
-        model.add(GRU(list_of_embeddings[1].size)) ##this works too - seems to be better for smaller datasets too!
-        #print(model.output_shape)
-        #model.add(Flatten())
-        #model.add(Dense(list_of_embeddings[1].size, activation='relu',kernel_initializer='he_uniform', use_bias = False))
-        #model.add(LSTM(list_of_embeddings[1].size, return_sequences = True,))
-        model.add(Dense(len(np.unique(Y_val)),activation='softmax',kernel_initializer=kernel_initializer, use_bias = False))
+
+        if keras_mode == "CNN":
+            model.add(Reshape((1, list_of_embeddings[1].size), input_shape = Emb_train.shape[1:])) ##magical fucking stupid keras BS needed for RNN/CNN
+            model.add(Conv1D(filters=50, kernel_size=1, activation='relu')) ##works now
+            model.add(Flatten()) ##need this with Conv1D
+            #model.add(GlobalMaxPooling1D()) ##pooling would go here instead of flattening if you're into that 
+            model.add(Dense(len(np.unique(Y_val)),activation='softmax',kernel_initializer=kernel_initializer, use_bias = False))
+
+        elif keras_mode == "RNN":
+            model.add(Reshape((1, list_of_embeddings[1].size), input_shape = Emb_train.shape[1:])) 
+            model.add(GRU(list_of_embeddings[1].size)) ##this works too - seems to be better for smaller datasets too!
+            model.add(Dense(len(np.unique(Y_val)),activation='softmax',kernel_initializer=kernel_initializer, use_bias = False))
+
+        else: ##for simple MLP models 
+            model.add(Dense(list_of_embeddings[1].size, activation='relu',kernel_initializer='he_uniform', use_bias = False))
+            model.add(Dense(len(np.unique(Y_val)),activation='softmax',kernel_initializer=kernel_initializer, use_bias = False))
+
         model.compile(loss='categorical_crossentropy',optimizer=optimizer, metrics=['accuracy'])
         return model
 
 
 
 if keras:
     checkpointer = ModelCheckpoint(filepath='/tmp/weights.hdf5', verbose=1, save_best_only=True)    
-    model = KerasClassifier(build_fn=create_model, batch_size = 32, epochs = 50, callbacks=[checkpointer], validation_split = 0.2)
+    model = KerasClassifier(build_fn=create_model, batch_size = 32, epochs = 400, callbacks=[checkpointer], validation_split = 0.2)
 
 
 
@@ -166,7 +176,11 @@ def create_model(optimizer='adam', kernel_initializer='glorot_uniform', epochs =
 a_df[a_df.eq(0)] = np.nan
 print(a_df.round(2))
 
-print(a_df.iloc[get_misclass()])
+misclass = get_misclass()
+
+print("misclassified examples!!!")
+print(get_misclass())
+print(a_df.iloc[get_misclass()].round(2))
 
 if keras:
     pipe.named_steps['model'].model.save('keras_model.h5')