echuraev
diff --git a/‎cmake/modules/VTA.cmake‎
Lines changed: 8 additions & 0 deletions b/‎cmake/modules/VTA.cmake‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎python/tvm/autotvm/task/topi_integration.py‎
Lines changed: 7 additions & 4 deletions b/‎python/tvm/autotvm/task/topi_integration.py‎
Lines changed: 7 additions & 4 deletions
diff --git a/‎python/tvm/relay/op/strategy/generic.py‎
Lines changed: 9 additions & 0 deletions b/‎python/tvm/relay/op/strategy/generic.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎python/tvm/relay/testing/tf.py‎
Lines changed: 1 addition & 1 deletion b/‎python/tvm/relay/testing/tf.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎python/tvm/topi/x86/bitserial_dense.py‎
Lines changed: 1 addition & 1 deletion b/‎python/tvm/topi/x86/bitserial_dense.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/relay/backend/compile_engine.cc‎
Lines changed: 2 additions & 2 deletions b/‎src/relay/backend/compile_engine.cc‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/runtime/workspace_pool.cc‎
Lines changed: 0 additions & 1 deletion b/‎src/runtime/workspace_pool.cc‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎src/tir/transforms/lower_tvm_builtin.cc‎
Lines changed: 0 additions & 10 deletions b/‎src/tir/transforms/lower_tvm_builtin.cc‎
Lines changed: 0 additions & 10 deletions
diff --git a/‎vta/python/vta/autotvm.py‎
Lines changed: 1 addition & 1 deletion b/‎vta/python/vta/autotvm.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vta/python/vta/environment.py‎
Lines changed: 3 additions & 1 deletion b/‎vta/python/vta/environment.py‎
Lines changed: 3 additions & 1 deletion
@@ -104,6 +104,10 @@ elseif(PYTHON)
       find_library(__cma_lib NAMES cma PATH /usr/lib)
     elseif(${VTA_TARGET} STREQUAL "de10nano")  # DE10-Nano rules
       file(GLOB FPGA_RUNTIME_SRCS ${VTA_HW_PATH}/src/de10nano/*.cc ${VTA_HW_PATH}/src/*.cc)
+    elseif(${VTA_TARGET} STREQUAL "intelfocl")  # Intel OpenCL for FPGA rules
+      file(GLOB FOCL_SRC ${VTA_HW_PATH}/src/oclfpga/*.cc)
+      list(APPEND FPGA_RUNTIME_SRCS ${FOCL_SRC})
+      list(APPEND FPGA_RUNTIME_SRCS ${VTA_HW_PATH}/src/vmem/virtual_memory.cc ${VTA_HW_PATH}/src/vmem/virtual_memory.h)
     endif()
     # Target lib: vta
     add_library(vta SHARED ${FPGA_RUNTIME_SRCS})
@@ -123,6 +127,10 @@ elseif(PYTHON)
       target_include_directories(vta SYSTEM PUBLIC 3rdparty)
       target_include_directories(vta SYSTEM PUBLIC
         "/usr/local/intelFPGA_lite/18.1/embedded/ds-5/sw/gcc/arm-linux-gnueabihf/include")
+    elseif(${VTA_TARGET} STREQUAL "intelfocl")  # Intel OpenCL for FPGA rules
+      target_include_directories(vta PUBLIC 3rdparty)
+      set (CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++17")
+      target_link_libraries(vta -lOpenCL)
     endif()
   endif()
 
 
@@ -227,7 +227,7 @@ def _decorate(topi_schedule):
         @_register_task_schedule(task_name)
         def wrapper(outs, *args, **kwargs):
             """wrapper function for topi schedule"""
-            workload = get_workload(outs)
+            workload = get_workload(outs, task_name)
             if workload is None:
                 raise RuntimeError("Cannot find workload in attribute of this schedule")
             tgt = Target.current()
@@ -241,18 +241,21 @@ def wrapper(outs, *args, **kwargs):
     return _decorate
 
 
-def get_workload(outs):
+def get_workload(outs, task_name=None):
     """Retrieve the workload from outputs"""
 
     def traverse(tensors):
         """traverse all ops to find attached workload"""
         for t in tensors:
             op = t.op
-            if "workload" in op.attrs:
-                return args_to_workload(op.attrs["workload"])
             wkl = traverse(op.input_tensors)
             if wkl:
                 return wkl
+
+            if "workload" in op.attrs:
+                ret = args_to_workload(op.attrs["workload"])
+                if task_name is None or ret[0] == task_name:
+                    return ret
         return None
 
     outs = [outs] if isinstance(outs, tensor.Tensor) else outs
 
@@ -53,6 +53,15 @@ def wrapper(attrs, outs, target):
     return wrapper
 
 
+def wrap_topi_compute(topi_compute):
+    """Wrap TOPI compute which doesn't use attrs"""
+
+    def wrapper(attrs, inputs, out_type):
+        return [topi_compute(*inputs)]
+
+    return wrapper
+
+
 def get_conv2d_in_channels(data_shape, data_layout):
     """Get conv2d input channels"""
     data_shape = get_const_tuple(data_shape)
 
@@ -32,7 +32,7 @@
 
 try:
     tf_compat_v1 = tf.compat.v1
-except ImportError:
+except (ImportError, AttributeError):
     tf_compat_v1 = tf
 
 ######################################################################
 
@@ -122,7 +122,7 @@ def bitserial_dense(
     return matmul
 
 
-@autotvm.register_topi_schedule("biserial_dense.x86")
+@autotvm.register_topi_schedule("bitserial_dense.x86")
 def schedule_bitserial_dense(cfg, outs):
     """Schedule for bitserial_dense.
 
 
@@ -251,7 +251,7 @@ class ScheduleGetter : public backend::MemoizedExprTranslator<Array<te::Tensor>>
           << "Cannot apply TOPI schedule to a primitive function with two complicated ops"
           << " anchor=" << anchor_op_ << " current=" << op;
     }
-    if (op_pattern >= anchor_op_pattern_) {
+    if (op_pattern > anchor_op_pattern_) {
       anchor_op_ = op;
       anchor_attrs_ = call_node->attrs;
       anchor_op_pattern_ = op_pattern;
@@ -309,7 +309,7 @@ class ScheduleGetter : public backend::MemoizedExprTranslator<Array<te::Tensor>>
   tvm::Target target_;
   Op anchor_op_;
   Attrs anchor_attrs_;
-  int anchor_op_pattern_{0};
+  int anchor_op_pattern_{-1};
   OpImplementation anchor_implementation_;
   std::ostringstream readable_name_stream_;
   Array<te::Operation> scalars_;
 
@@ -115,7 +115,6 @@ class WorkspacePool::Pool {
   }
   // Release all resources
   void Release(Device dev, DeviceAPI* device) {
-    ICHECK_EQ(allocated_.size(), 1);
     for (size_t i = 1; i < free_list_.size(); ++i) {
       device->FreeDataSpace(dev, free_list_[i].data);
     }
 
@@ -109,16 +109,6 @@ class BuiltinLower : public StmtExprMutator {
     op = stmt.as<AllocateNode>();
     // Get constant allocation bound.
     int64_t nbytes = GetVectorBytes(op->dtype);
-    if (device_type_.defined()) {
-      if (const auto* dev_type = device_type_.as<IntImmNode>()) {
-        if (dev_type->value == kDLCPU) {
-          int32_t constant_size = op->constant_allocation_size();
-          if (constant_size > 0 && constant_size * nbytes < runtime::kMaxStackAlloca) {
-            return stmt;
-          }
-        }
-      }
-    }
     PrimExpr total_bytes = make_const(op->extents[0].dtype(), nbytes);
     for (size_t i = 0; i < op->extents.size(); ++i) {
       total_bytes = total_bytes * op->extents[i];
 
@@ -46,7 +46,7 @@ def reprogram_fpga(remote, _build_result):
         _build_result : tvm.autotvm.measure.measure_methods.BuildResult
             Artifact from the build phase, unused here.
         """
-        rpc_client.program_bitstream(remote, bitstream)
+        rpc_client.program_fpga(remote, bitstream)
         rpc_client.reconfig_runtime(remote)
 
     return default_module_loader(reprogram_fpga)
@@ -66,11 +66,13 @@ class DevContext(object):
     MEM_ID_INP = 2
     MEM_ID_ACC = 3
     MEM_ID_OUT = 4
+    MEM_ID_ACC_8BIT = 5
     # VTA ALU Opcodes
     ALU_OPCODE_MIN = 0
     ALU_OPCODE_MAX = 1
     ALU_OPCODE_ADD = 2
     ALU_OPCODE_SHR = 3
+    ALU_OPCODE_MUL = 4
     # Task queue id (pipeline stage)
     QID_LOAD_INP = 1
     QID_LOAD_WGT = 1
@@ -232,7 +234,7 @@ def target_host(self):
             return "llvm -mtriple=armv7-none-linux-gnueabihf"
         if self.TARGET == "ultra96":
             return "llvm -mtriple=aarch64-linux-gnu"
-        if self.TARGET in ["sim", "tsim"]:
+        if self.TARGET in ["sim", "tsim", "intelfocl"]:
             return "llvm"
         raise ValueError("Unknown target %s" % self.TARGET)
Original file line number	Diff line number	Diff line change
`@@ -115,7 +115,6 @@ class WorkspacePool::Pool {`
`115`	`115`	`}`
`116`	`116`	`// Release all resources`
`117`	`117`	`void Release(Device dev, DeviceAPI* device) {`
`118`		`- ICHECK_EQ(allocated_.size(), 1);`
`119`	`118`	`for (size_t i = 1; i < free_list_.size(); ++i) {`
`120`	`119`	`device->FreeDataSpace(dev, free_list_[i].data);`
`121`	`120`	`}`