metax666
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 0 additions & 4 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 0 additions & 4 deletions
diff --git a/‎backends/npu/kernels/batch_norm_kernel.cc‎
Lines changed: 53 additions & 17 deletions b/‎backends/npu/kernels/batch_norm_kernel.cc‎
Lines changed: 53 additions & 17 deletions
diff --git a/‎backends/npu/kernels/funcs/npu_op_prepare.h‎
Lines changed: 4 additions & 3 deletions b/‎backends/npu/kernels/funcs/npu_op_prepare.h‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎backends/npu/kernels/funcs/npu_op_runner.cc‎
Lines changed: 39 additions & 16 deletions b/‎backends/npu/kernels/funcs/npu_op_runner.cc‎
Lines changed: 39 additions & 16 deletions
diff --git a/‎backends/npu/kernels/mean_all_kernel.cc‎
Lines changed: 23 additions & 4 deletions b/‎backends/npu/kernels/mean_all_kernel.cc‎
Lines changed: 23 additions & 4 deletions
@@ -35,10 +35,6 @@ repos:
     hooks:
     -   id: black
         files: (.*\.(py|pyi|bzl)|BUILD|.*\.BUILD|WORKSPACE)$
--   repo: https://github.com/pycqa/isort
-    rev: 5.11.2
-    hooks:
-    -   id: isort
 -   repo: https://github.com/PyCQA/flake8
     rev: 4.0.1
     hooks:
 
@@ -50,7 +50,8 @@ void BatchNormKernel(const Context& dev_ctx,
           data_layout_str,
           FLAGS_npu_storage_format));
 
-  if (FLAGS_npu_storage_format) {
+  if (FLAGS_npu_storage_format &&
+      x_dims.size() == 4) {  // TODO(qili93): add 3D support
     AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, y);
   } else {
     dev_ctx.template Alloc<T>(y);
@@ -111,7 +112,8 @@ void BatchNormKernel(const Context& dev_ctx,
                     {{"epsilon", epsilon}});
     runner_infer.Run(stream);
   } else {
-    if (FLAGS_npu_storage_format) {
+    if (FLAGS_npu_storage_format &&
+        x_dims.size() == 4) {  // TODO(qili93): add 3D support
       AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, mean_out);
       AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, variance_out);
       AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, saved_mean);
@@ -123,12 +125,16 @@ void BatchNormKernel(const Context& dev_ctx,
       dev_ctx.template Alloc<float>(saved_variance);
     }
 
+    // BN3DTrainingReduce will throw output size mismatch if output tensor in
+    // NCHW format should change output tensor format same with input tensor
+    // format NDCHW or NDHWC
     phi::DenseTensorMeta meta = {
-        phi::DataType::FLOAT32, mean_out->dims(), x.layout()};
+        phi::DataType::FLOAT32, mean_out->dims(), x_tensor.layout()};
     phi::DenseTensor sum, square_sum;
     sum.set_meta(meta);
     square_sum.set_meta(meta);
-    if (FLAGS_npu_storage_format) {
+    if (FLAGS_npu_storage_format &&
+        x_dims.size() == 4) {  // TODO(qili93): add 3D support
       AllocNPUTensor<float>(dev_ctx, ACL_FORMAT_NC1HWC0, &sum);
       AllocNPUTensor<float>(dev_ctx, ACL_FORMAT_NC1HWC0, &square_sum);
     } else {
@@ -138,19 +144,43 @@ void BatchNormKernel(const Context& dev_ctx,
 
     std::string reduce_name =
         (x.dims().size() == 5) ? "BN3DTrainingReduce" : "BNTrainingReduce";
-    const auto& runner_reduce = NpuOpRunner(
-        reduce_name, {x_tensor}, {sum, square_sum}, {{"epsilon", epsilon}});
-    runner_reduce.Run(stream);
+    NpuOpRunner runner_reduce;
+    runner_reduce.SetType(reduce_name)
+        .AddInput(x_tensor)
+        .AddOutput(sum)
+        .AddOutput(square_sum)
+        .AddAttrs({{"epsilon", epsilon}})
+        .Run(stream);
+
+    // BN3DTrainingUpdate will throw output size mismatch if output tensor in
+    // NCHW format should change output tensor format same with input tensor
+    // format NDCHW or NDHWC
+    if (x_dims.size() == 5) {
+      mean_out->set_meta(meta);
+      variance_out->set_meta(meta);
+      saved_mean->set_meta(meta);
+      saved_variance->set_meta(meta);
+    }
 
     std::string update_name =
         (x.dims().size() == 5) ? "BN3DTrainingUpdate" : "BNTrainingUpdate";
-    const auto& runner_update = NpuOpRunner(
-        update_name,
-        {x_tensor, sum, square_sum, scale, bias, running_mean, running_var},
-        {y_tensor, *mean_out, *variance_out, *saved_mean, *saved_variance},
-        {{"factor", static_cast<float>(momentum)},
-         {"epsilon", static_cast<float>(epsilon)}});
-    runner_update.Run(stream);
+    NpuOpRunner runner_update;
+    runner_update.SetType(update_name)
+        .AddInput(x_tensor)
+        .AddInput(sum)
+        .AddInput(square_sum)
+        .AddInput(scale)
+        .AddInput(bias)
+        .AddInput(running_mean)
+        .AddInput(running_var)
+        .AddOutput(y_tensor)
+        .AddOutput(*mean_out)
+        .AddOutput(*variance_out)
+        .AddOutput(*saved_mean)
+        .AddOutput(*saved_variance)
+        .AddAttrs({{"epsilon", static_cast<float>(epsilon)}})
+        .AddAttrs({{"factor", static_cast<float>(momentum)}})
+        .Run(stream);
   }
 }
 
@@ -246,7 +276,8 @@ void BatchNormGradKernel(
 
   auto stream = dev_ctx.stream();
   if (d_scale && d_bias) {
-    if (FLAGS_npu_storage_format) {
+    if (FLAGS_npu_storage_format &&
+        x_dims.size() == 4) {  // TODO(qili93): add 3D support
       AllocNPUTensor<float>(dev_ctx, ACL_FORMAT_NC1HWC0, d_scale);
       AllocNPUTensor<float>(dev_ctx, ACL_FORMAT_NC1HWC0, d_bias);
     } else {
@@ -271,7 +302,8 @@ void BatchNormGradKernel(
   }
 
   if (d_x) {
-    if (FLAGS_npu_storage_format) {
+    if (FLAGS_npu_storage_format &&
+        x_dims.size() == 4) {  // TODO(qili93): add 3D support
       AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, d_x);
     } else {
       dev_ctx.template Alloc<T>(d_x);
@@ -332,6 +364,9 @@ void BatchNormInferKernel(const Context& dev_ctx,
   const auto& x_dims = x.dims();
   const bool channel_last = data_layout_str == "NHWC" && x_dims.size() > 2;
 
+  VLOG(1) << "0 -- BatchNormInferKernel: Attr <channel_last> = "
+          << channel_last;
+
   PADDLE_ENFORCE_EQ(
       channel_last && FLAGS_npu_storage_format,
       false,
@@ -343,7 +378,8 @@ void BatchNormInferKernel(const Context& dev_ctx,
           data_layout_str,
           FLAGS_npu_storage_format));
 
-  if (FLAGS_npu_storage_format) {
+  if (FLAGS_npu_storage_format &&
+      x_dims.size() == 4) {  // TODO(qili93): add 3D support
     AllocNPUTensor<T>(dev_ctx, ACL_FORMAT_NC1HWC0, y);
   } else {
     dev_ctx.template Alloc<T>(y);
 
@@ -31,11 +31,12 @@ namespace custom_kernel {
 inline std::string DebugNPUTensor(const phi::DenseTensor& tensor) {
   std::stringstream ss;
   if (tensor.initialized()) {
-    ss << ": format: " << tensor.layout() << ", dims: [" << tensor.dims() << "]"
+    ss << ": dtype: " << tensor.dtype() << ", format: " << tensor.layout()
+       << ", dims: [" << tensor.dims() << "]"
        << ", capacity: <" << tensor.capacity() << ">, ";
   } else {
-    ss << ": format: " << tensor.layout() << ", dims: [" << tensor.dims()
-       << "]";
+    ss << ": dtype: " << tensor.dtype() << ", format: " << tensor.layout()
+       << ", dims: [" << tensor.dims() << "]";
   }
 
   if (!tensor.storage_properties_initialized()) {
 
@@ -14,8 +14,6 @@
 
 #include "kernels/funcs/npu_op_runner.h"
 
-#include <map>
-
 #include "acl/acl_op_compiler.h"
 #include "kernels/funcs/npu_enforce.h"
 #include "kernels/funcs/npu_funcs.h"
@@ -311,24 +309,49 @@ std::vector<aclDataBuffer *> &NpuOpRunner::GetOutputBuffers() {
 
 aclTensorDesc *NpuOpRunner::CreateTensorDesc(phi::DenseTensor tensor,
                                              aclMemType mem_type) {
-  auto dtype = ConvertToNpuDtype(tensor.dtype());
-  auto format = ConvertToNpuFormat(tensor.layout());
-  auto dims = phi::vectorize(tensor.dims());
-  int size = dims.size();
-
-  if (op_type_ == "DropOutGenMask" && size == 1 && *(dims.data()) == 1) {
-    size = 0;
+  auto data_type = ConvertToNpuDtype(tensor.dtype());
+  auto origin_format = ConvertToNpuFormat(tensor.layout());
+  auto origin_dims = phi::vectorize(tensor.dims());
+
+  auto origin_size = origin_dims.size();
+  if (op_type_ == "DropOutGenMask" && origin_size == 1 &&
+      *(origin_dims.data()) == 1) {
+    origin_size = 0;
   }
 
-  VLOG(4) << "NPU dtype:" << dtype << " "
-          << "rank:" << dims.size() << " dims: " << tensor.dims()
-          << " format:" << format;
-
-  auto *desc = aclCreateTensorDesc(dtype, size, dims.data(), format);
+  auto *desc = aclCreateTensorDesc(
+      data_type, origin_size, origin_dims.data(), origin_format);
   PADDLE_ENFORCE_NOT_NULL(
       desc, phi::errors::External("Call aclCreateTensorDesc failed."));
-  PADDLE_ENFORCE_NPU_SUCCESS(aclSetTensorFormat(desc, format));
-  PADDLE_ENFORCE_NPU_SUCCESS(aclSetTensorShape(desc, size, dims.data()));
+
+  if (tensor.storage_properties_initialized()) {
+    auto npu_properties =
+        tensor.storage_properties<phi::NPUStorageProperties>();
+    int64_t storage_format = npu_properties.storage_format;
+    auto storage_dims = phi::vectorize(npu_properties.storage_dims);
+    PADDLE_ENFORCE_NPU_SUCCESS(
+        aclSetTensorFormat(desc, (aclFormat)storage_format));
+    PADDLE_ENFORCE_NPU_SUCCESS(
+        aclSetTensorShape(desc, storage_dims.size(), storage_dims.data()));
+    VLOG(1) << "CreateTensorDesc for OP: " << op_type_
+            << ", data_type: " << data_type
+            << ", origin_format: " << origin_format
+            << ", storage_format: " << storage_format
+            << ", origin_dims: " << tensor.dims()
+            << ", storage_dims: " << npu_properties.storage_dims;
+  } else {
+    PADDLE_ENFORCE_NPU_SUCCESS(
+        aclSetTensorFormat(desc, (aclFormat)origin_format));
+    PADDLE_ENFORCE_NPU_SUCCESS(
+        aclSetTensorShape(desc, origin_size, origin_dims.data()));
+    VLOG(1) << "CreateTensorDesc for OP: " << op_type_
+            << ", data_type: " << data_type
+            << ", origin_format: " << origin_format
+            << ", storage_format: " << origin_format
+            << ", origin_dims: " << tensor.dims()
+            << ", storage_dims: " << tensor.dims();
+  }
+
   if (mem_type == ACL_MEMTYPE_HOST) {
     PADDLE_ENFORCE_NPU_SUCCESS(aclSetTensorPlaceMent(desc, mem_type));
   }
 
@@ -21,12 +21,31 @@ template <typename T, typename Context>
 void MeanAllKernel(const Context& dev_ctx,
                    const phi::DenseTensor& x,
                    phi::DenseTensor* out) {
-  std::vector<int> axes;
-  NPUAttributeMap attr_input = {{"keep_dims", false}, {"axes", axes}};
+  auto rank = x.dims().size();
+  auto out_dims = out->dims();
   dev_ctx.template Alloc<T>(out);
-  const auto& runner = NpuOpRunner("ReduceMeanD", {x}, {*out}, attr_input);
+  if (rank == 0) {  // scalar
+    TensorCopy(dev_ctx, x, false, out);
+    out->Resize(out_dims);  // copy will reset the dims.
+    return;
+  }
+
   auto stream = dev_ctx.stream();
-  runner.Run(stream);
+
+  std::vector<int64_t> reduce_dims;
+  reduce_dims.reserve(rank);
+  for (decltype(rank) i = 0; i < rank; ++i) {
+    reduce_dims.push_back(i);
+  }
+
+  NpuOpRunner runner;
+  runner.SetType("ReduceMean")
+      .AddInput(x)
+      .AddInput(dev_ctx, std::move(reduce_dims))
+      .AddOutput(*out)
+      .AddAttr("keep_dims", false)
+      .AddAttr("noop_with_empty_axes", true)
+      .Run(stream);
 }
 
 template <typename T, typename Context>