thecaptain789
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎Dockerfile‎
Lines changed: 1 addition & 1 deletion b/‎Dockerfile‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎metagpt/actions/di/execute_nb_code.py‎
Lines changed: 2 additions & 6 deletions b/‎metagpt/actions/di/execute_nb_code.py‎
Lines changed: 2 additions & 6 deletions
diff --git a/‎metagpt/rag/schema.py‎
Lines changed: 58 additions & 3 deletions b/‎metagpt/rag/schema.py‎
Lines changed: 58 additions & 3 deletions
diff --git a/‎metagpt/strategy/task_type.py‎
Lines changed: 2 additions & 1 deletion b/‎metagpt/strategy/task_type.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎metagpt/tools/libs/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎metagpt/tools/libs/__init__.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎metagpt/tools/libs/editor.py‎
Lines changed: 85 additions & 4 deletions b/‎metagpt/tools/libs/editor.py‎
Lines changed: 85 additions & 4 deletions
diff --git a/‎metagpt/tools/libs/env.py‎
Lines changed: 51 additions & 6 deletions b/‎metagpt/tools/libs/env.py‎
Lines changed: 51 additions & 6 deletions
@@ -189,3 +189,4 @@ cov.xml
 *-structure.json
 *.dot
 .python-version
+tests/data/requirements/*.jpg
@@ -3,7 +3,7 @@ FROM nikolaik/python-nodejs:python3.9-nodejs20-slim
 
 # Install Debian software needed by MetaGPT and clean up in one RUN command to reduce image size
 RUN apt update &&\
-    apt install -y libgomp1 git chromium fonts-ipafont-gothic fonts-wqy-zenhei fonts-thai-tlwg fonts-kacst fonts-freefont-ttf libxss1 --no-install-recommends &&\
+    apt install -y libgomp1 git chromium fonts-ipafont-gothic fonts-wqy-zenhei fonts-thai-tlwg fonts-kacst fonts-freefont-ttf libxss1 --no-install-recommends file &&\
     apt clean && rm -rf /var/lib/apt/lists/*
 
 # Install Mermaid CLI globally
 
@@ -191,7 +191,7 @@ def parse_outputs(self, outputs: list[str], keep_len: int = 5000) -> Tuple[bool,
                 output_text = remove_log_and_warning_lines(output_text)
             # The useful information of the exception is at the end,
             # the useful information of normal output is at the begining.
-            if '<!DOCTYPE html>' not in output_text:
+            if "<!DOCTYPE html>" not in output_text:
                 output_text = output_text[:keep_len] if is_success else output_text[-keep_len:]
 
             parsed_output.append(output_text)
@@ -286,11 +286,7 @@ async def run(self, code: str, language: Literal["python", "markdown"] = "python
 def remove_log_and_warning_lines(input_str: str) -> str:
     delete_lines = ["[warning]", "warning:", "[cv]", "[info]"]
     result = "\n".join(
-        [
-            line
-            for line in input_str.split("\n")
-            if not any(dl in line.lower() for dl in delete_lines)
-        ]
+        [line for line in input_str.split("\n") if not any(dl in line.lower() for dl in delete_lines)]
     ).strip()
     return result
 
 
@@ -1,7 +1,7 @@
 """RAG schemas."""
-
+from enum import Enum
 from pathlib import Path
-from typing import Any, ClassVar, Literal, Optional, Union
+from typing import Any, ClassVar, List, Literal, Optional, Union
 
 from chromadb.api.types import CollectionMetadata
 from llama_index.core.embeddings import BaseEmbedding
@@ -12,6 +12,7 @@
 
 from metagpt.config2 import config
 from metagpt.configs.embedding_config import EmbeddingType
+from metagpt.logs import logger
 from metagpt.rag.interface import RAGObject
 
 
@@ -44,7 +45,13 @@ class FAISSRetrieverConfig(IndexRetrieverConfig):
     @model_validator(mode="after")
     def check_dimensions(self):
         if self.dimensions == 0:
-            self.dimensions = self._embedding_type_to_dimensions.get(config.embedding.api_type, 1536)
+            self.dimensions = config.embedding.dimensions or self._embedding_type_to_dimensions.get(
+                config.embedding.api_type, 1536
+            )
+            if not config.embedding.dimensions and config.embedding.api_type not in self._embedding_type_to_dimensions:
+                logger.warning(
+                    f"You didn't set dimensions in config when using {config.embedding.api_type}, default to 1536"
+                )
 
         return self
 
@@ -207,3 +214,51 @@ def get_obj_metadata(obj: RAGObject) -> dict:
         )
 
         return metadata.model_dump()
+
+
+class OmniParseType(str, Enum):
+    """OmniParseType"""
+
+    PDF = "PDF"
+    DOCUMENT = "DOCUMENT"
+
+
+class ParseResultType(str, Enum):
+    """The result type for the parser."""
+
+    TXT = "text"
+    MD = "markdown"
+    JSON = "json"
+
+
+class OmniParseOptions(BaseModel):
+    """OmniParse Options config"""
+
+    result_type: ParseResultType = Field(default=ParseResultType.MD, description="OmniParse result_type")
+    parse_type: OmniParseType = Field(default=OmniParseType.DOCUMENT, description="OmniParse parse_type")
+    max_timeout: Optional[int] = Field(default=120, description="Maximum timeout for OmniParse service requests")
+    num_workers: int = Field(
+        default=5,
+        gt=0,
+        lt=10,
+        description="Number of concurrent requests for multiple files",
+    )
+
+
+class OminParseImage(BaseModel):
+    image: str = Field(default="", description="image str bytes")
+    image_name: str = Field(default="", description="image name")
+    image_info: Optional[dict] = Field(default={}, description="image info")
+
+
+class OmniParsedResult(BaseModel):
+    markdown: str = Field(default="", description="markdown text")
+    text: str = Field(default="", description="plain text")
+    images: Optional[List[OminParseImage]] = Field(default=[], description="images")
+    metadata: Optional[dict] = Field(default={}, description="metadata")
+
+    @model_validator(mode="before")
+    def set_markdown(cls, values):
+        if not values.get("markdown"):
+            values["markdown"] = values.get("text")
+        return values
@@ -8,7 +8,8 @@
     FEATURE_ENGINEERING_PROMPT,
     IMAGE2WEBPAGE_PROMPT,
     MODEL_EVALUATE_PROMPT,
-    MODEL_TRAIN_PROMPT, WEB_SCRAPING_PROMPT,
+    MODEL_TRAIN_PROMPT,
+    WEB_SCRAPING_PROMPT,
 )
 
 
 
@@ -17,7 +17,7 @@
     deployer,
     git,
 )
-from metagpt.tools.libs.env import get_env, set_get_env_entry, default_get_env, get_env_description
+from metagpt.tools.libs.env import get_env, set_get_env_entry, default_get_env, get_env_description, get_env_default
 
 _ = (
     data_preprocess,
@@ -32,6 +32,7 @@
     deployer,
     git,
     get_env,
+    get_env_default,
     get_env_description,
     set_get_env_entry,
     default_get_env,
 
@@ -1,11 +1,18 @@
+import base64
 import os
 import shutil
 import subprocess
+from pathlib import Path
+from typing import List, Optional, Union
 
 from pydantic import BaseModel
 
 from metagpt.const import DEFAULT_WORKSPACE_ROOT
+from metagpt.logs import logger
 from metagpt.tools.tool_registry import register_tool
+from metagpt.utils import read_docx
+from metagpt.utils.common import aread_bin, awrite_bin, run_coroutine_sync
+from metagpt.utils.repo_to_markdown import is_text_file
 from metagpt.utils.report import EditorReporter
 
 
@@ -40,12 +47,26 @@ def write(self, path: str, content: str):
 
     def read(self, path: str) -> FileBlock:
         """Read the whole content of a file. Using absolute paths as the argument for specifying the file location."""
-        with open(path, "r") as f:
-            self.resource.report(path, "path")
-            lines = f.readlines()
+        is_text, mime_type = run_coroutine_sync(is_text_file, path)
+        if is_text:
+            lines = self._read_text(path)
+        elif mime_type == "application/pdf":
+            lines = self._read_pdf(path)
+        elif mime_type in {
+            "application/msword",
+            "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
+            "application/vnd.ms-word.document.macroEnabled.12",
+            "application/vnd.openxmlformats-officedocument.wordprocessingml.template",
+            "application/vnd.ms-word.template.macroEnabled.12",
+        }:
+            lines = self._read_docx(path)
+        else:
+            return FileBlock(file_path=str(path), block_content="")
+        self.resource.report(str(path), "path")
+
         lines_with_num = [f"{i + 1:03}|{line}" for i, line in enumerate(lines)]
         result = FileBlock(
-            file_path=path,
+            file_path=str(path),
             block_content="".join(lines_with_num),
         )
         return result
@@ -196,3 +217,63 @@ def _lint_file(cls, file_path: str) -> (bool, str):
         lint_passed = result.returncode == 0
         lint_message = result.stdout
         return lint_passed, lint_message
+
+    @staticmethod
+    def _read_text(path: Union[str, Path]) -> List[str]:
+        with open(str(path), "r") as f:
+            lines = f.readlines()
+        return lines
+
+    @staticmethod
+    def _read_pdf(path: Union[str, Path]) -> List[str]:
+        result = run_coroutine_sync(Editor._omniparse_read_file, path)
+        if result:
+            return result
+
+        from llama_index.readers.file import PDFReader
+
+        reader = PDFReader()
+        lines = reader.load_data(file=Path(path))
+        return [i.text for i in lines]
+
+    @staticmethod
+    def _read_docx(path: Union[str, Path]) -> List[str]:
+        result = run_coroutine_sync(Editor._omniparse_read_file, path)
+        if result:
+            return result
+        return read_docx(str(path))
+
+    @staticmethod
+    async def _omniparse_read_file(path: Union[str, Path]) -> Optional[List[str]]:
+        from metagpt.tools.libs import get_env_default
+        from metagpt.utils.omniparse_client import OmniParseClient
+
+        base_url = await get_env_default(key="base_url", app_name="OmniParse", default_value="")
+        if not base_url:
+            return None
+        api_key = await get_env_default(key="api_key", app_name="OmniParse", default_value="")
+        v = await get_env_default(key="timeout", app_name="OmniParse", default_value="120")
+        try:
+            timeout = int(v) or 120
+        except ValueError:
+            timeout = 120
+
+        try:
+            client = OmniParseClient(api_key=api_key, base_url=base_url, max_timeout=timeout)
+            file_data = await aread_bin(filename=path)
+            ret = await client.parse_document(file_input=file_data, bytes_filename=str(path))
+        except (ValueError, Exception) as e:
+            logger.exception(f"{path}: {e}")
+            return None
+        if not ret.images:
+            return [ret.text] if ret.text else None
+
+        result = [ret.text]
+        img_dir = Path(path).parent / (Path(path).name.replace(".", "_") + "_images")
+        img_dir.mkdir(parents=True, exist_ok=True)
+        for i in ret.images:
+            byte_data = base64.b64decode(i.image)
+            filename = img_dir / i.image_name
+            await awrite_bin(filename=filename, data=byte_data)
+            result.append(f"![{i.image_name}]({str(filename)})")
+        return result
@@ -7,22 +7,34 @@
 @Desc: Implement `get_env`. RFC 216 2.4.2.4.2.
 """
 import os
-from typing import Dict
+from typing import Dict, Optional
 
 
 class EnvKeyNotFoundError(Exception):
     def __init__(self, info):
         super().__init__(info)
 
 
+def to_app_key(key: str, app_name: str = None) -> str:
+    return f"{app_name}-{key}" if app_name else key
+
+
+def split_app_key(app_key: str) -> (str, str):
+    if "-" not in app_key:
+        return "", app_key
+    app_name, key = app_key.split("-", 1)
+    return app_name, key
+
+
 async def default_get_env(key: str, app_name: str = None) -> str:
-    if key in os.environ:
-        return os.environ[key]
+    app_key = to_app_key(key=key, app_name=app_name)
+    if app_key in os.environ:
+        return os.environ[app_key]
 
     from metagpt.context import Context
 
     context = Context()
-    val = context.kwargs.get(key, None)
+    val = context.kwargs.get(app_key, None)
     if val is not None:
         return val
 
@@ -32,14 +44,16 @@ async def default_get_env(key: str, app_name: str = None) -> str:
 async def default_get_env_description() -> Dict[str, str]:
     result = {}
     for k in os.environ.keys():
-        call = f'await get_env(key="{k}", app_name="")'
+        app_name, key = split_app_key(k)
+        call = f'await get_env(key="{key}", app_name="{app_name}")'
         result[call] = f"Return the value of environment variable `{k}`."
 
     from metagpt.context import Context
 
     context = Context()
     for k in context.kwargs.__dict__.keys():
-        call = f'await get_env(key="{k}", app_name="")'
+        app_name, key = split_app_key(k)
+        call = f'await get_env(key="{key}", app_name="{app_name}")'
         result[call] = f"Get the value of environment variable `{k}`."
     return result
 
@@ -84,6 +98,37 @@ async def get_env(key: str, app_name: str = None) -> str:
     return await default_get_env(key=key, app_name=app_name)
 
 
+async def get_env_default(key: str, app_name: str = None, default_value: str = None) -> Optional[str]:
+    """
+    Retrieves the value for the specified environment variable key. If the key is not found,
+    returns the default value.
+
+    Args:
+        key (str): The name of the environment variable to retrieve.
+        app_name (str, optional): The name of the application or component to associate with the environment variable.
+        default_value (str, optional): The default value to return if the environment variable is not found.
+
+    Returns:
+        str or None: The value of the environment variable if found, otherwise the default value.
+
+    Example:
+        >>> from metagpt.tools.libs.env import get_env
+        >>> api_key = await get_env_default(key="NOT_EXISTS_API_KEY", default_value="<API_KEY>")
+        >>> print(api_key)
+        <API_KEY>
+
+        >>> from metagpt.tools.libs.env import get_env
+        >>> api_key = await get_env_default(key="NOT_EXISTS_API_KEY", app_name="GITHUB", default_value="<API_KEY>")
+        >>> print(api_key)
+        <API_KEY>
+
+    """
+    try:
+        return await get_env(key=key, app_name=app_name)
+    except EnvKeyNotFoundError:
+        return default_value
+
+
 async def get_env_description() -> Dict[str, str]:
     global _get_env_description_entry
Original file line number	Diff line number	Diff line change
`@@ -8,7 +8,8 @@`
`8`	`8`	`FEATURE_ENGINEERING_PROMPT,`
`9`	`9`	`IMAGE2WEBPAGE_PROMPT,`
`10`	`10`	`MODEL_EVALUATE_PROMPT,`
`11`		`- MODEL_TRAIN_PROMPT, WEB_SCRAPING_PROMPT,`
	`11`	`+ MODEL_TRAIN_PROMPT,`
	`12`	`+ WEB_SCRAPING_PROMPT,`
`12`	`13`	`)`
`13`	`14`
`14`	`15`