|
| 1 | +<div align="center"> |
| 2 | +<h1> |
| 3 | + XVERSE-13B |
| 4 | +</h1> |
| 5 | +</div> |
| 6 | + |
| 7 | +<p align="center"> |
| 8 | + <a href="https://huggingface.co/xverse/XVERSE-13B">🤗 Hugging Face</a>  |  <a href="resources/wechat.png">💬 WeChat</a> |
| 9 | +</p> |
| 10 | + |
| 11 | +<h4 align="left"> |
| 12 | + <p> |
| 13 | + <a href="README_EN.md">English</a> | |
| 14 | + <a href="README.md">中文</a> | |
| 15 | + <b>日本語</b> |
| 16 | + <p> |
| 17 | +</h4> |
| 18 | + |
| 19 | +## モデル紹介 |
| 20 | + |
| 21 | +**XVERSE-13B** は深圳遠翔科技が独自に開発した多言語大型言語モデルである。主な特徴は以下の通りです: |
| 22 | + |
| 23 | +- **モデル構造**: XVERSE-13B は主流であるデコーダのみのトランスフォーマーネットワーク構造を採用し、同サイズのモデルの中で最長となる 8k のコンテキスト長をサポートしており、より長いマルチラウンド対話、知識質問応答、要約のニーズに応えることができる。これによって、このモデルはより汎用的な応用シナリオに対応できる。 |
| 24 | +- **トレーニングデータ**: このモデルは、中国語、英語、ロシア語、スペイン語など 40 以上の言語を含む、1.4兆個のトークンからなる多様で高品質なデータセットで徹底的に学習されています。異なる種類のデータのサンプリング比率が細かく設定されているため、中国語と英語の性能が優れており、他の言語の影響も考慮されている。 |
| 25 | +- **トークン化**: BPE(Byte-Pair Encoding)アルゴリズムに基づき、100,278 の語彙サイズを持つトークナイザーが、数百ギガバイトの言語データを用いて学習されました。このトークナイザは、追加の語彙拡張を必要とせず、多言語をサポートすることができます。 |
| 26 | +- **トレーニングフレームワーク**: 効率的な演算子、メモリの最適化、並列スケジューリング戦略、データ-計算-通信のオーバーラップ、プラットフォームとフレームワーク間の相乗効果など、いくつかの重要な技術も独自に開発されています。これらの進歩により、トレーニング効率とモデルの安定性が向上しました。これらの技術により、1,000 枚クラスタのピーク演算能力利用率は 58.5% に達し、業界の最先端を走っています。 |
| 27 | + |
| 28 | +## モデル評価 |
| 29 | + |
| 30 | +モデルの様々な能力を検証するために、[MMLU](https://arxiv.org/abs/2009.03300)(英語)、[C-Eval](https://cevalbenchmark.com/)(中国語)、[AGIEval](https://arxiv.org/abs/2304.06364)(中国語・英語)、[GAOKAO-Bench](https://github.com/OpenLMLab/GAOKAO-Bench)(中国語・英語)、[GAOKAO-English](https://github.com/ExpressAI/AI-Gaokao)(英語)など、複数の分野にまたがる総合的な能力ベンチマークを選び、評価結果は以下の通りです: |
| 31 | + |
| 32 | +| モデル\データセット | MMLU | C-Eval | AGIEval<sup>1</sup> | GAOKAO-Bench<sup>1</sup> | GAOKAO-English<sup>1</sup> | |
| 33 | +| :------------------------: | :--------------: | :--------------: | :-----------------: | :----------------------: | :------------------------: | |
| 34 | +| Baichuan-13B | 51.6<sup>2</sup> | 53.6<sup>3</sup> | 40.5 | 45.9 | 56.9 | |
| 35 | +| Llama-1-13B | 46.9<sup>4</sup> | 28.8 | 27.3 | 26.4 | 38.1 | |
| 36 | +| Llama-2-13B | 54.8<sup>4</sup> | 35.6 | 33.4 | 35.4 | 60.6 | |
| 37 | +| moss-moon-003-base (16B) | 24.7 | 33.1<sup>3</sup> | 26.8 | 28.5 | 34.7 | |
| 38 | +| OpenLLaMA-13B | 42.4 | 24.7 | 24.0 | 25.6 | 33.3 | |
| 39 | +| OPT-13B | 25.2 | 25.0 | 24.2 | 24.4 | 31.1 | |
| 40 | +| Pythia-12B | 25.1 | 26.2 | 25.3 | 25.3 | 26.8 | |
| 41 | +| Ziya-LLaMA-13B-Pretrain-v1 | 43.9 | 30.2 | 27.2 | 26.4 | 37.6 | |
| 42 | +| **XVERSE-13B** | **55.1** | **54.7** | **41.4** | **53.9** | **66.5** | |
| 43 | + |
| 44 | +> <sup>1: テストは単一解答の多肢選択問題のみで行われるため、穴埋め問題、自由形式問題、複数解答の多肢選択問題は除外される。</sup> |
| 45 | +> <sup>2: [Baichuan-13B](https://github.com/baichuan-inc/Baichuan-13B) の結果を報告。</sup> |
| 46 | +> <sup>3: [C-Eval](https://cevalbenchmark.com/) の結果を報告する。</sup> |
| 47 | +> <sup>4: [Llama 2](https://arxiv.org/abs/2307.09288) の結果を報告。</sup> |
| 48 | +> |
| 49 | +> MMLU は、著者らが提供する[評価ツール](https://github.com/hendrycks/test)を採用し、C-Eval、AGIEval、GAOKAO-Bench、GAOKAO-English は MMLU と同じで、テストサンプルの構成は **5-shot** で統一する。 |
| 50 | +
|
| 51 | +### MMLU カテゴリ結果 |
| 52 | +| モデル\カテゴリ | Average | STEM | Social Science | Humanities | Others | |
| 53 | +| :------------------------: | :------: | :------: | :------------: | :--------: | :------: | |
| 54 | +| Baichuan-13B | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 | |
| 55 | +| Llama-1-13B | 46.9 | 35.8 | 53.8 | 45.0 | 53.3 | |
| 56 | +| Llama-2-13B | 54.8 | 44.1 | 62.6 | 52.8 | 61.1 | |
| 57 | +| moss-moon-003-base (16B) | 24.7 | 23.0 | 24.0 | 25.2 | 26.3 | |
| 58 | +| OpenLLaMA-13B | 42.4 | 34.7 | 48.6 | 40.0 | 47.1 | |
| 59 | +| OPT-13B | 25.2 | 23.9 | 24.1 | 25.9 | 26.3 | |
| 60 | +| Pythia-12B | 25.1 | 24.8 | 23.0 | 26.1 | 26.0 | |
| 61 | +| Ziya-LLaMA-13B-Pretrain-v1 | 43.9 | 36.3 | 48.8 | 41.1 | 50.3 | |
| 62 | +| **XVERSE-13B** | **55.1** | **44.5** | **64.4** | **50.5** | **62.9** | |
| 63 | + |
| 64 | +### C-Eval カテゴリ結果 |
| 65 | +| モデル\カテゴリ | Average | STEM | Social Science | Humanities | Others | |
| 66 | +| :------------------------: | :------: | :------: | :------------: | :--------: | :------: | |
| 67 | +| Baichuan-13B | 53.6 | 47.0 | 66.8 | 57.3 | 49.8 | |
| 68 | +| Llama-1-13B | 28.8 | 27.5 | 33.9 | 27.7 | 27.7 | |
| 69 | +| Llama-2-13B | 35.6 | 34.5 | 39.8 | 36.2 | 33.2 | |
| 70 | +| moss-moon-003-base (16B) | 33.1 | 31.6 | 37.0 | 33.4 | 32.1 | |
| 71 | +| OpenLLaMA-13B | 24.7 | 25.5 | 23.5 | 24.2 | 24.7 | |
| 72 | +| OPT-13B | 25.0 | 24.4 | 24.6 | 25.9 | 25.4 | |
| 73 | +| Pythia-12B | 26.2 | 26.8 | 25.1 | 26.7 | 25.4 | |
| 74 | +| Ziya-LLaMA-13B-Pretrain-v1 | 30.2 | 27.8 | 34.3 | 32.0 | 29.0 | |
| 75 | +| **XVERSE-13B** | **54.7** | **45.6** | **66.2** | **58.3** | **56.9** | |
| 76 | + |
| 77 | +## 使用方法 |
| 78 | + |
| 79 | +### 環境設定 |
| 80 | + |
| 81 | +1. このリポジトリをクローンする: |
| 82 | + |
| 83 | +```shell |
| 84 | +git clone https://github.com/xverse-ai/XVERSE-13B |
| 85 | +cd XVERSE-13B |
| 86 | +``` |
| 87 | + |
| 88 | +2. pip を使って依存関係をインストールする: |
| 89 | + |
| 90 | +```shell |
| 91 | +pip install -r requirements.txt |
| 92 | +``` |
| 93 | + |
| 94 | +### Transformers によるローディング |
| 95 | + |
| 96 | +XVERSE-13B モデルは、以下のコードを用いて推論のためにロードすることができる: |
| 97 | + |
| 98 | +```python |
| 99 | +>>> from transformers import AutoTokenizer, AutoModelForCausalLM |
| 100 | +>>> tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-13B") |
| 101 | +>>> model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-13B", trust_remote_code=True).half().cuda() |
| 102 | +>>> model = model.eval() |
| 103 | +>>> inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids |
| 104 | +>>> inputs = inputs.cuda() |
| 105 | +>>> generated_ids = model.generate(inputs, max_new_tokens=64, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1) |
| 106 | +>>> print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True)) |
| 107 | +``` |
| 108 | + |
| 109 | +### ウェブデモ |
| 110 | + |
| 111 | +以下のコードはウェブサーバを起動するために使用することができます。ブラウザにアクセスアドレスを入力することにより、XVERSE-13B モデルによる推論を行うことができます: |
| 112 | + |
| 113 | +```shell |
| 114 | +python text_generation_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/' |
| 115 | +``` |
| 116 | + |
| 117 | +## 制限事項および免責事項 |
| 118 | + |
| 119 | +他の大規模言語モデル(LLM)と同様に、XVERSE-13B は特定の状況下で不正確、偏った、あるいは不快なコンテンツを生成する可能性があります。従って、モデルによって生成されたコンテンツを慎重に使用し、有害なコンテンツを広めないようにしてください。 XVERSE-13B のアプリケーションを展開する前に、開発者は安全性テストと特定のアプリケーションに応じたモデルの最適化を行う必要があります。 |
| 120 | + |
| 121 | +XVERSE-13B を利用して、有害な情報を作成・流布したり、公共性・国家性・社会性を損なったり、法規制に違反するような行為を行うことは、厳に慎んでください。XVERSE-13B モデルの使用により発生するいかなる問題(データセキュリティ上の問題、世論リスク、誤解、誤用、流布、コンプライアンス違反などによるリスクや問題)についても、当社は一切責任を負いません。 |
| 122 | + |
| 123 | +## オープンソースライセンス |
| 124 | + |
| 125 | +このリポジトリにあるソースコードの使用は、[Apache-2.0](LICENSE) オープンソースライセンスに従う必要があり、XVERSE-13B のモデル重量の使用は、[モデルライセンス契約](MODEL_LICENSE.pdf)に従う必要があります。 |
| 126 | + |
| 127 | +XVERSE-13B のモデル分銅は、学術研究に対して**完全にオープン**であり、**自由な商用利用**をサポートしています。商用利用には、<opensource@xverse.cn> に電子メールを送って商用利用ライセンスを申請する必要があります。 |
| 128 | + |
0 commit comments