Orca-2-13B[1] 是微軟最新發(fā)布的 Orca 2 系列中的一款模型,Orca 2 另外還提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基礎(chǔ)模型中微調(diào)而來。Orca 2系列模型擅長推理、文本總結(jié)、數(shù)學(xué)問題解決和理解任務(wù),是在原始 13B Orca 模型的基礎(chǔ)上進一步發(fā)展而來,模仿更強大的 AI 系統(tǒng)推理過程從而提高小型模型在復(fù)雜任務(wù)中的能力。
本文將以 Orca-2-13B 為例,將介紹:
如何在你自己的設(shè)備上運行 Orca-2-13B
如何為 Orca-2-13B 創(chuàng)建一個與 OpenAI 兼容的 API 服務(wù)
你也可以使用同樣的方式運行 Orca-2-7B 模型,只需要替換 Orca-2-7B模型的 GGUF 格式的下載鏈接。
我們將用 Rust + Wasm 技術(shù)棧來開發(fā)和部署這個模型的應(yīng)用程序。無需安裝復(fù)雜的 Python 包或 C++ 工具鏈!了解我們?yōu)槭裁催x擇 Rust+Wasm 技術(shù)棧[2]。
在自己的設(shè)備上運行 Orca-2-13B
步驟 1:通過以下命令行安裝 WasmEdge[3]。
curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml
步驟 2:下載模型 GGUF 文件[4]。由于模型文件有幾 GB,所以可能需要很長時間。
curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf
步驟 3:下載一個跨平臺的可移植 Wasm 文件,用于聊天應(yīng)用。該應(yīng)用能讓你用命令行與模型進行交流。戳這里[5]查看該應(yīng)用的 Rust 源代碼。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm
就這樣。接下來,可以通過輸入以下命令在終端與模型進行聊天。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout
這個可移植的 Wasm 應(yīng)用會自動利用你設(shè)備上的硬件加速器(如 GPU)。
在我的 Mac M1 32G 內(nèi)存設(shè)備上,它的速度約為每秒 9.15 個token。
[USER]:What isanOrca? [ASSISTANT]: Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness. [USER]:
為 Orca-2-13B 創(chuàng)建一個與 OpenAI 兼容的 API 服務(wù)
一個與 OpenAI 兼容的網(wǎng)絡(luò) API 能讓 Orca-2-13B 與大量的 LLM 工具和代理框架(如 flows.network、LangChain 和 LlamaIndex)一起工作。
首先,先下載一個 API 服務(wù)器應(yīng)用。它也是一個可以在許多 CPU 和 GPU 設(shè)備上運行的跨平臺可移植 Wasm 應(yīng)用。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm
然后,使用以下命令行啟動模型的 API 服務(wù)器。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml
從另一個終端,你可以使用 curl 與 API 服務(wù)器進行交互。
curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'
就這樣。WasmEdge 是運行 Orca-2-13B 大模型應(yīng)用程序最簡單、最快、最安全的方式[6]。試試看吧!
審核編輯:劉清
-
C++語言
+關(guān)注
關(guān)注
0文章
147瀏覽量
6951 -
python
+關(guān)注
關(guān)注
55文章
4768瀏覽量
84376 -
硬件加速器
+關(guān)注
關(guān)注
0文章
41瀏覽量
12749 -
Rust
+關(guān)注
關(guān)注
1文章
228瀏覽量
6542 -
OpenAI
+關(guān)注
關(guān)注
9文章
1034瀏覽量
6378
原文標題:跨設(shè)備運行微軟最新大語言模型 Orca-2-13B,只需4個命令行
文章出處:【微信號:Rust語言中文社區(qū),微信公眾號:Rust語言中文社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論