印度人打招呼的方式遠不止 Namaste、Vanakkam 和 Sat sri akaal 這三種。印度有 22 種憲法認可的語言,而根據(jù)印度人口普查記錄,該國還有 1500 多種語言。英語是互聯(lián)網(wǎng)上最常用的語言,而會說英語的印度居民只占到印度總人口的 10% 左右。
作為世界上人口最多的國家,印度正在快速推進數(shù)字化進程。印度企業(yè)和當?shù)爻鮿?chuàng)公司正在開發(fā)多語種 AI 模型,讓更多印度人能夠用自己的母語進行技術互動。這是主權 AI 的典型案例之一,主權 AI 指的是開發(fā)基于本地數(shù)據(jù)集,并且能夠反映某地區(qū)特定方言、文化和習俗的本國 AI 基礎設施。
這些項目正在構建各種印度語言和英語的語言模型,驅動企業(yè)的客服 AI 智能體、快速翻譯內容以便更多人獲取信息,并使服務更易覆蓋超過 14 億的多元化人口。
為了支持這些舉措,NVIDIA 為印地語這一印度最流行且使用者超過五億的語言推出了一個小語言模型。該模型被命名為Nemotron-4-Mini-Hindi-4B,現(xiàn)已作為一項NVIDIA NIM微服務提供,可輕松部署在任何 NVIDIA GPU 加速系統(tǒng)上用于優(yōu)化性能。
印度 IT 服務和咨詢公司 Tech Mahindra 是首家使用 Nemotron Hindi NIM 微服務開發(fā) AI 模型的公司。模型被命名為 Indus 2.0,主要針對印地語及其數(shù)十種方言。Indus 2.0 利用 Tech Mahindra 的高質量微調數(shù)據(jù)進一步提高模型的準確性,使銀行、教育、醫(yī)療及其他行業(yè)的客戶能夠提供本地化服務。
Tech Mahindra 在 10 月 23 日至 25 日于孟買舉行的 NVIDIA AI Summit 上展示了 Indus 2.0。該公司還使用NVIDIA NeMo開發(fā)了其主權大語言模型(LLM)平臺 TeNo。
NVIDIA NIM 使構建
印地語 AI 應用變得輕而易舉
Nemotron Hindi 模型擁有 40 億個參數(shù),源自 NVIDIA 開發(fā)的一個 150 億參數(shù)多語種語言模型——Nemotron-4 15B。該模型由 NVIDIA NeMo(一個用于開發(fā)生成式 AI 的端到端云原生框架和微服務套件)使用真實印地語數(shù)據(jù)、合成印地語數(shù)據(jù)和等量英語數(shù)據(jù)所組成的數(shù)據(jù)集剪枝、蒸餾和訓練而成。
這個數(shù)據(jù)集由NVIDIA NeMo Curator創(chuàng)建。NeMo Curator 通過大規(guī)模處理用于訓練和定制的高質量多模態(tài)數(shù)據(jù),提高了生成式 AI 模型的準確性。它還使用NVIDIA RAPIDS庫來加速多節(jié)點 GPU 系統(tǒng)上的數(shù)據(jù)處理管線,從而減少處理時間和總體擁有成本。NeMo Curator 還提供處理高質量數(shù)據(jù)所需的合成數(shù)據(jù)生成、數(shù)據(jù)過濾、分類和數(shù)據(jù)去重預建管線與構建模塊。
在使用 NeMo 進行微調后,最終模型在多項針對 80 億參數(shù)以下 AI 模型的準確性基準測試中處于領先地位。該模型被打包成一項 NIM 微服務,可輕松用于支持教育、零售、醫(yī)療等行業(yè)的用例。
其可作為NVIDIA AI Enterprise軟件平臺的一部分獲取。該軟件平臺為企業(yè)提供技術支持、企業(yè)級安全等額外資源,幫助企業(yè)簡化生產(chǎn)環(huán)境中的 AI 開發(fā)。
多家企業(yè)為印度的多語種人口提供服務
印度各地的創(chuàng)新公司、大型企業(yè)和全球系統(tǒng)集成商都在使用 NVIDIA NeMo 構建定制語言模型。
NVIDIA 初創(chuàng)加速計劃會員公司正在使用 NeMo 開發(fā)多種印度語言的 AI 模型。該計劃的會員均為前沿初創(chuàng)公司。
Sarvam AI 為企業(yè)客戶提供語音轉文本、文本轉語音、翻譯和數(shù)據(jù)解析模型。該公司開發(fā)的 Sarvam 1 是印度首個本土多語種 LLM。該模型是完全在搭載 NVIDIA Tensor Core GPU 的印度本國 AI 基礎設施上訓練而成的。
Sarvam 1 在開發(fā)過程中使用了包括 NeMo Curator 和 NeMo 框架在內的 NVIDIA AI Enterprise 軟件,支持英語及 10 種主要印度語言,包括孟加拉語、馬拉地語、泰米爾語和泰盧固語。
Sarvam AI 還使用 NVIDIA NIM 微服務、適用于對話式 AI 的NVIDIA Riva、NVIDIA TensorRT-LLM軟件和NVIDIA Triton 推理服務器來優(yōu)化和部署具有亞秒級延遲的對話式 AI 智能體。
另一家初創(chuàng)加速計劃會員公司 Gnani.ai 構建了一個多語種語音轉語音的大語言模型,為 AI 客服助手提供支持,該助手每天為印度和美國的 150 多家銀行、保險和金融服務公司處理約 1000 萬次實時語音交互。該模型使用 NVIDIA Hopper GPU 和 NeMo 框架,基于超過 1400 萬小時的對話語音數(shù)據(jù)訓練而成,支持 14 種語言。
Gnani.ai 使用 TensorRT-LLM、Triton 推理服務器和 Riva NIM 微服務來優(yōu)化其虛擬客戶服務助手 AI 和語音分析 AI。
使用 NeMo 構建 LLM 的大型企業(yè)包括:
沃爾瑪控股的印度大型電商公司 Flipkart 正在通過集成NeMo Guardrails(一個使開發(fā)者能夠為 LLM 添加可編程護欄的開源工具套件),以提高其對話式 AI 系統(tǒng)的安全性。
Ola Group 擁有印度最大的網(wǎng)約車平臺之一。該集團旗下的企業(yè) Krutrim 正在使用 Mistral NeMo 12B 開發(fā)多語種印度語系基礎模型。Mistral NeMo 12B是一個極其先進的 LLM,由 Mistral AI 和 NVIDIA 共同開發(fā)而成。
總部位于欽奈的全球技術公司 Zoho Corporation 將使用 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器為其 70 多萬客戶優(yōu)化和提供語言模型。該公司將使用在 NVIDIA Hopper GPU 上運行的 NeMo 為 100 多個商業(yè)應用從頭開始預訓練窄模型、小模型、中模型和大模型。
印度的各大全球系統(tǒng)集成商也在為其客戶提供由 NVIDIA NeMo 加速的解決方案。
Infosys 將利用 NVIDIA AI 堆棧開發(fā)特定工具和解決方案。該公司的卓越中心還在開發(fā)由 AI 驅動的小型語言模型,這些模型將作為服務提供給客戶。
Tata Consultancy Services 基于NVIDIA NIM Agent Blueprint為電信、零售、制造、汽車和金融服務行業(yè)開發(fā)了 AI 解決方案。該公司提供的產(chǎn)品包括 NeMo 驅動的特定領域語言模型。這些模型經(jīng)過定制后,能夠處理客戶查詢,并回答 IT、人事或現(xiàn)場操作等各個企業(yè)部門員工提出的針對本企業(yè)的問題。
Wipro 正在使用包括 NIM Agent Blueprint 和 NeMo 在內的 NVIDIA AI Enterprise 軟件,來幫助企業(yè)輕松開發(fā)定制對話式 AI 解決方案,例如支持客戶服務互動的數(shù)字人等。
Wipro 和 TCS 還使用 NeMo Curator 的合成數(shù)據(jù)生成管線生成英語以外的其他語言的數(shù)據(jù),以便為客戶定制 LLM。
-
NVIDIA
+關注
關注
14文章
4857瀏覽量
102722 -
AI
+關注
關注
87文章
29845瀏覽量
268146 -
模型
+關注
關注
1文章
3119瀏覽量
48663 -
語言模型
+關注
關注
0文章
502瀏覽量
10236
原文標題:印度企業(yè)使用通過 NVIDIA AI 構建的 LLM 為十多億當?shù)卣Z言使用者提供服務
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論