国产福利在线视频蜜芽tv,国产乱码日韩一区二区三区

Databricks 發(fā)布了 Dolly 2.0，這是該公司于兩周前發(fā)布的一種訓(xùn)練成本不到 30 美元，類似 ChatGPT 的大型語言模型（LLM） Dolly 的改進(jìn)版本。公告稱，Dolly 2.0 是第一個開源的指令跟隨型語言模型，它在人類生成的指令數(shù)據(jù)集上進(jìn)行了微調(diào)，可用于研究和商業(yè)用途。

根據(jù)介紹，Dolly 1.0 使用了斯坦福大學(xué) Alpaca 團(tuán)隊(duì)使用 OpenAI API 創(chuàng)建的數(shù)據(jù)集進(jìn)行訓(xùn)練；該數(shù)據(jù)集包含 ChatGPT 的輸出，而其服務(wù)條款試圖阻止任何人創(chuàng)建與 OpenAI 競爭的模型。因此，Dolly 1.0 并不能用于商業(yè)用途。且據(jù)已知信息，目前所有現(xiàn)有的知名指令跟隨模型（Alpaca， Koala， GPT4All， Vicuna）都受到此限制，禁止商業(yè)使用。為了解決這個難題，Databricks 于是決定創(chuàng)建一個沒有商業(yè)用途限制的新數(shù)據(jù)集。

Dolly 2.0 是一個基于 EleutherAI pythia 模型系列的 12B 參數(shù)語言模型，并在透明且免費(fèi)提供的數(shù)據(jù)集上進(jìn)行了微調(diào)；該數(shù)據(jù)集稱為 databricks-dolly-15k，也已開源發(fā)布。Databricks 表示，他們正在開源整個 Dolly 2.0，包括訓(xùn)練代碼、數(shù)據(jù)集和模型權(quán)重，所有這些都適合商業(yè)使用。這意味著任何組織都可以創(chuàng)建、擁有和定制強(qiáng)大的 LLM，這些 LLM 可以與人們交談，而無需支付 API 訪問費(fèi)用或與第三方共享數(shù)據(jù)。

databricks-dolly-15k 包含來自數(shù)千名 Databricks 員工的 15，000 個高質(zhì)量的人工生成的提示 / 響應(yīng)對，專為指令調(diào)優(yōu)大型語言模型而設(shè)計(jì)。且 databricks-dolly-15k 根據(jù)（Creative Commons Attribution-ShareAlike 3.0 Unported License）的許可條款，任何人都可以出于任何目的使用、修改或擴(kuò)展此數(shù)據(jù)集，包括商業(yè)應(yīng)用程序。

Databricks 稱這是 “第一個開源的、人工生成的指令語料庫，專門設(shè)計(jì)用于讓大型語言能夠展示 ChatGPT 的神奇交互性”。并補(bǔ)充到，雖然 databricks-dolly-15k 比訓(xùn)練 Dolly 1.0 的數(shù)據(jù)集 Alpaca 小得多，但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表現(xiàn)出高質(zhì)量的指令遵循行為。另一方面， databricks-dolly-15k 是由專業(yè)人士生成的、質(zhì)量很高，并且包含對大多數(shù)任務(wù)的長篇答案。

Databricks 表示，他們并沒有期望 Dolly 在有效性方面達(dá)到最先進(jìn)水平。但確實(shí)希望 Dolly 和開源數(shù)據(jù)集將成為大量后續(xù)工作的種子，“這可能有助于引導(dǎo)出更強(qiáng)大的語言模型”。

“我們還認(rèn)為，偏見、問責(zé)制和人工智能安全等重要問題應(yīng)該由不同利益相關(guān)者組成的廣泛社區(qū)來解決，而不僅僅是少數(shù)大公司。開源數(shù)據(jù)集和模型鼓勵評論、研究和創(chuàng)新，這將有助于確保每個人都能從人工智能技術(shù)的進(jìn)步中受益?！?/p>

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴