0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過(guò)利用機(jī)器學(xué)習(xí)模型破譯古籍

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Michelle Horton ? 2022-04-08 09:47 ? 次閱讀

為了揭示過(guò)去的秘密,世界各地的歷史學(xué)者花費(fèi)畢生精力翻譯古代手稿。圣母大學(xué)的一個(gè)研究小組希望幫助這項(xiàng)任務(wù),用一種新開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型來(lái)翻譯和記錄幾百年前的手寫(xiě)文檔。

利用圣加爾修道院圖書(shū)館的數(shù)字化手稿和一個(gè)考慮到人類感知的機(jī)器學(xué)習(xí)模型 study 在深度學(xué)習(xí)轉(zhuǎn)錄能力方面有顯著提高。

“我們正在處理歷史文件,這些文件的書(shū)寫(xiě)風(fēng)格早已過(guò)時(shí),可以追溯到幾個(gè)世紀(jì)以前,并且使用拉丁語(yǔ)等語(yǔ)言,而拉丁語(yǔ)已經(jīng)很少使用了。你可以得到這些材料的美麗照片,但我們已經(jīng)著手做的是以一種模仿專家讀者眼睛對(duì)頁(yè)面感知的方式自動(dòng)轉(zhuǎn)錄,并提供快速、可搜索的文本閱讀,”圣母大學(xué)副教授、資深作者沃爾特·舍勒在新聞稿中說(shuō)。

圣加爾修道院圖書(shū)館建于 719 年,是世界上最古老、最豐富的圖書(shū)館藏品之一。該圖書(shū)館藏有大約 160000 卷書(shū)和 2000 份手稿,可追溯到八世紀(jì)。在羊皮紙上用現(xiàn)在很少使用的語(yǔ)言手工書(shū)寫(xiě),這些材料中的許多尚未被閱讀——這是一筆潛在的歷史檔案財(cái)富,等待發(fā)掘。

機(jī)器學(xué)習(xí)方法能夠自動(dòng)轉(zhuǎn)錄這些類型的歷史文件已經(jīng)在工作中,但挑戰(zhàn)仍然存在。

到目前為止,大型數(shù)據(jù)集對(duì)于提高這些語(yǔ)言模型的性能是必不可少的。由于可供查閱的書(shū)籍?dāng)?shù)量巨大,這項(xiàng)工作需要時(shí)間,并且需要相對(duì)較少的專家學(xué)者進(jìn)行注釋。缺少知識(shí),如從未編纂過(guò)的中世紀(jì)拉丁語(yǔ)詞典,構(gòu)成了更大的障礙。

該團(tuán)隊(duì)將傳統(tǒng)的機(jī)器學(xué)習(xí)方法與研究物理世界和人類行為之間關(guān)系的視覺(jué)心理物理學(xué)相結(jié)合,以創(chuàng)建更多信息豐富的注釋。在這種情況下,他們?cè)谔幚砉糯谋緯r(shí)將人類視覺(jué)測(cè)量納入神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。

“這是機(jī)器學(xué)習(xí)中通常不使用的策略。我們通過(guò)這些心理物理測(cè)量來(lái)標(biāo)記數(shù)據(jù),這些測(cè)量直接來(lái)自于通過(guò)行為測(cè)量對(duì)感知進(jìn)行的心理學(xué)研究。然后,我們通知網(wǎng)絡(luò)在感知這些角色方面的常見(jiàn)困難,并可以根據(jù)這些測(cè)量結(jié)果進(jìn)行糾正,” Scheirer 說(shuō)。

為了訓(xùn)練、驗(yàn)證和測(cè)試這些模型,研究人員使用了一套來(lái)自圣加爾的可追溯到九世紀(jì)的數(shù)字化手寫(xiě)拉丁手稿。他們要求專家閱讀并將文本行中的手動(dòng)抄本輸入定制的軟件中。測(cè)量每次抄寫(xiě)的時(shí)間,可以洞察單詞、字符或段落的難度。根據(jù)作者的說(shuō)法,這些數(shù)據(jù)有助于減少算法中的錯(cuò)誤,并提供更真實(shí)的讀數(shù)。

所有的實(shí)驗(yàn)都是使用 cuDNN-accelerated PyTorch 深度學(xué)習(xí)框架和 GPU ?!叭绻麤](méi)有 NVIDIA 硬件和軟件,我們肯定不可能完成我們所做的事情。

pYYBAGJPlEWAa7tcAAGssGNMcGs826.png

該研究引入了一種新的深度學(xué)習(xí)損失公式,該公式結(jié)合了人類視覺(jué)測(cè)量,可應(yīng)用于手寫(xiě)文檔轉(zhuǎn)錄的不同處理管道。信貸: Scheirer 等人/ IEEE

團(tuán)隊(duì)仍在努力改進(jìn)某些方面。損壞和不完整的文檔以及插圖和縮寫(xiě)對(duì)模型提出了特殊的挑戰(zhàn)。

“由于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)和 GPU 硬件,人工智能達(dá)到了拐點(diǎn),這將使文化遺產(chǎn)和人文學(xué)科與其他領(lǐng)域一樣受益。我們只是初步了解我們可以對(duì)這個(gè)項(xiàng)目做些什么。

關(guān)于作者

Michelle Horton 是 NVIDIA 的高級(jí)開(kāi)發(fā)人員通信經(jīng)理,擁有通信經(jīng)理和科學(xué)作家的背景。她在 NVIDIA 為開(kāi)發(fā)者博客撰文,重點(diǎn)介紹了開(kāi)發(fā)者使用 NVIDIA 技術(shù)的多種方式。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128142
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11015

    瀏覽量

    102085
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131841
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來(lái)一點(diǎn)也不輕松,加油。 作者首先說(shuō)明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測(cè)任務(wù),可以利用
    發(fā)表于 08-14 18:00

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言模型涉及以下幾個(gè)過(guò)程: 數(shù)據(jù)收集:大語(yǔ)言
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    這個(gè)程序不需要程序員編寫(xiě),而是由計(jì)算機(jī)自動(dòng)生成。因此,人工編程方法依賴程序員思考的規(guī)則,而自動(dòng)編程是計(jì)算機(jī)算法通過(guò)分析數(shù)據(jù)自行創(chuàng)建規(guī)則。 作者通過(guò)類比學(xué)生準(zhǔn)備高考的過(guò)程來(lái)說(shuō)明機(jī)器學(xué)習(xí)
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    上周收到《大語(yǔ)言模型應(yīng)用指南》一書(shū),非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫(xiě)了一部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個(gè)讓我了解大語(yǔ)言模型機(jī)器
    發(fā)表于 07-21 13:35

    Al大模型機(jī)器

    豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí),并能夠回答相關(guān)問(wèn)題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性,能夠處理各種類型的任務(wù)和問(wèn)題。持續(xù)學(xué)習(xí)和改進(jìn): 這些模型可以
    發(fā)表于 07-05 08:52

    人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

    人工神經(jīng)網(wǎng)絡(luò)(ANN)與傳統(tǒng)機(jī)器學(xué)習(xí)模型之間的不同,包括其原理、數(shù)據(jù)處理能力、學(xué)習(xí)方法、適用場(chǎng)景及未來(lái)發(fā)展趨勢(shì)等方面,以期為讀者提供一個(gè)全面的視角。
    的頭像 發(fā)表于 07-04 14:08 ?372次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過(guò)程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過(guò)程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型,本質(zhì)上是通過(guò)優(yōu)化算法調(diào)整
    的頭像 發(fā)表于 07-01 16:13 ?488次閱讀

    大語(yǔ)言模型:原理與工程實(shí)踐+初識(shí)2

    前言 深度學(xué)習(xí)機(jī)器學(xué)習(xí)的分支,而大語(yǔ)言模型是深度學(xué)習(xí)的分支。機(jī)器
    發(fā)表于 05-13 00:09

    【大語(yǔ)言模型:原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

    大語(yǔ)言模型(LLM)是人工智能領(lǐng)域的尖端技術(shù),憑借龐大的參數(shù)量和卓越的語(yǔ)言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí),利用神經(jīng)網(wǎng)絡(luò)框架來(lái)理解和生成自然語(yǔ)言文本。這些模型
    發(fā)表于 05-04 23:55

    深入探討機(jī)器學(xué)習(xí)的可視化技術(shù)

    機(jī)器學(xué)習(xí)可視化(簡(jiǎn)稱ML可視化)一般是指通過(guò)圖形或交互方式表示機(jī)器學(xué)習(xí)模型、數(shù)據(jù)及其關(guān)系的過(guò)程。
    發(fā)表于 04-25 11:17 ?293次閱讀
    深入探討<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的可視化技術(shù)

    通過(guò)新的ONNX導(dǎo)出器簡(jiǎn)化模型導(dǎo)出流程

    大家好。我叫Manav Dalal,今天我將講解如何通過(guò)新的ONNX導(dǎo)出器簡(jiǎn)化模型導(dǎo)出流程。如果你還沒(méi)有聽(tīng)說(shuō)過(guò)ONNX,它是一種用于表示機(jī)器學(xué)習(xí)模型
    的頭像 發(fā)表于 01-10 09:45 ?627次閱讀
    <b class='flag-5'>通過(guò)</b>新的ONNX導(dǎo)出器簡(jiǎn)化<b class='flag-5'>模型</b>導(dǎo)出流程

    如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。
    的頭像 發(fā)表于 01-08 09:25 ?802次閱讀
    如何使用TensorFlow構(gòu)建<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>

    淺析機(jī)器學(xué)習(xí)的基本步驟

    機(jī)器學(xué)習(xí)中,機(jī)器學(xué)習(xí)的效率在很大程度上取決于它所提供的數(shù)據(jù)集,數(shù)據(jù)集的大小和豐富程度也決定了最終預(yù)測(cè)的結(jié)果質(zhì)量。目前在算力方面,量子計(jì)算能超越傳統(tǒng)二進(jìn)制的編碼系統(tǒng),
    發(fā)表于 10-30 11:13 ?334次閱讀
    淺析<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的基本步驟

    想在STM32 MCU上部署機(jī)器學(xué)習(xí)模型?這份入門(mén)教程,讓你一學(xué)就會(huì)~

    想在STM32 MCU上部署機(jī)器學(xué)習(xí)模型?這份入門(mén)教程,讓你一學(xué)就會(huì)~
    的頭像 發(fā)表于 10-18 17:45 ?3978次閱讀
    想在STM32 MCU上部署<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>?這份入門(mén)教程,讓你一學(xué)就會(huì)~

    機(jī)器學(xué)習(xí)模型可解釋性的結(jié)果分析

    模型的可解釋性是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,隨著 AI 應(yīng)用范圍的不斷擴(kuò)大,人們?cè)絹?lái)越不滿足于模型的黑盒特性,與此同時(shí),金融、自動(dòng)駕駛等領(lǐng)域的法律法規(guī)也對(duì)
    發(fā)表于 09-28 10:17 ?856次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>可解釋性的結(jié)果分析