電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>PyTorch教程10.5之機器翻譯和數(shù)據(jù)集

PyTorch教程10.5之機器翻譯和數(shù)據(jù)集

2023-06-05 | pdf | 0.30 MB | 次下載 | 免費

資料介紹

在引起人們對現(xiàn)代 RNN 廣泛興趣的重大突破中,有一項是統(tǒng)計機器翻譯應(yīng)用領(lǐng)域的重大進展 。在這里,模型以一種語言的句子呈現(xiàn),并且必須預(yù)測另一種語言的相應(yīng)句子。請注意,由于兩種語言的語法結(jié)構(gòu)不同,這里的句子可能有不同的長度,并且兩個句子中相應(yīng)的詞可能不會以相同的順序出現(xiàn)。

許多問題都具有這種在兩個這樣的“未對齊”序列之間進行映射的風(fēng)格。示例包括從對話提示到回復(fù)或從問題到答案的映射。廣義上,此類問題稱為 序列到序列(seq2seq) 問題,它們是本章剩余部分和 第 11 節(jié)大部分內(nèi)容的重點。

在本節(jié)中,我們將介紹機器翻譯問題和我們將在后續(xù)示例中使用的示例數(shù)據(jù)集。幾十年來,語言間翻譯的統(tǒng)計公式一直很流行 Brown等人,1990 年,Brown等人,1988 年,甚至在研究人員使神經(jīng)網(wǎng)絡(luò)方法起作用之前(這些方法通常被統(tǒng)稱為神經(jīng)機器翻譯)。

首先,我們需要一些新代碼來處理我們的數(shù)據(jù)。與我們在9.3 節(jié)中看到的語言建模不同,這里的每個示例都包含兩個單獨的文本序列,一個是源語言,另一個(翻譯)是目標(biāo)語言。以下代碼片段將展示如何將預(yù)處理后的數(shù)據(jù)加載到小批量中進行訓(xùn)練。

import os
import torch
from d2l import torch as d2l
import os
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()
import os
from jax import numpy as jnp
from d2l import jax as d2l
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
import os
import tensorflow as tf
from d2l import tensorflow as d2l

10.5.1。下載和預(yù)處理數(shù)據(jù)集

首先,我們 從 Tatoeba Project 下載由雙語句子對組成的英法數(shù)據(jù)集。數(shù)據(jù)集中的每一行都是一個制表符分隔的對,由一個英文文本序列和翻譯后的法文文本序列組成。請注意,每個文本序列可以只是一個句子,也可以是一段多句。在這個英語翻譯成法語的機器翻譯問題中,英語被稱為源語言,法語被稱為目標(biāo)語言。

class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Downloading ../data/fra-eng.zip from http://d2l-data.s3-accelerate.amazonaws.com/fra-eng.zip...
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!
class MTFraEng(d2l.DataModule): #@save
  """The English-French dataset."""
  def _download(self):
    d2l.extract(d2l.download(
      d2l.DATA_URL+'fra-eng.zip', self.root,
      '94646ad1522d915e7b0f9296181140edcf86a4f5'))
    with open(self.root + '/fra-eng/fra.txt', encoding='utf-8') as f:
      return f.read()

data = MTFraEng()
raw_text = data._download()
print(raw_text[:75])
Go. Va !
Hi. Salut !
Run!    Cours?!
Run!    Courez?!
Who?    Qui ?
Wow!    ?a alors?!

下載數(shù)據(jù)集后,我們對原始文本數(shù)據(jù)進行幾個預(yù)處理步驟。例如,我們將不間斷空格替換為空格,將大寫字母轉(zhuǎn)換為小寫字母,在單詞和標(biāo)點符號之間插入空格。

@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !
@d2l.add_to_class(MTFraEng) #@save
def _preprocess(self, text):
  # Replace non-breaking space with space
  text = text.replace('\u202f', ' ').replace('\xa0', ' ')
  # Insert space between words and punctuation marks
  no_space = lambda char, prev_char: char in ',.!?' and prev_char != ' '
  out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
      for i, char in enumerate(text.lower())]
  return ''.join(out)

text = data._preprocess(raw_text)
print(text[:80])
go .    va !
hi .    salut !
run !    cours !
run !    courez !
who ?    qui ?
wow !    ?a alors !

10.5.2。代幣化

與第 9.3 節(jié)中的字符級標(biāo)記化不同 ,對于機器翻譯,我們在這里更喜歡單詞級標(biāo)記化(當(dāng)今最先進的模型使用更復(fù)雜的標(biāo)記化技術(shù))。以下_tokenize方法對第一個max_examples文本序列對進行分詞,其中每個分詞要么是一個單詞,要么是一個標(biāo)點符號。我們將特殊的“”標(biāo)記附加到每個序列的末尾,以指示序列的結(jié)束。當(dāng)模型通過生成一個接一個標(biāo)記的序列標(biāo)記進行預(yù)測時,“”標(biāo)記的生成表明輸出序列是完整的。最后,下面的方法返回兩個令牌列表列表:srctgt。具體來說,src[i]是來自ith源語言(此處為英語)的文本序列和tgt[i]目標(biāo)語言(此處為法語)的文本序列。


下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
  2. 1.06 MB  |  532次下載  |  免費
  3. 2RK3399完整板原理圖(支持平板,盒子VR)
  4. 3.28 MB  |  339次下載  |  免費
  5. 3TC358743XBG評估板參考手冊
  6. 1.36 MB  |  330次下載  |  免費
  7. 4DFM軟件使用教程
  8. 0.84 MB  |  295次下載  |  免費
  9. 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
  10. 6.40 MB  |  227次下載  |  免費
  11. 6迪文DGUS開發(fā)指南
  12. 31.67 MB  |  194次下載  |  免費
  13. 7元宇宙底層硬件系列報告
  14. 13.42 MB  |  182次下載  |  免費
  15. 8FP5207XR-G1中文應(yīng)用手冊
  16. 1.09 MB  |  178次下載  |  免費

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234315次下載  |  免費
  3. 2555集成電路應(yīng)用800例(新編版)
  4. 0.00 MB  |  33566次下載  |  免費
  5. 3接口電路圖大全
  6. 未知  |  30323次下載  |  免費
  7. 4開關(guān)電源設(shè)計實例指南
  8. 未知  |  21549次下載  |  免費
  9. 5電氣工程師手冊免費下載(新編第二版pdf電子書)
  10. 0.00 MB  |  15349次下載  |  免費
  11. 6數(shù)字電路基礎(chǔ)pdf(下載)
  12. 未知  |  13750次下載  |  免費
  13. 7電子制作實例集錦 下載
  14. 未知  |  8113次下載  |  免費
  15. 8《LED驅(qū)動電路設(shè)計》 溫德爾著
  16. 0.00 MB  |  6656次下載  |  免費

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935054次下載  |  免費
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537798次下載  |  免費
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420027次下載  |  免費
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234315次下載  |  免費
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費
  11. 6電路仿真軟件multisim 10.0免費下載
  12. 340992  |  191187次下載  |  免費
  13. 7十天學(xué)會AVR單片機與C語言視頻教程 下載
  14. 158M  |  183279次下載  |  免費
  15. 8proe5.0野火版下載(中文版免費下載)
  16. 未知  |  138040次下載  |  免費