閱讀(3.8k) 書簽贊(0) 我要糾錯

PyTorch NLP From Scratch: 生成名稱與字符級RNN

2025-06-18 17:15 更新

在自然語言處理（NLP）領域，使用字符級循環(huán)神經(jīng)網(wǎng)絡（char-RNN）生成文本是一種有趣且強大的技術。本教程將教你如何使用字符級 RNN 生成不同語言風格的姓名。通過學習本教程，你將掌握如何從字符級別構建和訓練生成模型。

一、準備數(shù)據(jù)

我們使用包含來自 18 種不同語言的姓氏的數(shù)據(jù)集。這些數(shù)據(jù)存儲在多個文本文件中，每個文件對應一種語言。我們需要將這些數(shù)據(jù)加載到內存中，并進行預處理。

from io import open
import glob
import os
import unicodedata
import string


all_letters = string.ascii_letters + " .,;'-"
n_letters = len(all_letters) + 1  # 加上結束標記


def findFiles(path):
    return glob.glob(path)


def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn' and c in all_letters
    )


def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]


category_lines = {}
all_categories = []


for filename in findFiles('data/names/*.txt'):
    category = os.path.splitext(os.path.basename(filename))[0]
    all_categories.append(category)
    lines = readLines(filename)
    category_lines[category] = lines


n_categories = len(all_categories)


print('# categories:', n_categories, all_categories)
print(unicodeToAscii("O'Néàl"))

二、構建網(wǎng)絡

我們將構建一個字符級 RNN 模型，用于根據(jù)語言生成姓名。該模型將輸入語言類別和當前字符，并輸出下一個字符的概率分布。

import torch
import torch.nn as nn


class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()
        self.hidden_size = hidden_size


        self.i2h = nn.Linear(n_categories + input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(n_categories + input_size + hidden_size, output_size)
        self.o2o = nn.Linear(hidden_size + output_size, output_size)
        self.dropout = nn.Dropout(0.1)
        self.softmax = nn.LogSoftmax(dim=1)


    def forward(self, category, input, hidden):
        input_combined = torch.cat((category, input, hidden), 1)
        hidden = self.i2h(input_combined)
        output = self.i2o(input_combined)
        output_combined = torch.cat((hidden, output), 1)
        output = self.o2o(output_combined)
        output = self.dropout(output)
        output = self.softmax(output)
        return output, hidden


    def initHidden(self):
        return torch.zeros(1, self.hidden_size)


rnn = RNN(n_letters, 128, n_letters)

三、訓練模型

1. 準備訓練數(shù)據(jù)

import random


def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]


def randomTrainingPair():
    category = randomChoice(all_categories)
    line = randomChoice(category_lines[category])
    return category, line


def categoryTensor(category):
    li = all_categories.index(category)
    tensor = torch.zeros(1, n_categories)
    tensor[0][li] = 1
    return tensor


def inputTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for li in range(len(line)):
        letter = line[li]
        tensor[li][0][all_letters.find(letter)] = 1
    return tensor


def targetTensor(line):
    letter_indexes = [all_letters.find(line[li]) for li in range(1, len(line))]
    letter_indexes.append(n_letters - 1)  # EOS
    return torch.LongTensor(letter_indexes)


def randomTrainingExample():
    category, line = randomTrainingPair()
    category_tensor = categoryTensor(category)
    input_line_tensor = inputTensor(line)
    target_line_tensor = targetTensor(line)
    return category_tensor, input_line_tensor, target_line_tensor

2. 定義訓練函數(shù)

criterion = nn.NLLLoss()
learning_rate = 0.0005


def train(category_tensor, input_line_tensor, target_line_tensor):
    target_line_tensor.unsqueeze_(-1)
    hidden = rnn.initHidden()


    rnn.zero_grad()


    loss = 0


    for i in range(input_line_tensor.size(0)):
        output, hidden = rnn(category_tensor, input_line_tensor[i], hidden)
        l = criterion(output, target_line_tensor[i])
        loss += l


    loss.backward()


    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)


    return output, loss.item() / input_line_tensor.size(0)

3. 進行訓練

import time
import math


def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)


n_iters = 100000
print_every = 5000
plot_every = 500
all_losses = []
total_loss = 0


start = time.time()


for iter in range(1, n_iters + 1):
    output, loss = train(*randomTrainingExample())
    total_loss += loss


    if iter % print_every == 0:
        print('%s (%d %d%%) %.4f' % (timeSince(start), iter, iter / n_iters * 100, loss))


    if iter % plot_every == 0:
        all_losses.append(total_loss / plot_every)
        total_loss = 0

四、網(wǎng)絡采樣

1. 繪制訓練損失曲線

import matplotlib.pyplot as plt


plt.figure()
plt.plot(all_losses)
plt.title("Training Loss Curve")
plt.xlabel("Iteration")
plt.ylabel("Loss")
plt.show()

2. 生成姓名

max_length = 20


def sample(category, start_letter='A'):
    with torch.no_grad():
        category_tensor = categoryTensor(category)
        input = inputTensor(start_letter)
        hidden = rnn.initHidden()


        output_name = start_letter


        for i in range(max_length):
            output, hidden = rnn(category_tensor, input[0], hidden)
            topv, topi = output.topk(1)
            topi = topi[0][0]
            if topi == n_letters - 1:
                break
            else:
                letter = all_letters[topi]
                output_name += letter
            input = inputTensor(letter)


        return output_name


def samples(category, start_letters='ABC'):
    for start_letter in start_letters:
        print(sample(category, start_letter))


samples('Russian', 'RUS')
samples('German', 'GER')
samples('Spanish', 'SPA')
samples('Chinese', 'CHI')

通過本教程，你學會了如何使用 PyTorch 構建和訓練字符級 RNN 模型，用于生成不同語言風格的姓名。

以上內容是否對您有幫助：

← PyTorch NLP From Scratch: 使用char-RNN對姓氏進行分類

PyTorch NLP From Scratch: 基于注意力機制的 seq2seq 神經(jīng)網(wǎng)絡翻譯 →

寫筆記

我要補充

查看完整版筆記

99re热视频这里只精品,久久久天堂国产精品女人,国产av一区二区三区,久久久精品成人免费看片,99久久精品免费看国产一区二区三区

PyTorch NLP From Scratch: 生成名稱與字符級RNN

一、準備數(shù)據(jù)

二、構建網(wǎng)絡

三、訓練模型