ترانسفورمرز، حتی با وجود اینکه در سال 2017 منتشر شد، تنها در دو سال گذشته شروع به جذب قابل توجهی کرده است. با گسترش فناوری از طریق پلتفرم هایی مانند HuggingFace، NLP و مدلهای زبان بزرگ (LLM) در دسترس تر از همیشه شده اند.
با این حال - حتی با همه تبلیغات اطراف آنها و با بسیاری راهنماهای تئوری گرا، پیاده سازی های سفارشی زیادی به صورت آنلاین وجود ندارد، و منابع به آسانی مانند برخی از انواع شبکه های دیگر که مدت طولانی تری وجود داشته اند، در دسترس نیستند. در حالی که می توانید چرخه کاری خود را با استفاده از ترانسفورماتور از پیش ساخته شده از HuggingFace (موضوع راهنمای دیگری) ساده کنید - می توانید به احساس چگونه کار می کند با ساختن یکی از خودتان، قبل از انتزاع آن از طریق یک کتابخانه. ما در اینجا به جای تئوری و بهینه سازی، بر ساختن تمرکز خواهیم کرد.
در این راهنما، ما در حال ساختن یک مدل زبان خودرگرسیون به تولید متن. ما بر جنبههای عملی و حداقلی/مختصر بارگذاری دادهها، تقسیم آن، بردار کردن آن، ساختن یک مدل، نوشتن یک تماس سفارشی و آموزش/استنتاج تمرکز خواهیم کرد. هر یک از این وظایف را می توان به راهنمای دقیق تری تقسیم کرد، بنابراین ما پیاده سازی را به عنوان یک دستورالعمل عمومی نگه می داریم و بسته به مجموعه داده شما، فضایی را برای سفارشی سازی و بهینه سازی باقی می گذاریم.
انواع LLM و GPT-Fyodor
در حالی که طبقه بندی می تواند بسیار پیچیده تر شود - شما می توانید گسترده مدل های زبان مبتنی بر Transformer را به سه دسته دسته بندی کنید:
- مدل های مبتنی بر رمزگذار – آلبرت، برت، دیستیلبرت، روبرتا
- مبتنی بر رمزگشا – GPT، GPT-2، GPT-3، TransformerXL
- مدل های Seq2Seq - BART، mBART، T5
مبتنی بر رمزگذار مدلها فقط از رمزگذار ترانسفورماتور در معماری خود استفاده میکنند (معمولاً پشتهای) و برای درک جملات (طبقهبندی، شناسایی موجودیت نامگذاری شده، پاسخ به سؤال) عالی هستند.
مبتنی بر رمزگشا مدلها فقط از رمزگشای ترانسفورماتور در معماری خود استفاده میکنند (همچنین معمولاً انباشته شده) و برای پیشبینی آینده عالی هستند، که آنها را برای تولید متن مناسب میکند.
Seq2Seq مدلها هم رمزگذار و هم رمزگشا را با هم ترکیب میکنند و در تولید متن، خلاصهسازی و مهمتر از همه – ترجمه عالی هستند.
خانواده مدلهای GPT که در چند سال گذشته محبوبیت زیادی به دست آوردهاند، مدلهای ترانسفورماتور مبتنی بر رمزگشا هستند و در تولید متنهای انسانمانند عالی هستند، بر روی مجموعههای بزرگی از دادهها آموزش دیدهاند، و بهعنوان یک پیام جدید به آنها دستور داده میشود. دانه شروع برای نسل. برای مثال:
generate_text('the truth ultimately is')
که در زیر هود این دستور را به یک مدل GPT مانند میرساند و تولید میکند:
'the truth ultimately is really a joy in history, this state of life through which is almost invisible, superfluous teleological...'
این در واقع یک اسپویلر کوچک از انتهای راهنما است! یک اسپویلر کوچک دیگر معماری است که آن متن را تولید کرده است:
inputs = layers.Input(shape=(maxlen,))
embedding_layer = keras_nlp.layers.TokenAndPositionEmbedding(vocab_size, maxlen, embed_dim)(inputs)
transformer_block = keras_nlp.layers.TransformerDecoder(embed_dim, num_heads)(embedding_layer)
outputs = layers.Dense(vocab_size, activation='softmax')(transformer_block)
model = keras.Model(inputs=inputs, outputs=outputs)
برای ساختن یک مدل ترانسفورماتور فقط رمزگشا - شبیه سازی یک GPT کوچک، 5 خط کافی است. از آنجایی که ما مدل را بر روی رمانهای فئودور داستایوفسکی آموزش خواهیم داد (که میتوانید آن را با هر چیز دیگری جایگزین کنید، از ویکیپدیا گرفته تا نظرات ردیت) - به طور آزمایشی مدل را صدا میکنیم. GPT-Fyodor.
KerasNLP
ترفند یک GPT-Fyodor 5 خطی در این است KerasNLP، که توسط تیم رسمی Keras توسعه یافته است، به عنوان یک گسترش افقی برای Keras، که به شیوه واقعی Keras، هدف آن رساندن NLP با قدرت صنعتی به نوک انگشتان شماست، با لایه های جدید (رمزگذارها، رمزگشاها، جاسازی های توکن، جاسازی موقعیت، معیارها، توکنایزرها و غیره).
KerasNLP یک باغ وحش نمونه نیست. این بخشی از Keras (به عنوان یک بسته جداگانه) است که مانع ورود برای توسعه مدل NLP را کاهش می دهد، همانطور که مانع ورود برای توسعه یادگیری عمیق عمومی با بسته اصلی را کاهش می دهد.
توجه داشته باشید: تا زمان نگارش KerasNLP هنوز در حال تولید و در مراحل اولیه است. تفاوت های ظریف ممکن است در نسخه های بعدی وجود داشته باشد. نوشتن از نسخه استفاده می کند 0.3.0
.
برای اینکه بتوانید از KerasNLP استفاده کنید، باید آن را از طریق نصب کنید pip
:
$ pip install keras_nlp
و شما می توانید نسخه را با:
keras_nlp.__version__
پیاده سازی مدل GPT-Style با Keras
بیایید با وارد کردن کتابخانههایی که استفاده خواهیم کرد - TensorFlow، Keras، KerasNLP و NumPy شروع کنیم:
import tensorflow as tf
from tensorflow import keras
import keras_nlp
import numpy as np
در حال بارگیری داده ها
بیایید تعدادی از رمانهای داستایفسکی را بارگذاری کنیم – یکی از آنها برای یک مدل بسیار کوتاه است، بدون اینکه از مراحل اولیه به بعد کمی بیش از حد مناسب باشد. ما به راحتی از فایل های متنی خام استفاده خواهیم کرد پروژه گوتنبرگ، به دلیل سادگی کار با چنین داده هایی:
crime_and_punishment_url = 'https://www.gutenberg.org/files/2554/2554-0.txt'
brothers_of_karamazov_url = 'https://www.gutenberg.org/files/28054/28054-0.txt'
the_idiot_url = 'https://www.gutenberg.org/files/2638/2638-0.txt'
the_possessed_url = 'https://www.gutenberg.org/files/8117/8117-0.txt'
paths = [crime_and_punishment_url, brothers_of_karamazov_url, the_idiot_url, the_possessed_url]
names = ['Crime and Punishment', 'Brothers of Karamazov', 'The Idiot', 'The Possessed']
texts = ''
for index, path in enumerate(paths):
filepath = keras.utils.get_file(f'{names[index]}.txt', origin=path)
text = ''
with open(filepath, encoding='utf-8') as f:
text = f.read()
texts += text[10000:]
ما به سادگی همه فایلها را دانلود کردهایم، آنها را مرور کردهایم و آنها را یکی روی دیگری به هم متصل کردهایم. این شامل برخی از تنوع در زبان مورد استفاده است، در حالی که همچنان آن را کاملاً فئودور حفظ می کند! برای هر فایل، از 10 هزار کاراکتر اول صرفنظر کرده ایم، که تقریباً طول متوسط پیشگفتار و مقدمه گوتنبرگ است، بنابراین برای هر تکرار، بدنه کتاب تا حد زیادی دست نخورده باقی مانده است. بیایید نگاهی به 500 کاراکتر تصادفی در آن بیاندازیم texts
رشته در حال حاضر:
texts[25000:25500]
'nd that was whynI addressed you at once. For in unfolding to you the story of my life, Indo not wish to make myself a laughing-stock before these idle listeners,nwho indeed know all about it already, but I am looking for a mannof feeling and education. Know then that my wife was educated in anhigh-class school for the daughters of noblemen, and on leaving shendanced the shawl dance before the governor and other personages fornwhich she was presented with a gold medal and a certificate of merit.n'
قبل از انجام هر پردازش دیگری، رشته را به جملات جدا می کنیم:
text_list = texts.split('.')
len(text_list)
ما 69 هزار جمله داریم. هنگامی که شما جایگزین n
کاراکترها با فاصله خالی و شمارش کلمات:
len(texts.replace('n', ' ').split(' '))
توجه داشته باشید: شما معمولاً می خواهید حداقل یک میلیون کلمه در یک مجموعه داده داشته باشید، و در حالت ایده آل، خیلی بیشتر از آن. ما با چند مگابایت داده (~ 5 مگابایت) کار می کنیم در حالی که مدل های زبان معمولاً روی ده ها گیگابایت متن آموزش داده می شوند. این، به طور طبیعی، تناسب بیش از حد ورودی متن را بسیار آسان و تعمیم آن را سخت می کند (گیج شدن زیاد بدون برازش بیش از حد، یا گیجی کم با بیش از حد مناسب). نتایج را با یک دانه نمک بگیرید.
با این وجود، اجازه دهید اینها را به یک تقسیم کنیم پرورش, آزمون و اعتبار سنجی تنظیم. ابتدا رشته های خالی را حذف می کنیم و جملات را به هم می زنیم:
text_list = list(filter(None, text_list))
import random
random.shuffle(text_list)
سپس، تقسیم 70/15/15 را انجام می دهیم:
length = len(text_list)
text_train = text_list[:int(0.7*length)]
text_test = text_list[int(0.7*length):int(0.85*length)]
text_valid = text_list[int(0.85*length):]
این یک روش ساده و در عین حال موثر برای انجام تقسیم بندی قطار-آزمون- اعتبار سنجی است. بیایید نگاهی به آن بیندازیم text_train
:
[' It was a dull morning, but the snow had ceased',
'nn"Pierre, you who know so much of what goes on here, can you really havenknown nothing of this business and have heard nothing about it?"nn"What? What a set! So it's not enough to be a child in your old age,nyou must be a spiteful child too! Varvara Petrovna, did you hear what hensaid?"nnThere was a general outcry; but then suddenly an incident took placenwhich no one could have anticipated', ...
زمان استانداردسازی و برداری است!
بردار سازی متن
شبکه ها کلمات را درک نمی کنند - آنها اعداد را درک می کنند. ما می خواهیم کلمات را نشانه گذاری کنیم:
...
sequence = ['I', 'am', 'Wall-E']
sequence = tokenize(sequence)
print(sequence) # [4, 26, 472]
...
همچنین، از آنجایی که جملات از نظر طول متفاوت هستند - معمولاً بالشتک به چپ یا راست اضافه میشود تا از شکل یکسانی در جملاتی که وارد میشوند اطمینان حاصل شود. بگویید طولانیترین جمله ما 5 کلمه (ژتون) است. در آن صورت، جمله Wall-E با دو صفر پر میشود، بنابراین از همان شکل ورودی اطمینان میدهیم:
sequence = pad_sequence(sequence)
print(sequence) # [4, 26, 472, 0, 0]
به طور سنتی، این کار با استفاده از TensorFlow انجام می شد Tokenizer
و کراس pad_sequences()
روش ها - با این حال، یک لایه بسیار مفیدتر، TextVectorization
، می توان استفاده کرد که توکنیزه می کند و ورودی خود را اضافه می کند و به شما این امکان را می دهد که واژگان و اندازه آن را بدون دانستن واژگان از قبل استخراج کنید!
راهنمای عملی و عملی ما برای یادگیری Git را با بهترین روش ها، استانداردهای پذیرفته شده در صنعت و برگه تقلب شامل بررسی کنید. دستورات Google Git را متوقف کنید و در واقع یاد گرفتن آی تی!
بیایید وفق دهیم و مناسب باشیم TextVectorization
لایه:
from tensorflow.keras.layers import TextVectorization
def custom_standardization(input_string):
sentence = tf.strings.lower(input_string)
sentence = tf.strings.regex_replace(sentence, "n", " ")
return sentence
maxlen = 50
vectorize_layer = TextVectorization(
standardize = custom_standardization,
output_mode="int",
output_sequence_length=maxlen + 1,
)
vectorize_layer.adapt(text_list)
vocab = vectorize_layer.get_vocabulary()
La custom_standardization()
روش می تواند بسیار طولانی تر از این باشد. ما به سادگی تمام ورودی ها را کوچک کرده و جایگزین کرده ایم n
با " "
. اینجاست که میتوانید بیشتر پیشپردازش خود را برای متن قرار دهید - و آن را از طریق گزینه اختیاری به لایه برداری ارائه کنید. standardize
بحث و جدل. یک بار شما adapt()
لایه به متن (آرایه NumPy یا لیست متون) - می توانید واژگان و همچنین اندازه آن را از آنجا دریافت کنید:
vocab_size = len(vocab)
vocab_size
در نهایت، برای نشانهزدایی از کلمات، یک علامت ایجاد میکنیم index_lookup
فرهنگ لغت:
index_lookup = dict(zip(range(len(vocab)), vocab))
index_lookup[5]
همه توکن ها را نقشه برداری می کند ([1, 2, 3, 4, ...]
) به کلمات در واژگان (['a', 'the', 'i', ...]
). با پاس دادن به یک کلید (شاخص توکن) به راحتی می توانیم کلمه را پس بگیریم. اکنون می توانید اجرا کنید vectorize_layer()
در هر ورودی و مشاهده جملات برداری:
vectorize_layer(['hello world!'])
که منجر به:
<tf.Tensor: shape=(1, 51), dtype=int64, numpy=
array([[ 1, 7509, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0]], dtype=int64)>
سلام دارای شاخص از 1
در حالی که جهان دارای شاخص است 7509
! بقیه بالشتک به است maxlen
ما محاسبه کرده ایم
ما ابزاری برای بردار کردن متن داریم - اکنون، بیایید مجموعههای داده را از آن ایجاد کنیم text_train
, text_test
و text_valid
، با استفاده از لایه برداری ما به عنوان یک رسانه تبدیل بین کلمات و بردارهایی که می توانند به GPT-Fyodor وارد شوند.
ایجاد مجموعه داده
ما در حال ایجاد یک tf.data.Dataset
برای هر یک از مجموعه های ما، با استفاده از from_tensor_slices()
و ارائه فهرستی از، خوب، برش های تانسور (جملات):
batch_size = 64
train_dataset = tf.data.Dataset.from_tensor_slices(text_train)
train_dataset = train_dataset.shuffle(buffer_size=256)
train_dataset = train_dataset.batch(batch_size)
test_dataset = tf.data.Dataset.from_tensor_slices(text_test)
test_dataset = test_dataset.shuffle(buffer_size=256)
test_dataset = test_dataset.batch(batch_size)
valid_dataset = tf.data.Dataset.from_tensor_slices(text_valid)
valid_dataset = valid_dataset.shuffle(buffer_size=256)
valid_dataset = valid_dataset.batch(batch_size)
پس از ایجاد و مخلوط کردن (دوباره، برای اندازه گیری خوب) - می توانیم یک تابع پیش پردازش (بردارسازی و تقسیم ترتیب) را اعمال کنیم:
def preprocess_text(text):
text = tf.expand_dims(text, -1)
tokenized_sentences = vectorize_layer(text)
x = tokenized_sentences[:, :-1]
y = tokenized_sentences[:, 1:]
return x, y
train_dataset = train_dataset.map(preprocess_text)
train_dataset = train_dataset.prefetch(tf.data.AUTOTUNE)
test_dataset = test_dataset.map(preprocess_text)
test_dataset = test_dataset.prefetch(tf.data.AUTOTUNE)
valid_dataset = valid_dataset.map(preprocess_text)
valid_dataset = valid_dataset.prefetch(tf.data.AUTOTUNE)
La preprocess_text()
تابع به سادگی با آخرین بعد گسترش می یابد، متن را با استفاده از ما بردار می کند vectorize_layer
و ورودی ها و اهداف را ایجاد می کند که با یک توکن جبران می شود. مدل استفاده خواهد کرد [0..n]
استنباط کردن n+1
، برای هر کلمه یک پیش بینی به دست می دهد و تمام کلمات قبل از آن را محاسبه می کند. بیایید نگاهی به یک ورودی واحد در هر یک از مجموعه داده ها بیندازیم:
for entry in train_dataset.take(1):
print(entry)
با بررسی ورودیها و اهداف برگشتی، در دستههای 64 تایی (با طول هر کدام 30 عدد)، به وضوح میتوانیم ببینیم که چگونه آنها با یک جبران میشوند:
(<tf.Tensor: shape=(64, 50), dtype=int64, numpy=
array([[17018, 851, 2, ..., 0, 0, 0],
[ 330, 74, 4, ..., 0, 0, 0],
[ 68, 752, 30273, ..., 0, 0, 0],
...,
[ 7, 73, 2004, ..., 0, 0, 0],
[ 44, 42, 67, ..., 0, 0, 0],
[ 195, 252, 102, ..., 0, 0, 0]], dtype=int64)>, <tf.Tensor: shape=(64, 50), dtype=int64, numpy=
array([[ 851, 2, 8289, ..., 0, 0, 0],
[ 74, 4, 34, ..., 0, 0, 0],
[ 752, 30273, 7514, ..., 0, 0, 0],
...,
[ 73, 2004, 31, ..., 0, 0, 0],
[ 42, 67, 76, ..., 0, 0, 0],
[ 252, 102, 8596, ..., 0, 0, 0]], dtype=int64)>)
در نهایت - زمان ساخت مدل است!
تعریف مدل
ما در اینجا از لایه های KerasNLP استفاده خواهیم کرد. بعد از یک Input
، ورودی را از طریق a رمزگذاری می کنیم TokenAndPositionEmbedding
لایه، عبور در ما vocab_size
, maxlen
و embed_dim
. همان embed_dim
که این لایه خروجی و ورودی به TransformerDecoder
خواهد بود در رسیور نگهداری می شود. در زمان نوشتن، رسیور به طور خودکار ابعاد ورودی را حفظ می کند، و به شما اجازه نمی دهد آن را در خروجی دیگری قرار دهید، اما به شما اجازه می دهد ابعاد پنهان را از طریق intermediate_dim
بحث و جدل.
برای نمایش پنهان، ابعاد جاسازی را در دو ضرب میکنیم، اما میتوانید آن را ثابت نگه دارید یا از عددی جدا شده از کمرنگهای تعبیهشده استفاده کنید:
embed_dim = 128
num_heads = 4
def create_model():
inputs = keras.layers.Input(shape=(maxlen,), dtype=tf.int32)
embedding_layer = keras_nlp.layers.TokenAndPositionEmbedding(vocab_size, maxlen, embed_dim)(inputs)
decoder = keras_nlp.layers.TransformerDecoder(intermediate_dim=embed_dim,
num_heads=num_heads,
dropout=0.5)(embedding_layer)
outputs = keras.layers.Dense(vocab_size, activation='softmax')(decoder)
model = keras.Model(inputs=inputs, outputs=outputs)
model.compile(
optimizer="adam",
loss='sparse_categorical_crossentropy',
metrics=[keras_nlp.metrics.Perplexity(), 'accuracy']
)
return model
model = create_model()
model.summary()
در بالای رسیور، ما یک Dense
لایه برای انتخاب کلمه بعدی در دنباله، با a softmax
فعال سازی (که توزیع احتمال را برای هر توکن بعدی تولید می کند). بیایید نگاهی به خلاصه مدل بیندازیم:
Model: "model_5"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_6 (InputLayer) [(None, 30)] 0
token_and_position_embeddin (None, 30, 128) 6365824
g_5 (TokenAndPositionEmbedd
ing)
transformer_decoder_5 (Tran (None, 30, 128) 132480
sformerDecoder)
dense_5 (Dense) (None, 30, 49703) 6411687
=================================================================
Total params: 13,234,315
Trainable params: 13,234,315
Non-trainable params: 0
_________________________________________________________________
GPT-2 رمزگشاهای زیادی را روی هم قرار می دهد - GPT-2 Small دارای 12 رمزگشای پشته ای (117M پارامتر) است، در حالی که GPT-2 Extra Large دارای 48 رمزگشای پشته ای (1.5B پارامتر) است. مدل تک رمزگشای ما با پارامترهای ساده 13M باید برای اهداف آموزشی به اندازه کافی خوب کار کند. با LLM ها - ثابت شده است که افزایش مقیاس یک استراتژی بسیار خوب است، و ترانسفورماتورها اجازه مقیاس بندی خوب را می دهند و آموزش مدل های بسیار بزرگ را امکان پذیر می کند.
GPT-3 دارای یک "ضعیف" پارامترهای 175B. تیم Google Brain یک مدل پارامتر 1.6T را برای انجام تحقیقات پراکنده و در عین حال حفظ محاسبات در همان سطح مدلهای کوچکتر آموزش داد.
در واقع، اگر تعداد رمزگشاها را از 1 به 3 افزایش دهیم:
def create_model():
inputs = keras.layers.Input(shape=(maxlen,), dtype=tf.int32)
x = keras_nlp.layers.TokenAndPositionEmbedding(vocab_size, maxlen, embed_dim)(inputs)
for i in range(4):
x = keras_nlp.layers.TransformerDecoder(intermediate_dim=embed_dim*2, num_heads=num_heads, dropout=0.5)(x)
do = keras.layers.Dropout(0.4)(x)
outputs = keras.layers.Dense(vocab_size, activation='softmax')(do)
model = keras.Model(inputs=inputs, outputs=outputs)
تعداد پارامترهای ما 400k افزایش می یابد:
Total params: 13,631,755
Trainable params: 13,631,755
Non-trainable params: 0
بیشتر پارامترهای شبکه ما از
TokenAndPositionEmbedding
وDense
لایه های!
اعماق مختلف رمزگشا را امتحان کنید - از 1 تا تمام راه هایی که دستگاه شما می تواند کار کند و نتایج را یادداشت کنید. در هر صورت - ما تقریباً آماده آموزش مدل هستیم! بیایید یک callback سفارشی ایجاد کنیم که نمونهای از متن را در هر دوره تولید میکند، بنابراین میتوانیم ببینیم که مدل چگونه از طریق آموزش جملات را میآموزد.
پاسخ به تماس سفارشی
class TextSampler(keras.callbacks.Callback):
def __init__(self, start_prompt, max_tokens):
self.start_prompt = start_prompt
self.max_tokens = max_tokens
def sample_token(self, logits):
logits, indices = tf.math.top_k(logits, k=5, sorted=True)
indices = np.asarray(indices).astype("int32")
preds = keras.activations.softmax(tf.expand_dims(logits, 0))[0]
preds = np.asarray(preds).astype("float32")
return np.random.choice(indices, p=preds)
def on_epoch_end(self, epoch, logs=None):
decoded_sample = self.start_prompt
for i in range(self.max_tokens-1):
tokenized_prompt = vectorize_layer([decoded_sample])[:, :-1]
predictions = self.model.predict([tokenized_prompt], verbose=0)
sample_index = len(decoded_sample.strip().split())-1
sampled_token = self.sample_token(predictions[0][sample_index])
sampled_token = index_lookup[sampled_token]
decoded_sample += " " + sampled_token
print(f"nSample text:n{decoded_sample}...n")
random_sentence = ' '.join(random.choice(text_valid).replace('n', ' ').split(' ')[:4])
sampler = TextSampler(random_sentence, 30)
reducelr = keras.callbacks.ReduceLROnPlateau(patience=10, monitor='val_loss')
آموزش مدل
بالاخره وقت تمرین است! بیایید خودمان را کنار بگذاریم train_dataset
و validation_dataset
با برقراری تماس ها:
model = create_model()
history = model.fit(train_dataset,
validation_data=valid_dataset,
epochs=10,
callbacks=[sampler, reducelr])
نمونهگر جملهی تاسفآوری را انتخاب کرد که با نقل قول پایان و شروع نقلقول شروع میشود، اما همچنان نتایج جالبی را در حین آموزش ایجاد میکند:
# Epoch training
Epoch 1/10
658/658 [==============================] - ETA: 0s - loss: 2.7480 - perplexity: 15.6119 - accuracy: 0.6711
# on_epoch_end() sample generation
Sample text:
” “What do you had not been i had been the same man was not be the same eyes to been a whole man and he did a whole man to the own...
# Validation
658/658 [==============================] - 158s 236ms/step - loss: 2.7480 - perplexity: 15.6119 - accuracy: 0.6711 - val_loss: 2.2130 - val_perplexity: 9.1434 - val_accuracy: 0.6864 - lr: 0.0010
...
Sample text:
” “What do you know it is it all this very much as i should not have a great impression in the room to be able of it in my heart...
658/658 [==============================] - 149s 227ms/step - loss: 1.7753 - perplexity: 5.9019 - accuracy: 0.7183 - val_loss: 2.0039 - val_perplexity: 7.4178 - val_accuracy: 0.7057 - lr: 0.0010
با این شروع می شود:
"چی بودی که نبودی من همون بودم"…
که واقعاً چندان منطقی نیست. در پایان ده دوره کوتاه، چیزی در امتداد خطوط زیر تولید می کند:
"منظورت چیست که البته معمولی ترین مرد یک مرد است؟"
در حالی که جمله دوم هنوز خیلی معنا ندارد - بسیار حساس تر از جمله اول است. آموزش طولانیتر روی دادههای بیشتر (با مراحل پیشپردازش پیچیدهتر) نتایج بهتری به همراه خواهد داشت. ما آن را فقط در 10 دوره با انصراف زیاد آموزش داده ایم تا با حجم داده کوچک مبارزه کنیم. اگر برای مدت طولانی تری به آموزش رها می شد، متن بسیار فئودور مانند تولید می کرد، زیرا تکه های بزرگی از آن را حفظ می کرد.
توجه داشته باشید: از آنجایی که خروجی نسبتاً پرمخاطب است، می توانید آن را تغییر دهید verbose
استدلال در حالی که مدل را برازش می کند تا مقدار متن روی صفحه را کاهش دهد.
استنتاج مدل
برای انجام استنتاج، می خواهیم رابط کاربری را تکرار کنیم TextSampler
– روشی که دانه و الف را می پذیرد response_length
(max_tokens
). ما از همان روشهایی که در نمونهگر استفاده میکنیم استفاده میکنیم:
def sample_token(logits):
logits, indices = tf.math.top_k(logits, k=5, sorted=True)
indices = np.asarray(indices).astype("int32")
preds = keras.activations.softmax(tf.expand_dims(logits, 0))[0]
preds = np.asarray(preds).astype("float32")
return np.random.choice(indices, p=preds)
def generate_text(prompt, response_length=20):
decoded_sample = prompt
for i in range(response_length-1):
tokenized_prompt = vectorize_layer([decoded_sample])[:, :-1]
predictions = model.predict([tokenized_prompt], verbose=0)
sample_index = len(decoded_sample.strip().split())-1
sampled_token = sample_token(predictions[0][sample_index])
sampled_token = index_lookup[sampled_token]
decoded_sample += " " + sampled_token
return decoded_sample
اکنون می توانید روش را روی نمونه های جدید اجرا کنید:
generate_text('the truth ultimately is')
generate_text('the truth ultimately is')
بهبود نتایج؟
بنابراین، چگونه می توانید نتایج را بهبود بخشید؟ چند کار بسیار عملی وجود دارد که می توانید انجام دهید:
- تمیز کردن داده ها (داده های ورودی را با دقت بیشتری تمیز کنید، ما فقط یک عدد تقریبی را از ابتدا کوتاه کردیم و کاراکترهای خط جدید را حذف کردیم)
- داده های بیشتری دریافت کنید (ما فقط با چند مگابایت داده متنی کار کردیم)
- مدل را در کنار داده ها مقیاس کنید (انباشته کردن رمزگشاها کار سختی نیست!)
نتیجه
در حالی که خط لوله پیش پردازش حداقلی است و می توان آن را بهبود بخشید - خط لوله مشخص شده در این راهنما یک مدل مناسب به سبک GPT ایجاد کرد، با تنها 5 خط کد مورد نیاز برای ساخت یک ترانسفورماتور فقط رمزگشای سفارشی، با استفاده از Keras!
ترانسفورماتورها برای مدلسازی توالی عمومی محبوب و به طور گسترده قابل استفاده هستند (و بسیاری از چیزها را میتوان به صورت توالی بیان کرد). تا کنون، مانع اصلی برای ورود، یک پیاده سازی دست و پا گیر بود، اما با KerasNLP - تمرین کنندگان یادگیری عمیق می توانند از پیاده سازی ها برای ساخت سریع و آسان مدل ها استفاده کنند.