Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Ajuste os modelos de linguagem do transformador para diversidade linguística com o Hugging Face no Amazon SageMaker

Aproximadamente 7,000 idiomas estão em uso hoje. Apesar das tentativas no final do século XIX de inventar línguas construídas como o Volapük ou o Esperanto, não há sinal de unificação. As pessoas ainda optam por criar novos idiomas (pense no seu personagem de filme favorito que fala Klingon, Dothraki ou Élfico).

Hoje, os exemplos de processamento de linguagem natural (PNL) são dominados pela língua inglesa, a língua nativa de apenas 5% da população humana e falada apenas por 17%.

A divisão digital é definido como a lacuna entre aqueles que podem acessar as tecnologias digitais e aqueles que não podem. A falta de acesso ao conhecimento ou à educação devido a barreiras linguísticas também contribui para a exclusão digital, não apenas entre as pessoas que não falam inglês, mas também para as pessoas que falam inglês e que não têm acesso a conteúdos não ingleses, o que reduz a diversidade de pensamento e conhecimento. Há muito o que aprender mutuamente.

Nesta postagem, resumimos os desafios de linguagens com poucos recursos e experimentamos diferentes abordagens de solução cobrindo mais de 100 linguagens usando transformadores Hugging Face no Amazon SageMaker.

Ajustamos vários modelos de linguagem pré-treinados baseados em transformadores para uma tarefa de perguntas e respostas. Usamos turco em nosso exemplo, mas você pode aplicar essa abordagem a outro idioma compatível. Nosso foco está nas variantes do BERT [1], porque uma grande característica do BERT é sua arquitetura unificada para diferentes tarefas.

Demonstramos vários benefícios do uso dos transformadores Hugging Face em Amazon Sage Maker, como treinamento e experimentação em escala, e aumento da produtividade e eficiência de custos.

Visão geral da PNL

Houve vários desenvolvimentos importantes na PNL desde 2017. O surgimento de arquiteturas de aprendizagem profunda, como transformadores [2], as técnicas de aprendizagem não supervisionadas para treinar tais modelos em conjuntos de dados extremamente grandes e a aprendizagem por transferência melhoraram significativamente o estado da situação. arte na compreensão da linguagem natural. A chegada de centros modelo pré-treinados democratizou ainda mais o acesso ao conhecimento coletivo da comunidade da PNL, eliminando a necessidade de começar do zero.

Um modelo de linguagem é um modelo de PNL que aprende a prever a próxima palavra (ou qualquer palavra mascarada) em uma sequência. A beleza genuína dos modelos de linguagem como ponto de partida é tripla: primeiro, a pesquisa mostrou que os modelos de linguagem treinados em um grande corpus de dados de texto aprendem significados mais complexos das palavras do que os métodos anteriores. Por exemplo, para poder prever a próxima palavra numa frase, o modelo de linguagem tem de ser bom na compreensão do contexto, da semântica e também da gramática. Em segundo lugar, para treinar um modelo de linguagem, não são necessários dados rotulados – que são escassos e caros – durante o pré-treinamento. Isto é importante porque uma enorme quantidade de dados de texto não rotulados está disponível publicamente na web em vários idiomas. Terceiro, foi demonstrado que, uma vez que o modelo de linguagem seja inteligente o suficiente para prever a próxima palavra para qualquer frase, é relativamente fácil realizar outras tarefas de PNL, como análise de sentimento ou resposta a perguntas, com muito poucos dados rotulados, porque o ajuste fino reutiliza representações de um modelo de linguagem pré-treinado [3].

Os serviços de PNL totalmente gerenciados também aceleraram a adoção da PNL. Amazon Comprehend é um serviço totalmente gerenciado que permite que a análise de texto extraia insights do conteúdo dos documentos e oferece suporte a vários idiomas. O Amazon Comprehend oferece suporte à classificação personalizada e ao reconhecimento de entidades personalizadas e permite criar modelos de PNL personalizados específicos para seus requisitos, sem a necessidade de qualquer experiência em ML.

Desafios e soluções para linguagens com poucos recursos

O principal desafio para um grande número de línguas é que têm relativamente menos dados disponíveis para formação. Estes são chamados linguagens de poucos recursos. O artigo m-BERT [4] e o artigo XLM-R [7] referem-se ao urdu e ao suaíli como línguas de poucos recursos.

A figura a seguir especifica os códigos ISO de mais de 80 idiomas e a diferença de tamanho (em escala logarítmica) entre os dois principais pré-treinamentos [7]. Na Wikipédia (laranja), existem apenas 18 idiomas com mais de 1 milhão de artigos e 52 idiomas com mais de 1,000 artigos, mas 164 idiomas com apenas 1–10,000 artigos [9]. O corpus CommonCrawl (azul) aumenta a quantidade de dados para linguagens de poucos recursos em duas ordens de magnitude. No entanto, ainda são relativamente pequenos em comparação com línguas com muitos recursos, como o inglês, o russo ou o alemão.

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Em termos de números de artigos da Wikipédia, o turco é outro idioma no mesmo grupo de mais de 100,000 artigos (28º), junto com o urdu (54º). Comparado com o urdu, o turco seria considerado uma língua de recursos intermediários. O turco tem algumas características interessantes, que podem tornar os modelos linguísticos mais poderosos, criando certos desafios na linguística e na tokenização. É uma linguagem aglutinativa. Possui uma ordem de palavras muito livre, uma morfologia complexa ou tempos verbais sem equivalentes em inglês. Frases formadas por várias palavras em idiomas como o inglês podem ser expressas com uma única palavra, conforme mostrado no exemplo a seguir.

Turco Inglês
gato Gato
gatoLER Gatos
gatogilLER Família de gatos
Kedigillerdia Pertencente ao família de gatos
gatoleştirebileceklerimizdenmişçesineyken Quando parece que esse é aquele que podemos fazer gato

Duas abordagens principais de solução são modelos específicos de idioma ou modelos multilíngues (com ou sem supervisão multilíngue):

  • Modelos de linguagem monolíngue – A primeira abordagem é aplicar uma variante do BERT a uma língua-alvo específica. Quanto mais dados de treinamento, melhor será o desempenho do modelo.
  • Modelos de linguagem mascarada multilíngue – A outra abordagem é pré-treinar modelos de grandes transformadores em vários idiomas. A modelagem de idiomas multilíngues visa resolver o desafio da falta de dados em idiomas de poucos recursos, por meio do pré-treinamento em um grande número de idiomas, para que as tarefas de PNL aprendidas em um idioma possam ser transferidas para outros idiomas. Os modelos de linguagem mascarada multilíngue (MLMs) impulsionaram o que há de mais moderno em tarefas de compreensão multilíngue. Dois exemplos são:
    • BERT multilíngue – O modelo BERT multilíngue foi treinado em 104 idiomas diferentes usando o corpus da Wikipedia. No entanto, foi demonstrado que só generaliza bem em estruturas linguísticas e características tipológicas semelhantes (por exemplo, línguas com ordem de palavras semelhante). Sua multilinguidade é diminuída especialmente para línguas com diferentes ordens de palavras (por exemplo, sujeito/objeto/verbo) [4].
    • XLM-R – Os modelos de linguagem multilíngues (XLMs) são treinados com um objetivo multilíngue usando conjuntos de dados paralelos (o mesmo texto em dois idiomas diferentes) ou sem um objetivo multilíngue usando conjuntos de dados monolíngues [6]. A pesquisa mostra que linguagens com poucos recursos se beneficiam da expansão para mais linguagens. XLM-RoBERTa é um modelo baseado em transformador inspirado em RoBERTa [5], e seu ponto de partida é a proposição de que BERT e XLM multilíngues estão subajustados. Ele é treinado em 100 idiomas usando o corpus Wikipedia e CommonCrawl, portanto, a quantidade de dados de treinamento para idiomas de poucos recursos é aproximadamente duas ordens de magnitude maior em comparação com m-BERT [7].

Outro desafio dos modelos linguísticos multilíngues para línguas com poucos recursos é o tamanho do vocabulário e a tokenização. Como todos os idiomas usam o mesmo vocabulário compartilhado em modelos de idiomas multilíngues, há uma compensação entre aumentar o tamanho do vocabulário (o que aumenta os requisitos de computação) e diminuí-lo (palavras não presentes no vocabulário seriam marcadas como desconhecidas ou usar caracteres em vez de palavras como tokens ignorariam qualquer estrutura). O algoritmo de tokenização de palavras combina os benefícios de ambas as abordagens. Por exemplo, ele lida efetivamente com palavras fora do vocabulário, dividindo a palavra em subpalavras até que esteja presente no vocabulário ou até que o caractere individual seja alcançado. A tokenização baseada em caracteres não é muito útil, exceto para determinados idiomas, como o chinês. Existem técnicas para enfrentar desafios para linguagens de poucos recursos, como amostragem com certas distribuições [6].

A tabela a seguir mostra como três tokenizadores diferentes se comportam para a palavra “kedileri” (que significa “seus gatos”). Para certos idiomas e tarefas de PNL, isso faria diferença. Por exemplo, para a tarefa de resposta a perguntas, o modelo retorna a extensão do índice do token inicial e do índice do token final; retornar “kediler” (“gatos”) ou “kedileri” (“seus gatos”) perderia algum contexto e levaria a resultados de avaliação diferentes para determinadas métricas.

Modelo pré-treinado Tamanho do vocabulário Tokenização para “Kedileri”*
dbmdz/bert-base-turco-uncased 32,000 Tokens [CLS] gatos ##eu [SET]
IDs de entrada 2 23714 1023 3
bert-base-multilíngue-uncased 105,879 Tokens [CLS] ked ##iler ##eu [SET]
IDs de entrada 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 Tokens Ke Ke di s
IDs de entrada 0 1345 428 1341 .
*Em inglês: (seus) gatos

Portanto, embora as línguas com poucos recursos beneficiem de modelos linguísticos multilingues, a realização de tokenização num vocabulário partilhado pode ignorar algumas características linguísticas de determinadas línguas.

Na próxima seção, comparamos três abordagens, ajustando-as para uma tarefa de resposta a perguntas usando um conjunto de dados de controle de qualidade para turco: BERTurk [8], BERT multilíngue [4] e XLM-R [7].

Visão geral da solução

Nosso fluxo de trabalho é o seguinte:

  1. Prepare o conjunto de dados em um Estúdio Amazon SageMaker ambiente de notebook e carregue-o para Serviço de armazenamento simples da Amazon (Amazônia S3).
  2. Inicie trabalhos de treinamento paralelos em contêineres de aprendizado profundo de treinamento do SageMaker, fornecendo o script de ajuste fino.
  3. Colete metadados de cada experimento.
  4. Compare os resultados e identifique o modelo mais adequado.

O diagrama a seguir ilustra a arquitetura da solução.

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Para obter mais informações sobre notebooks Studio, consulte Mergulhe na arquitetura de notebooks do Amazon SageMaker Studio. Para obter mais informações sobre como o Hugging Face é integrado ao SageMaker, consulte AWS e Hugging Face colaboram para simplificar e acelerar a adoção de modelos de processamento de linguagem natural.

Preparar o conjunto de dados

A biblioteca Hugging Face Datasets fornece métodos poderosos de processamento de dados para preparar rapidamente um conjunto de dados para treinamento em um modelo de aprendizado profundo. O código a seguir carrega o conjunto de dados de controle de qualidade turco e explora seu conteúdo:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Existem cerca de 9,000 amostras.

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O conjunto de dados de entrada é ligeiramente transformado em um formato esperado pelos modelos pré-treinados e contém as seguintes colunas:

df = pd.DataFrame(ds['train'])
df.sample(1)

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
A tradução em inglês da saída é a seguinte:

  • contexto – Resit Emre Kongar (n. 13 de outubro de 1941, Istambul), sociólogo turco, professor.
  • questão – Qual é o título acadêmico de Emre Kongar?
  • responder - Professor

Script de ajuste fino

A biblioteca Hugging Face Transformers fornece um código de exemplo para ajustar um modelo para uma tarefa de resposta a perguntas, chamada run_qa.py. O código a seguir inicializa o treinador:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Vamos revisar os blocos de construção em alto nível.

Tokenizador

O script carrega um tokenizer usando o AutoTokenizer aula. O AutoTokenizer class se encarrega de retornar o tokenizer correto que corresponde ao modelo:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

A seguir está um exemplo de como o tokenizer funciona:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Modelo

O script carrega um modelo. AutoModel aulas (por exemplo, AutoModelForQuestionAnswering) crie diretamente uma classe com pesos, configuração e vocabulário da arquitetura relevante, dado o nome e o caminho para o modelo pré-treinado. Graças à abstração do Hugging Face, você pode facilmente mudar para um modelo diferente usando o mesmo código, apenas fornecendo o nome do modelo. Veja o seguinte código de exemplo:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Pré-processamento e treinamento

A prepare_train_features() e prepare_validation_features() os métodos pré-processam o conjunto de dados de treinamento e os conjuntos de dados de validação, respectivamente. O código itera sobre o conjunto de dados de entrada e constrói uma sequência a partir do contexto e da pergunta atual, com os IDs de tipo de token específicos do modelo corretos (representações numéricas de tokens) e máscaras de atenção. A sequência é então passada pelo modelo. Isso gera uma série de pontuações, tanto para as posições inicial quanto final, conforme mostrado na tabela a seguir.

Campos do conjunto de dados de entrada Campos de conjunto de dados de treinamento pré-processados ​​para QuestionAnsweringTrainer
id input_ids
título atenção_máscara
contexto posições_iniciais
questão posições_final
Respostas {resposta_início, resposta_texto} .

Avaliação

A compute_metrics() O método cuida do cálculo das métricas. Usamos as seguintes métricas populares para tarefas de resposta a perguntas:

  • Combinação exata – Mede a porcentagem de previsões que correspondem exatamente a qualquer uma das respostas verdadeiras.
  • Pontuação F1 – Mede a sobreposição média entre a previsão e a resposta verdadeira. A pontuação F1 é a média harmônica de precisão e recall:
    • Precisão – A proporção entre o número de palavras compartilhadas e o número total de palavras na previsão.
    • Recordar – A proporção entre o número de palavras compartilhadas e o número total de palavras na verdade básica.

Treinamento gerenciado no SageMaker

Configurar e gerenciar ambientes personalizados de machine learning (ML) pode ser demorado e complicado. Com Contêiner de aprendizado profundo da AWS (DLCs) para bibliotecas Hugging Face Transformers, temos acesso a estruturas de aprendizado profundo predefinidas e otimizadas, o que facilita a execução de nosso script em vários trabalhos de treinamento com o mínimo de código adicional.

Só precisamos usar o Abraçando o estimador de rosto disponível no SageMaker Python SDK com as seguintes entradas:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Avalie os resultados

Quando os trabalhos de ajuste fino para a tarefa de resposta às perguntas em turco forem concluídos, comparamos o desempenho do modelo das três abordagens:

  • Modelo de linguagem monolíngue – O modelo pré-treinado ajustado no texto de resposta às perguntas em turco é chamado bert-base-turco-uncased [8]. Ele atinge uma pontuação F1 de 75.63 e uma pontuação de correspondência exata de 56.17 em apenas duas épocas e com 9,000 itens rotulados. No entanto, esta abordagem não é adequada para uma linguagem de poucos recursos quando não existe um modelo de linguagem pré-treinado ou quando há poucos dados disponíveis para treinamento do zero.
  • Modelo de linguagem multilíngue com BERT multilíngue – O modelo pré-treinado é chamado bert-base-multilíngue-uncased. O artigo multilíngue do BERT [4] mostrou que ele generaliza bem entre idiomas. Comparado com o modelo monolíngue, seu desempenho é pior (pontuação F1 71.73, correspondência exata 50:45), mas observe que este modelo lida com mais de 100 outros idiomas, deixando menos espaço para representar o idioma turco.
  • Modelo de idioma multilíngue com XLM-R – O modelo pré-treinado é chamado xlm-roberta-base-squad2. O artigo XLM-R mostra que é possível ter um único modelo grande para mais de 100 idiomas sem sacrificar o desempenho por idioma [7]. Para a tarefa de resposta a perguntas em turco, ele supera as pontuações multilíngues do BERT e do BERT monolíngue F1 em 5% e 2%, respectivamente (pontuação F1 77.14, correspondência exata 56.39).

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nossa comparação não leva em consideração outras diferenças entre modelos, como capacidade do modelo, conjuntos de dados de treinamento usados, tarefas de PNL pré-treinadas, tamanho do vocabulário ou tokenização.

Experimentos adicionais

O caderno fornecido contém exemplos de experiências adicionais.

O SageMaker oferece uma ampla variedade de tipos de instâncias de treinamento. Ajustamos o modelo XLM-R em p3.2xlarge (GPU: GPU Nvidia V100, arquitetura de GPU: Volta (2017)), p3.16xlarge (GPU: 8 GPUs Nvidia V100) e g4dn.xlarge (GPU: Nvidia T4 GPU, arquitetura GPU: Turing (2018)), e observou o seguinte:

  • Duração do treinamento – De acordo com nosso experimento, o modelo XLM-R levou aproximadamente 24 minutos para treinar em p3.2xlarge e 30 minutos em g4dn.xlarge (cerca de 23% mais). Também realizamos ajuste fino distribuído em duas instâncias p3.16xlarge e o tempo de treinamento diminuiu para 10 minutos. Para obter mais informações sobre o treinamento distribuído de um modelo baseado em transformador no SageMaker, consulte Ajuste fino distribuído de um modelo BERT Large para uma tarefa de resposta a perguntas usando Hugging Face Transformers no Amazon SageMaker.
  • Custos de treinamento – Usamos a API de preços da AWS para buscar preços sob demanda do SageMaker e calculá-los instantaneamente. De acordo com nosso experimento, o treinamento custou aproximadamente US$ 1.58 no p3.2xlarge e cerca de quatro vezes menos no g4dn.xlarge (US$ 0.37). O treinamento distribuído em duas instâncias p3.16xlarge usando 16 GPUs custa US$ 9.68.

Para resumir, embora g4dn.xlarge fosse a máquina mais barata, ela também demorou cerca de três vezes mais para treinar do que o tipo de instância mais poderoso que testamos (duas p3.16xlarge). Dependendo das prioridades do seu projeto, você pode escolher entre uma ampla variedade de tipos de instâncias de treinamento do SageMaker.

Conclusão

Nesta postagem, exploramos o ajuste fino de modelos de linguagem baseados em transformadores pré-treinados para uma tarefa de resposta a perguntas para um idioma de recursos intermediários (neste caso, turco). Você pode aplicar essa abordagem a mais de 100 outras linguagens usando um único modelo. No momento em que escrevo, ampliar um modelo para cobrir todos os 7,000 idiomas do mundo ainda é proibitivo, mas o campo da PNL oferece uma oportunidade para ampliar nossos horizontes.

A linguagem é o principal método de comunicação humana e um meio de comunicar valores e partilhar a beleza de um património cultural. A diversidade linguística fortalece o diálogo intercultural e constrói sociedades inclusivas.

ML é um processo altamente iterativo; ao longo de um único projeto, os cientistas de dados treinam centenas de modelos, conjuntos de dados e parâmetros diferentes em busca da máxima precisão. SageMaker oferece o conjunto mais completo de ferramentas para aproveitar o poder do ML e do aprendizado profundo. Ele permite organizar, rastrear, comparar e avaliar experimentos de ML em grande escala.

Hugging Face está integrado ao SageMaker para ajudar os cientistas de dados a desenvolver, treinar e ajustar modelos de PNL de última geração com mais rapidez e facilidade. Demonstramos vários benefícios do uso dos transformadores Hugging Face no Amazon SageMaker, como treinamento e experimentação em escala, além de aumento de produtividade e economia.

Você pode experimentar tarefas de PNL em seu idioma preferido no SageMaker em todas as regiões da AWS onde o SageMaker está disponível. O código do notebook de exemplo está disponível em GitHub.

Para saber como o Amazon SageMaker Training Compiler pode acelerar o treinamento de modelos de aprendizagem profunda em até 50%, consulte Novo – Apresentando o compilador de treinamento SageMaker.

Os autores gostariam de expressar seu mais profundo agradecimento a Mariano Kamp e Emily Webber pela revisão dos rascunhos e por fornecerem conselhos.

Referências

  1. J. Devlin et al., “BERT: Pré-treinamento de transformadores bidirecionais profundos para compreensão da linguagem”, (2018).
  2. A. Vaswani et al., “Atenção é tudo que você precisa”, (2017).
  3. J. Howard e S. Ruder, “Ajuste fino do modelo de linguagem universal para classificação de texto”, (2018).
  4. T. Pires et al., “Quão multilíngue é o BERT Multilíngue?”, (2019).
  5. Y. Liu et al., “RoBERTa: Uma abordagem de pré-treinamento BERT robustamente otimizada”, (2019).
  6. G. Lample e A. Conneau, “Pré-treinamento do modelo de linguagem multilíngue”, (2019).
  7. A. Conneau et al., “Aprendizagem de representação interlingual não supervisionada em escala”, (2019).
  8. Stefan Schweter. BERTurk – modelos BERT para turco (2020).
  9. Estatísticas wiki multilíngues https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Sobre os autores

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Arnav Kharé é arquiteto de soluções principal para serviços financeiros globais na AWS. Seu foco principal é ajudar instituições de serviços financeiros a criar e projetar aplicativos de análise e aprendizado de máquina na nuvem. Arnav possui mestrado em Inteligência Artificial pela Universidade de Edimburgo e tem 18 anos de experiência no setor, desde pequenas startups que fundou até grandes empresas como Nokia e Bank of America. Fora do trabalho, Arnav adora passar o tempo com as duas filhas, encontrar novos cafés independentes, ler e viajar. Você pode me encontrar em LinkedIn e em Surrey, Reino Unido, na vida real.

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Hasan-Basri AKIRMAK (BSc e MSc em Engenharia da Computação e MBA Executivo na Graduate School of Business) é Arquiteto de Soluções Sênior na Amazon Web Services. Ele é um tecnólogo de negócios que assessora clientes do segmento empresarial. Sua área de especialidade é projetar arquiteturas e casos de negócios em sistemas de processamento de dados em larga escala e soluções de Machine Learning. Hasan forneceu desenvolvimento de negócios, integração de sistemas e gerenciamento de programas para clientes na Europa, Oriente Médio e África. Desde 2016 ele orientou centenas de empreendedores em programas de incubação de startups pro-bono.

Ajuste modelos de linguagem de transformador para diversidade linguística com Hugging Face no Amazon SageMaker PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Heiko Hotz é arquiteto de soluções sênior para IA e aprendizado de máquina e lidera a comunidade de processamento de linguagem natural (NLP) na AWS. Antes dessa função, ele foi o chefe de ciência de dados para o atendimento ao cliente da UE da Amazon. A Heiko ajuda nossos clientes a serem bem-sucedidos em sua jornada de IA/ML na AWS e trabalhou com organizações de vários setores, incluindo seguros, serviços financeiros, mídia e entretenimento, saúde, serviços públicos e manufatura. Em seu tempo livre, Heiko viaja o máximo possível.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS