Trasformatore (informatica)

Architettura di un trasformatore

In informatica e più precisamente nell'apprendimento automatico, un trasformatore (in inglese transformer) è un modello di apprendimento profondo che adotta il meccanismo della auto-attenzione, pesando differentemente la significatività di ogni parte dei dati in ingresso. È usato primariamente nelle branche dell'elaborazione del linguaggio naturale[1] e della visione artificiale.[2]

Come le reti neurali ricorrenti (RNN), i trasformatori sono progettati per processare dati sequenziali, come il linguaggio naturale, con l'applicazione alla traduzione e la sintetizzazione di testi. Tuttavia, a differenza delle RNN, i trasformatori elaborano l'intero insieme di dati d'ingresso contemporaneamente. Il cosiddetto meccanismo dell'attenzione fornisce il contesto per ogni posizione nella sequenza di ingresso. Per esempio, se i dati rappresentano una frase, il trasformatore non deve elaborare una parola alla volta: questo permette più parallelizzazione rispetto alle RNN e perciò di ridurre i tempi dell'addestramento.[1]

I trasformatori sono stati presentati nel 2017 da un gruppo di Google Brain[1] e sono sempre più il modello preferito per affrontare problemi di elaborazione del linguaggio naturale,[3] sostituendo i modelli a RNN come la memoria a lungo breve termine (LSTM, da long short-term memory). L'aggiuntiva parallelizzazione durante l'addestramento del modello permette l'utilizzo di insiemi di dati più grandi. Questo portò allo sviluppo di sistemi preaddestrati come BERT (Bidirectional Encoder Representations from Transformers) e GPT (Generative Pre-trained Transformer), allenati con grandi insiemi di dati di linguaggi, come il corpo letterario di Wikipedia e Common Crawl, e può essere regolato per essere ottimizzato a svolgere compiti specifici.[4][5]

Note[modifica | modifica wikitesto]

  1. ^ a b c Ashish Vaswani et al., Attention Is All You Need, 12 giugno 2017, arXiv:1706.03762.
  2. ^ Cheng He, Transformer in CV, su towardsdatascience.com, Towards Data Science, 31 dicembre 2021.
  3. ^ Thomas Wolf et al., Transformers: State-of-the-Art Natural Language Processing, in Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020, pp. 38–45, DOI:10.18653/v1/2020.emnlp-demos.6.
  4. ^ Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, su ai.googleblog.com. URL consultato il 25 agosto 2019.
  5. ^ Better Language Models and Their Implications, su openai.com, 14 febbraio 2019. URL consultato il 25 agosto 2019.
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica