Nova 2 e Nova Forge: Amazon porta il custom pretraining ai team (non solo ai lab)

Nova 2 e Nova Forge: Amazon porta il custom pretraining ai team (non solo ai lab)

Al re:Invent Amazon ha fatto una mossa che, nel medio periodo, potrebbe pesare più di benchmark e demo: insieme alla seconda generazione dei modelli Nova (Lite e Pro), arriva Nova Forge, uno strumento per costruire modelli frontier specializzati partendo da versioni “non finite” di Nova 2 Lite/Pro, con la possibilità di iniettare dati proprietari in più fasi del training, fino al custom pretraining. In pratica, qualcosa che finora era appannaggio di pochi grandi lab.


Perché questo è diverso dal solito fine-tuning

Il fine-tuning classico lavora a valle: aggiusta il comportamento, non la rappresentazione interna. Nova Forge, invece, permette di spostare la leva più in profondità. Questo apre casi d’uso dove i modelli a scaffale rifiutano l’analisi o non hanno abbastanza “granularità” sul dominio.

L’esempio citato è Reddit: serviva un modello capace di analizzare contenuti che i sistemi generici tendono a rifiutare per policy, per identificare violazioni del regolamento. La combinazione custom pretraining + fine-tuning ha prodotto un “esperto di Reddit”, più adatto a compiti di moderazione automatizzata. Questo è esattamente il tipo di scenario in cui il tuning superficiale non basta.

Il contesto competitivo: specializzazione batte generalismo (quando conviene)

Molte aziende oggi oscillano tra modelli chiusi via API e modelli open. I secondi sono comodi per sperimentare e modificare, ma spesso il training set non è pubblico, rendendo opache certe dinamiche di adattamento. Nova Forge propone un terzo percorso: specializzazione profonda, però bloccata nel cloud di Amazon. Il lock-in è reale, ma in cambio si riduce drasticamente il divario tra “modello generico” e “modello di dominio”.

Cosa c’è nella famiglia Nova 2 (e cosa promette)

  • Nova 2 Pro: Amazon sostiene che uguagli o superi modelli di punta come GPT-5/5.1, Gemini Pro 2.5/3.0 Pro e Sonnet 4.5 su vari benchmark, con focus su compiti agentici e tool use.
  • Nova 2 Lite: posizionato contro modelli più compatti (es. Claude 4.5 Haiku, GPT-5 Mini, Gemini Flash 2.5).
  • Nova Sonic: modello voce in tempo reale.
  • Nova Omni: multimodale completo (immagini, audio, video, testo) con capacità di ragionamento simulato.

Disponibilità iniziale per un numero limitato di clienti. Sul fronte generazione media: Nova Reel (video brevi da immagine o testo, oggi ~6s, fino a 2 minuti in arrivo) e Canvas (immagini da prompt), con watermarking integrato.


Trade-off tecnici e organizzativi

  • Costo vs controllo: costruire un LLM da zero costa decine o centinaia di milioni. Nova Forge promette “molto meno” (parole di Amazon), ma restiamo nel perimetro cloud del fornitore.
  • Qualità dei dati: con il custom pretraining ci si assume la responsabilità piena delle proprietà del dataset (licenze, bias, sicurezza). È un salto di maturità MLOps.
  • Valutazioni: servono suite di benchmark di dominio e stress test su tool use, safety e robustezza multimodale. Qui “agentic tasks” vanno misurati davvero, non solo dichiarati.
  • Infrastruttura: Amazon investe massicciamente in AI, anche sul fronte hardware (si è posizionata contro la dipendenza dal solo GPU vendor, e i modelli di Anthropic sono addestrati su chip Trainium). L’effetto a valle è latenza/costo migliori promessi sui Nova 2.

Schema operativo: come porterei Nova Forge in azienda

Se dovessi farlo domani, eviterei il “big bang”. Partirei con un perimetro chiaro e cicli corti di validazione:

  1. Definire il caso d’uso: es. triage ticket, moderazione contenuti, assistenza agentica su backoffice.
  2. Curare i dati: corpus rappresentativo, versionato, con tracciabilità licenze. Inclusi esempi “difficili” che i modelli standard rifiutano o trattano male.
  3. Stabilire le metriche: accuracy di dominio, tassi di rifiuto, latenza end-to-end, costo per 1k task, regressioni safety.
  4. Prototipo: una passata di custom pretraining contenuta, poi fine-tuning mirato su task reali.
  5. Valutazioni e red teaming: prima offline, poi in ombra su traffico reale, con guardrail e kill switch.
# Pseudocode: scheletro di una pipeline di valutazione

eval_suites = {
  "moderazione": {
    "datasets": ["interno/mod-violazioni.jsonl", "sintetico/edge-cases.jsonl"],
    "metrics": ["precision", "recall", "false_refusal_rate"]
  },
  "agentic_tool_use": {
    "tasks": [
      {"goal": "compila report", "tools": ["http", "spreadsheet"], "steps": ">=5"},
      {"goal": "estrai campi contrattuali", "tools": ["pdf_parse"], "constraints": "latency<1.5s"}
    ],
    "metrics": ["success_rate", "tool_call_accuracy", "latency_p95"]
  }
}

model = load_model("nova2_pro_custom_pretrain+finetune")
for suite in eval_suites:
    run_eval(model, suite)
    compare_with_baselines(["generic_llm", "nova2_pro_offtheshelf"])
    report()

Dove ha senso usare cosa

Nova 2 Pro lo vedo per workflow agentici (tool use, istruzioni complesse). Lite quando serve latenza/costo e il contesto è stretto. Sonic per interazioni voce realtime (P95 basso o non si scala). Omni può dare una spinta su debugging di processi industriali con log multimodali (immagini, audio, testo), ma teniamolo sotto osservazione: le promesse di “ragionamento simulato” vanno misurate sul campo.

Il punto non è vincere un benchmark, ma incorporare conoscenza tacita di dominio nel modello. Se il tuo business vive su particolarità e dati interni, il custom pretraining è la leva giusta.

Rischi da non sottovalutare

  • Lock-in: Nova Forge è legato al cloud di Amazon. Valutate piani di uscita e compatibilità meccaniche (formati dataset, tracciabilità prompt/log).
  • Compliance: watermarking e policy aiutano, ma la responsabilità del dataset rimane vostra. Coinvolgete legale e privacy fin dall’inizio.
  • Illusione del “magico”: il pretraining custom non sostituisce data engineering, osservabilità e SLO.

Guardando al prossimo anno, la partita si gioca qui: portare la specializzazione profonda alla portata dei team, senza dover costruire da zero né accontentarsi dei limiti del fine-tuning. Con Nova 2 e soprattutto con Nova Forge, Amazon scommette che molte aziende preferiranno un modello “di casa”, addestrato sulle proprie rughe. Se avete casi d’uso chiari e dati all’altezza, è una scommessa che vale la prova controllata.

Ti sei iscritto con successo a Innovazione e Tecnologia: Tra AI e Programmazione
Grande! Successivamente, completa il checkout per l'accesso completo a Innovazione e Tecnologia: Tra AI e Programmazione
Ben tornato! Hai effettuato l'accesso con successo.
Successo! Il tuo account è completamente attivato, ora hai accesso a tutti i contenuti.
Successo! Le tue informazioni di fatturazione vengono aggiornate.
Aggiornamento delle informazioni di fatturazione non riuscito.