Snowflake collabora con Meta per l’hosting e l’ottimizzazione della nuova famiglia di modelli su Snowflake Cortex AI
Pronto un nuovo stack applicativo opesource per facilitare inferenza e fine tuning, capace di lavorare con modelli LLM che contengono anche molte centinaia di miliardi di parametri
Snowflake, l’AI data cloud company, ha annunciato che metterà a disposizione in Snowflake Cortex AI la libreria di Large Language Models multilingue open source, Llama 3.1, per permettere alle aziende di utilizzare e sviluppare facilmente efficaci applicazioni in ambiente Enterprise. L’offerta include il più grande e performante LLM open source di Meta, Llama 3.1 405B. In questo progetto, Snowflake si è occupata di sviluppare e rendere open source il sistema di inferenza in modo da poterlo utilizzare in tempo reale ed inoltre democratizzare ulteriormente le potenti applicazioni di linguaggio generativo. Il team di ricerca AI di Snowflake, leader nel settore ha ottimizzato Llama 3.1 405B sia per l’inferenza sia per il fine-tuning e ha supportato un’enorme “contex window” di 128K fin dal primo giorno per consentire l’inferenza in tempo reale con una latenza end-to-end fino a tre volte inferiore e un throughput 1,4 volte superiore rispetto alle soluzioni open source esistenti. Inoltre, la soluzione consente di eseguire il fine-tuning del modello utilizzando un singolo nodo GPU direttamente all’interno di Cortex AI, così da poter eliminare costi e sprechi a sviluppatori e clienti. Grazie alla collaborazione con Meta, Snowflake offre alle aziende clienti un modo semplice, efficiente e affidabile per accedere, ottimizzare e distribuire senza problemi i modelli più recenti di Meta nell’AI Data Cloud, con un approccio globale di protezione e sicurezza integrato sin dalle basi. “Il team di ricerca AI, di livello mondiale, di Snowflake sta tracciando una strada per le imprese e la comunità open source affinché possano sfruttare i modelli aperti più avanzati, come Llama 3.1 405B, per l’inferenza e il fine-tuning al fine di massimizzare l’efficienza - dichiara Vivek Raghunathan, VP of AI Engineering di Snowflake -. Non ci limitiamo a fornire direttamente ai nostri clienti la tecnologia più avanzata di Meta attraverso Snowflake Cortex AI, ma aiutiamo le aziende e la comunità AI attraverso una nuova ricerca e un codice open source che supporta Context windowda 128K, inferenza multi-nodo, una pipeline parallela, floating point quantization a 8 bit e molto altro ancora per far progredire l’AI in un ecosistema sempre più vasto”.
Velocità ed efficienza
Il team di ricerca AI di Snowflake continua a spingersi oltre i confini dell’innovazione open source attraverso i suoi regolari contributi alla comunità AI e alla trasparenza su come sta sviluppando le tecnologie LLM all’avanguardia. In concomitanza con il lancio di Llama 3.1 405B, il team preposto sta ora rendendo open source il suo Massive LLM Inference and Fine-Tuning System Optimization Stack in collaborazione con DeepSpeed, Hugging Face, vLLM e la più ampia comunità AI. Un risultato che stabilisce un nuovo standard per i sistemi di inferenza e ottimizzazione open source per modelli con centinaia di miliardi di parametri. L’elevata dimensione del modello e i requisiti di memoria rappresentano una sfida significativa per gli utenti che desiderano ottenere un’inferenza a bassa latenza per le applicazioni in tempo reale, un throughput elevato e il supporto per utilizzi di lunga durata dell’intelligenza artificiale generativa di livello enterprise comportano molti sforzi anche dal punto di vista economico. I requisiti di memoria per la conservazione del modello e degli stati di attivazione rendono inoltre estremamente onerosa l’ottimizzazione, mentre i cluster di GPU di grandi dimensioni necessari per l’adattamento degli stati del modello per l’addestramento sono spesso inaccessibili ai data scientist. Lo stack di ottimizzazione del sistema Massive LLM Inference and Fine-Tuning di Snowflake affronta tutte le sfide. Attraverso tecniche avanzate di elaborazione in parallelo e ottimizzazione della memoria, Snowflake consente una progettazione veloce ed efficiente dell’AI, senza bisogno di infrastrutture complesse e costose. Nel caso di Llama 3.1 405B, lo stack di sistema di Snowflake offre prestazioni in tempo reale e ad alto rendimento su un solo nodo GPU e supporta un’enorme context window da 128k in configurazioni multi-nodo. Questa flessibilità si estende sia all’hardware di nuova generazione sia a quello preesistente, rendendo Snowflake accessibile a una più ampia gamma di aziende. Inoltre, i data scientist possono fare tuning di Llama 3.1 405B utilizzando tecniche di mixed precision su un numero inferiore di GPU, eliminando la necessità di disporre di cluster di GPU di grandi dimensioni. Di conseguenza, le organizzazioni possono adattare e distribuire potenti applicazioni di AI generativa di livello enterprise in modo semplice, efficiente e sicuro. Il team di AI di Snowflake ha inoltre sviluppato un’infrastruttura ottimizzata per il fine-tuning che comprende la differenziazione dei modelli, controlli di sicurezza, retrieval augmented generation e la generazione di dati sintetici, in modo che le aziende possano facilmente iniziare a utilizzare questi casi d’uso all’interno di Cortex AI.
Un’IA affidabile e responsabile
La sicurezza dell’AI è di estrema importanza per Snowflake e i suoi clienti. Di conseguenza, Snowflake sta rendendo disponibile Snowflake Cortex Guard per proteggere qualsiasi applicazione o risorsa LLM costruita in Cortex AI da contenuti dannosi, sia utilizzando gli ultimi modelli di Meta, sia gli LLM disponibili presso altri fornitori leader, tra cui AI21 Labs, Google, Mistral AI, Reka e la stessa Snowflake. Cortex Guard si avvale di Llama Guard 2 di Meta e offre così un’AI affidabile per le aziende, in modo che possano assicurarsi che i modelli che stanno utilizzando siano sicuri.