Uno studio sulla visione artificiale per il riconoscimento delle emozioni facciali
CasaCasa > Blog > Uno studio sulla visione artificiale per il riconoscimento delle emozioni facciali

Uno studio sulla visione artificiale per il riconoscimento delle emozioni facciali

May 22, 2023

Rapporti scientifici volume 13, numero articolo: 8425 (2023) Citare questo articolo

613 accessi

2 Altmetrico

Dettagli sulle metriche

L’intelligenza artificiale è stata applicata con successo in vari campi, uno dei quali è la visione artificiale. In questo studio è stata adottata una rete neurale profonda (DNN) per il riconoscimento delle emozioni facciali (FER). Uno degli obiettivi di questo studio è identificare le caratteristiche facciali critiche su cui si concentra il modello DNN per FER. In particolare, abbiamo utilizzato una rete neurale convoluzionale (CNN), la combinazione della rete di compressione ed eccitazione e della rete neurale residua, per il compito di FER. Abbiamo utilizzato AffectNet e il Real-World Affective Faces Database (RAF-DB) come database delle espressioni facciali che forniscono campioni di apprendimento per la CNN. Le mappe delle caratteristiche sono state estratte dai blocchi residui per ulteriori analisi. La nostra analisi mostra che le caratteristiche attorno al naso e alla bocca sono punti di riferimento facciali critici per le reti neurali. Sono state condotte convalide incrociate tra i database. Il modello di rete addestrato su AffectNet ha raggiunto un'accuratezza del 77,37% quando convalidato su RAF-DB, mentre il modello di rete preaddestrato su AffectNet e quindi trasferito appreso su RAF-DB determina un'accuratezza di convalida dell'83,37%. I risultati di questo studio migliorerebbero la comprensione delle reti neurali e contribuirebbero a migliorare la precisione della visione artificiale.

Nelle comunicazioni umane, le espressioni facciali contengono informazioni non verbali critiche che possono fornire ulteriori indizi e significati alle comunicazioni verbali1. Alcuni studi hanno suggerito che il 60-80% della comunicazione è non verbale2. Queste informazioni non verbali includono le espressioni facciali, il contatto visivo, i toni della voce, i gesti delle mani e il distanziamento fisico. In particolare, l'analisi delle espressioni facciali è diventata un argomento di ricerca popolare3. Il riconoscimento emotivo facciale (FER) è stato applicato nel campo dell'interazione uomo-computer (HCI) in aree quali il pilota automatico, l'istruzione, le cure mediche, il trattamento psicologico4, la sorveglianza e l'analisi psicologica nella visione artificiale5,6.

In psicologia e nella visione artificiale, le emozioni sono classificate come modelli categorici o dimensionali (valenza ed eccitazione)7,8,9. Nel modello categorico, Ekman et al.7 hanno definito le emozioni umane fondamentali come felicità, rabbia, disgusto, paura, tristezza e sorpresa. Nel modello dimensionale, l'emozione viene valutata mediante scale numeriche continue per la determinazione della valenza e dell'arousal. FER è un compito importante nella visione artificiale che ha numerose applicazioni pratiche e il numero di studi su FER è aumentato negli ultimi anni10,11,12,13, beneficiando dei progressi forniti dalle reti neurali profonde. In particolare, le reti neurali convoluzionali (CNN) hanno ottenuto ottimi risultati in termini di estrazione di caratteristiche. Ad esempio, He et al.14 hanno proposto l'architettura della rete neurale residua (ResNet) nel 2015, che ha aggiunto l'apprendimento residuo a una CNN per risolvere i problemi del gradiente evanescente e della diminuzione della precisione delle reti profonde.

Diversi autori hanno applicato modelli di reti neurali per classificare le emozioni secondo modelli categorici15,16,17,18,19,20,21,22,23 e modelli dimensionali15,23,24,25,26. Huang27 ha applicato un'architettura a blocchi residui a una CNN VGG per eseguire il riconoscimento delle emozioni e ottenere una maggiore precisione. Mao et al.28 hanno proposto un nuovo modello FER chiamato POSTER V2, che mira a migliorare le prestazioni della tecnica all'avanguardia e ridurre il costo computazionale richiesto introducendo un meccanismo di attenzione incrociata basato su finestre e punti di riferimento facciali multi- caratteristiche di scala. Per incorporare più informazioni nel processo di riconoscimento automatico delle emozioni, alcuni studi recenti hanno fuso diverse modalità, come le modalità temporale, audio e visiva10,17,18,23,25, nell'algoritmo. Inoltre, meccanismi di attenzione sono stati adottati da diversi studi17,18,19,20,22,25 per compiti FER. Zhang et al.19 hanno applicato la mappatura di attivazione della classe per analizzare le mappe di attenzione apprese dal loro modello. Si è scoperto che il modello poteva essere regolarizzato capovolgendo la sua mappa di attenzione e cancellando casualmente parte delle immagini di input. Wang et al.22 hanno introdotto un ramo dell'attenzione per apprendere una maschera facciale che evidenzia le parti discriminanti per FER. Questi studi mostrano che i meccanismi di attenzione svolgono un ruolo critico nel FER. Diversi approcci per FER utilizzano meccanismi di auto-attenzione per catturare contesti sia locali che globali attraverso una serie di livelli convoluzionali per l'estrazione di caratteristiche29,30,31. Le caratteristiche estratte vengono quindi utilizzate come input di un modulo di attenzione relazionale, che utilizza l'autoattenzione per catturare le relazioni tra le diverse patch e il contesto.