Sensori di visione nelle applicazioni industriali

Migliorare le capacità dei sensori di visione: un algoritmo di aggregazione di immagini 3D per un ampliato campo visivo da Analog Devices

La crescente popolarità delle telecamere time of flight (TOF) nelle applicazioni industriali, in particolare nella robotica, è attribuita alle loro eccezionali capacità di calcolo della profondità e di elaborazione delle immagini a infrarossi (IR). Nonostante questi vantaggi, la complessità intrinseca del sistema ottico spesso limita il campo visivo, limitando le funzionalità autonome. In questo articolo viene illustrato un algoritmo di aggregazione di immagini 3D progettato per un processore host di supporto, che elimina la necessità di calcolo in cloud. Questo algoritmo combina in tempo reale e senza soluzione di continuità i dati IR e di profondità di più telecamere TOF, producendo un’immagine 3D continua e di alta qualità, con un campo visivo più ampio rispetto alle unità standalone. I dati 3D aggregati consentono l’applicazione di reti di deep learning allo stato dell’arte, particolarmente utili nelle applicazioni di robotica mobile, per rivoluzionare la visualizzazione e l’interazione con l’ambiente 3D.

Introduzione

Le telecamere time of flight (TOF) si distinguono come eccezionali sistemi di elaborazione di immagini del campo visivo, utilizzando le tecniche TOF per determinare la distanza tra una telecamera e ciascun punto di un’immagine. Ciò si ottiene misurando il tempo di andata e ritorno di un segnale di luce artificiale emesso da un laser o da un LED. Le telecamere TOF offrono informazioni precise sulla profondità, rendendole strumenti preziosi per le applicazioni in cui la misurazione accurata della distanza e la visualizzazione 3D sono fondamentali, come le applicazioni di robotica e tecnologia industriale, tra cui il rilevamento di collisione e il rilevamento di persone su un campo visivo (Field of View, FOV) di 270° per la sicurezza.

Il sensore TOF ADTF3175 può raggiungere un FOV calibrato di 75°. Tuttavia, le sfide sorgono quando il FOV di un’applicazione va oltre questa regione, richiedendo più sensori. L’integrazione dei dati provenienti dai singoli sensori per fornire un’analisi completa dell’intera vista può presentare delle difficoltà. Una soluzione potenziale prevede che i sensori eseguano un algoritmo su un FOV parziale e trasmettano l’output a un host per il confronto. Tuttavia, questo approccio deve affrontare problemi quali le zone di sovrapposizione, le zone morte e le latenze di comunicazione, che lo rendono un problema complesso da affrontare in modo efficace.

Un approccio alternativo prevede l’aggregazione dei dati acquisiti da tutti i sensori in un’unica immagine e la successiva applicazione di algoritmi di rilevamento all’immagine unita. Questo processo può essere scaricato su un processore host separato, sollevando le unità sensore dal carico computazionale e lasciando spazio ad analisi avanzate e altre opzioni di elaborazione. Tuttavia, è importante notare che gli algoritmi tradizionali di aggregazione delle immagini sono intrinsecamente complessi e possono consumare una parte significativa della potenza di calcolo del processore host. Inoltre, l’invio e l’aggregazione nel cloud non è possibile in molte applicazioni per motivi di privacy.

La soluzione algoritmica di Analog Devices è in grado di aggregare le immagini di profondità e IR provenienti dai diversi sensori, utilizzando le proiezioni delle nuvole di punti dei dati di profondità. Ciò comporta la trasformazione dei dati acquisiti utilizzando le posizioni estrinseche della telecamera e proiettandoli nuovamente nello spazio 2D, ottenendo un’unica immagine continua.

Questo approccio comporta una computazione minima, che aiuta a raggiungere velocità operative in tempo reale all’edge di rete e garantisce che la capacità di calcolo del processore host rimanga disponibile per altre analisi avanzate.

Descrizione di una Soluzione

La soluzione TOF 3D di ADI opera in quattro fasi (vedi Figura◦1):

  1. Preelaborazione dei dati IR e di profondità:
  2. Proiezione dei dati di profondità in una nuvola di punti 3D: Utilizzare i parametri intrinseci della telecamera per proiettare i dati di profondità in una nuvola di punti 3D.
  3. Trasformare e unire i punti: Trasformare i punti utilizzando le posizioni estrinseche della telecamera e unire le regioni sovrapposte.
  4. Proiezione della nuvola di punti in un’immagine 2D: Utilizzare la proiezione cilindrica per proiettare la nuvola di punti in un’immagine 2D.
algoritmo di aggregazione in profondità

Sfide e soluzioni di sistema e algoritmo

L’ host riceve fotogrammi di profondità e IR

Una macchina host è collegata a più sensori TOF tramite una connessione ad alta velocità come l’USB. Raccoglie i fotogrammi di profondità e IR e li memorizza in una coda.

Sincronizzare i dati di profondità e IR

I fotogrammi di profondità e IR di ciascun sensore ricevuti dall’host vengono acquisiti in momenti diversi. Per evitare disallineamenti temporali dovuti al movimento degli oggetti, gli ingressi di tutti i sensori devono essere sincronizzati alla stessa istanza temporale. Si utilizza un modulo di sincronizzazione temporale che abbina i fotogrammi in arrivo in base ai timestamp della coda.

Dal progetto alla nuvola di punti

La nuvola di punti viene generata sull’host utilizzando i dati di profondità sincronizzati per ciascun sensore. Ogni nuvola di punti viene quindi trasformata (tradotta e ruotata) in base alle rispettive posizioni della telecamera (vedi Figura 2) nel mondo reale. Quindi queste nuvole di punti trasformate vengono unite per formare un’unica nuvola di punti continua che copre il FOV combinato dei sensori (Figura 3).

Estrinsecazione telecamera
Nuvola di punti unita

Proiezione da 3D a 2D

La nuvola di punti combinata del FOV viene proiettata su una superficie 2D utilizzando un algoritmo di proiezione cilindrica, noto anche come proiezione della vista frontale (vedi Figura 4). In altre parole, l’algoritmo proietta ogni punto della nuvola di punti combinata su un pixel del piano 2D, ottenendo un’unica immagine panoramica continua che copre il campo visivo combinato di tutti i sensori. Si ottengono così due immagini 2D aggregate: una per le immagini IR aggregate e un’altra per le immagini di profondità aggregate proiettate su piani 2D.

Miglioramento della qualità di proiezione

La proiezione della nuvola di punti combinata 3D su un’immagine 2D non fornisce ancora immagini di buona qualità, poiché presentano distorsioni e rumore. Ciò incide sulla qualità visiva e influisce negativamente su qualsiasi algoritmo venga eseguito sulla proiezione. I tre problemi principali (vedi Figura 5) e le relative soluzioni sono documentati nelle sezioni seguenti.

Proiezione di regioni di profondità non valide

I dati di profondità dell’ADTF3175 hanno un valore di profondità non valido di 0 mm per i punti che si trovano oltre il campo operativo del sensore (8000 mm). Ciò comporta la presenza di ampie regioni vuote nell’immagine di profondità e la formazione di nuvole di punti incomplete. A tutti i punti non validi dell’immagine di profondità è stato assegnato un valore di profondità di 8000 mm (la profondità massima supportata dalla telecamera), con il quale è stata generata una nuvola di punti. In questo modo è stato possibile garantire l’assenza di spazi vuoti nella nuvola di punti.

Riempimento dei pixel non mappati

Quando si proietta la nuvola di punti 3D su un piano 2D, nell’immagine 2D ci sono regioni non mappate/non riempite. Molti pixel della nuvola di punti (3D) vengono mappati sullo stesso pixel 2D e quindi diversi pixel 2D rimangono vuoti. Ciò comporta l’effetto di stiramento mostrato nella Figura 6. Per risolvere questo problema, è stato utilizzato un filtro 3 × 3 che riempie i pixel non mappati con il valore medio di IR/profondità degli 8 pixel vicini che hanno valori validi. In questo modo si è ottenuta una formazione più completa dell’immagine in uscita e gli artefatti sono stati rimossi (vedi Figura 6).

Rumore generato da punti sovrapposti

A causa dell’algoritmo di proiezione cilindrica, molti punti della regione di sovrapposizione finiscono per ottenere le stesse coordinate di appoggio sull’uscita 2D proiettata. Questo crea rumore quando i pixel di sfondo si sovrappongono a quelli in primo piano. Per risolvere questo problema, la distanza radiale di ogni punto viene confrontata con il punto esistente, e il punto viene sostituito solo se la distanza dall’origine della telecamera è inferiore al punto esistente. In questo modo si possono mantenere solo i punti in primo piano e migliorare la qualità della proiezione (vedi Figura 7).

Conclusione

Questo algoritmo è in grado di aggregare immagini provenienti da telecamere diverse con meno di 5° di sovrapposizione, rispetto ai 20° di sovrapposizione richiesti dai tradizionali algoritmi basati sulla corrispondenza dei punti chiave. Questo approccio richiede pochissimi calcoli, il che lo rende un candidato ideale per i sistemi all’edge di rete. L’integrità dei dati di profondità viene mantenuta anche dopo l’aggregazione, poiché non si verifica alcuna distorsione dell’immagine. Questa soluzione supporta ulteriormente l’implementazione modulare dei sensori ADTF3175 per ottenere il FOV desiderato con una perdita minima.
L’espansione del FOV non si limita alla dimensione orizzontale e la stessa tecnica può essere utilizzata per espandere la vista in verticale e ottenere una vera visione sferica. La soluzione funziona su una CPU Arm® V8 a 6 core a 10 fps per quattro sensori che forniscono un FOV di 275°. Il frame rate sale a 30 fps quando si utilizzano solo due sensori.
Uno dei vantaggi principali di questo approccio è l’enorme guadagno computazionale ottenuto: un guadagno di più di 3 volte nella computazione di base (vedi Tabella 1).
Le Figure 8 e 9 mostrano alcuni risultati ottenuti con questa soluzione.

Analog Devices ti aspetta a SPS Norimberga 2024 per trasformare il futuro del settore industriale presso il Padiglione 5, Stand 110. Maggiori informazioni sulla pagina ADI dedicata.

Tabella 1. Confronto tra complessità computazionali: algoritmi tradizionali su algoritmo proposto per input di 512 × 512 QMP

AlgoritmoOperazioni in Virgola Mobile medie  
Aggregazione immagini tradizionale857 milioni
Aggregazione di profondità PCL proposta260 milioni (Riduzione di 3,29 volte)

Riferimenti

Analog Devices 3DToF ADTF31xx.” GitHub, Inc.

Analog Devices 3DToF Floor Detector.” GitHub, Inc.

Analog Devices 3DToF Image Stitching.” GitHub, Inc.

Analog Devices 3DToF Safety Bubble Detector.” GitHub, Inc.

Analog Devices 3D ToF Software Suite.” GitHub, Inc.

He, Yingshen, Ge Li, Yiting Shao, Jing Wang, Yueru Chen, and Shan Liu. “A Point Cloud Compression Framework via Spherical Projection.” 2020 IEEE International Conference on Visual Communications and Image Processing, 2020.

Industrial Vision Technology. Analog Devices, Inc.

Topiwala, Anirudh. “Spherical Projection for Point Clouds.” Towards Data Science, Marzo 2020.

AUTORI:

Rajesh Mahapatra, Senior Manager, Analog Devices

Anil Sripadarao, Principal Engineer, Analog Devices

Swastik Mahapatra, Senior Engineer, Analog Devices

SICK e le telecamere intelligenti

A Vision 2024, SICK presenta un portfolio di opzioni varie e intelligenti.
Il focus principale è sulle telecamere ad alta velocità Ranger3 Color e Ruler3000 e sul sensore snapshot Visionary-T Mini – disponibili con SensorApp SICK Nova, compatibile con l’intelligenza artificiale

A Vision 2024, la fiera leader mondiale per l’elaborazione delle immagini, tenutasi a Stoccarda, SICK ha offerto una panoramica completa di tutta la sua gamma di sensori di visione 2D e 3D. Saranno inoltre esposti sistemi di telecamere intelligenti per il controllo qualità supportato e per la guida di robot.

Il focus principale è sulla nuova telecamera 3D ad alta velocità Ranger3 con funzione colore, le telecamere 3D della famiglia di prodotti Ruler3000 e varianti del sensore snapshot Visionary-T Mini 3D ToF – molti di questi prodotti sono disponibili anche come soluzioni configurabili pronte all’uso, grazie a SensorApp SICK Nova specifica per l’hardware e con funzionalità AI.
L ’elaborazione delle immagini 3D (in particolare ad alta velocità) e l’intelligenza artificiale (IA) stanno diventando strumenti indispensabili per una migliore automazione.

Entrambe le tecnologie aumentano la qualità dei processi e dei prodotti e migliorano le prestazioni e la produttività di macchine e robot.

In questo ambito è anche particolarmente importante che la configurazione ed il funzionamento dei sistemi di visione sia semplice, soprattutto per chi ha poca esperienza nell’elaborazione delle immagini.

“Per gli utenti, esperti e no, questo significa maggiore efficienza e flessibilità, riduzione dei tempi di inattività, risultati ottimali e minore consumo di risorse”, dichiara Sven Sattler, Team Leader Machine Vision Solutions Customer Project Engineering presso SICK Vertriebs-GmbH di Düsseldorf. “Vogliamo soddisfare proprio le esigenze dei clienti con il portfolio di soluzioni che presentiamo a VISION 2024.”

Ranger3: prestazioni eccezionali ad alta velocità in 3D e acquisizione contemporanea di immagini a colori
Ranger3 High-Speed Color è l’ultima variante della famiglia di camere 3D a triangolazione laser di SICK.
Sviluppata per ambienti di produzione con alti volumi, la telecamera streaming offre un’interfaccia di rete opzionale per la comunicazione a2,5 Gbit/s, acquisizione di profili 3D fino a 69 kHz, scansioni lineari 2D con risoluzione di 5120 pixel in colore RGB e in scala di grigi, e dati di misura 3D, intensità della luce riflessa e scatter, tutto da un unico dispositivo.

La qualità eccezionale delle immagini si ottiene grazie al sensore CMOS con tecnologia ROCC (Rapid On-Chip Calculation) di SICK, che si distingue per le sue prestazioni 3D superiori.

La telecamera determina la vera forma 3D di un oggetto, indipendentemente dal suo contrasto o colore, contribuendo così a garantire una qualità superiore di molti prodotti.

La nuova generazione di Ranger3 consente una velocità ancora maggiore e integra la nuova funzionalità di scansione lineare RGB ad alta risoluzione.

È disponibile un’interfaccia di comunicazione standardizzata conforme a Gigabit Ethernet Vision per la trasmissione dei dati.

Ruler3000: telecamera streaming 3D in un design industriale modulare per applicazioni
diversificate

SICK ha presenta a Vision 2024 anche le nuove camere 3D streaming compatte Ruler3002, 3004 e 3010, con campi di vista piccoli, ideali per applicazioni nei settori industriale ed elettronico.

Grazie alla loro elevata risoluzione in altezza nell’ordine dei micrometri, queste nuove varianti estendono le possibilità della famiglia di prodotti Ruler3000, consentendo di catturare anche i più piccoli dettagli, come richiesto nell’ispezione di componenti elettronici e di beni di consumo, schede a circuiti stampati e semiconduttori.

Grazie alla tecnologia ROCC (Rapid On-Chip Calculation), i sensori 3D possono catturare i dettagli degli oggetti anche ad alte velocità, il che consente di svolgere compiti di ispezione in modo efficiente, fornire valori di misurazione per il controllo dei processi e aumentare di conseguenza la produttività.

Altri punti di forza di queste camere 3D a triangolazione laser, calibrate in fabbrica, sono la conformità agli standard di elaborazione delle immagini GigE Vision e GenICam, che ne consentono l’integrazione facile e veloce nei sistemi e nelle macchine, e la semplicità di messa in funzione.
Visionary-T Mini: visione artificiale 3D economica in un formato compatto
Le telecamere snapshot compatte Visionary-T Mini di SICK stabiliscono nuovi standard per i sensori di visione 3D in termini di design, qualità dei dati e convenienza.

L’avanzata tecnologia di acquisizione delle immagini 3D basata sul tempo di volo (ToF) fornisce dati precisi di profondità e intensità per ogni pixel, anche in presenza di forti contrasti di luce e ombra e in un ampio campo di vista.

L’acquisizione snapshot può essere da fermo, ma in virtù dei tempi brevissimi di esposizione, la Visionary-T Mini fornisce dati estremamente precisi anche per oggetti in movimento.

Il software di configurazione chiaramente strutturato rende facile parametrizzare il dispositivo e adattare i dati in modo flessibile all’applicazione specifica.

La misurazione dei carichi per l’ottimizzazione dello spazio di stoccaggio, il monitoraggio della posizione per la guida di robot, scenari collaborativi uomo-macchina in fabbriche intelligenti o l’assistenza alla guida per evitare collisioni sono solo alcuni esempi delle applicazioni industriali che possono essere risolte con la Visionary-T Mini.

Nessuna conoscenza specialistica richiesta: elaborazione delle immagini basata sull’IA con SICK Nova.

Elaborazione delle immagini con strumenti basati su regole, combinati se necessario con deep learning e intelligenza artificiale (IA), che non richiedono conoscenze specialistiche da parte dell’utente: con questa combinazione, SICK Nova apre a nuove possibilità nella visione artificiale.

Come base software con un’interfaccia utente intuitiva per configurare soluzioni personalizzate di visione 2D e 3D, SICK Nova consente di implementare in modo semplice e facile applicazioni complesse per il monitoraggio della presenza, il controllo qualità e l’ispezione intelligente, anche senza conoscenze specialistiche. SICK
Nova è disponibile per una varietà di sensori di visione di SICK – inclusi anche Ruler3000 e Visionary-T Mini – mettendo a disposizione tool specifici per le diverse tecnologie di acquisizione ed elaborazione delle immagini, ma tutti accomunati dalla stessa struttura di base.
SICK Nova consente di implementare applicazioni nel campo della visione artificiale con facilità, utilizzando un browser web e una configurazione “point and click”, offrendo così agli utenti la flessibilità di combinare diversi strumenti di elaborazione delle immagini e integrarli secondo necessità, per risolvere specifiche applicazioni.

È inoltre possibile scaricare strumenti aggiuntivi dalla SICK AppPool o svilupparne di propri. Questo consente di estendere rapidamente e comodamente la gamma di
funzionalità in base alle esigenze dell’applicazione. Come toolkit software scalabile per applicazioni personalizzate di elaborazione delle immagini, SICK Nova garantisce soluzioni convenienti e a prova di futuro, supportando gli sforzi di digitalizzazione in una vasta gamma di settori e aree di applicazione.