Όλο και πιο δύσκολο γίνεται να ξεχωρίσει κανείς ένα ρομπότ από έναν άνθρωπο, κι αυτό οφείλεται, εν μέρει, σε μια νέα έρευνα από την Κίνα. Επιστήμονες κατάφεραν να αναπτύξουν ένα τεράστιο τρισδιάστατο σύνολο δεδομένων με ανθρώπινα πρόσωπα, καθώς και ένα πρωτοποριακό μοντέλο τεχνητής νοημοσύνης, ικανό να αναγνωρίζει εκφράσεις κατευθείαν από ακατέργαστα τρισδιάστατα δεδομένα.

Αυτή η προσέγγιση αλλάζει τα δεδομένα, καθώς δεν βασίζεται πλέον σε δισδιάστατες εικόνες ή ψηφιακά πρότυπα. Η έρευνα αυτή φιλοδοξεί να λύσει ένα θεμελιώδες πρόβλημα στην κατασκευή ρεαλιστικών ανδροειδών και εικονικών χαρακτήρων: την ανάγκη τους να εκφράζουν συναισθήματα, να αναγνωρίζουν πρόσωπα και να αλληλεπιδρούν με τρόπο που να μοιάζει φυσικός.

Η ανίχνευση τρισδιάστατων σημείων-κλειδιών στο πρόσωπο, δηλαδή η χαρτογράφηση συγκεκριμένων σημείων στον τρισδιάστατο χώρο, αποτελεί βασικό τεχνικό στοιχείο αυτής της ικανότητας. Τα περισσότερα συστήματα που υπάρχουν σήμερα βασίζονται σε μεγάλο βαθμό σε δισδιάστατες υφές ή σε συνθετικά τρισδιάστατα πρόσωπα, κάτι που συχνά οδηγεί σε σφάλματα.

Τα ψηφιακά μοντέλα, είναι αλήθεια, διαφέρουν συχνά από την πραγματική γεωμετρία του ανθρώπινου προσώπου, δημιουργώντας προβλήματα. Η νέα αυτή μελέτη προσπαθεί να ξεπεράσει αυτούς τους περιορισμούς, δουλεύοντας απευθείας με πραγματικές τρισδιάστατες σαρώσεις προσώπου, με σκοπό ένα πιο ακριβές και αληθοφανές αποτέλεσμα.

Η «γέννηση» τεράστιων τρισδιάστατων δεδομένων που «μαθαίνουν»

Για να υποστηρίξει την προσπάθεια αυτή, η ομάδα των ερευνητών, με επικεφαλής τον καθηγητή Song Zhan από το Shenzhen Institute of Advanced Technology της Κινεζικής Ακαδημίας Επιστημών, δημιούργησε ένα ειδικό σύστημα για τη συλλογή 3D και 4D δεδομένων. Συγκέντρωσαν μια βάση που περιέχει περίπου 200.000 σαρώσεις προσώπου με μεγάλη πιστότητα.

Στη βάση δεδομένων αυτή προστέθηκαν και πολλαπλές εκφράσεις, με τυποποιημένα σημεία αναφοράς, καθώς και δυναμικές 4D εκφράσεις, ανοίγοντας νέους δρόμους στην εξέλιξη των ανθρωποειδών. Οι ερευνητές, μεταξύ αυτών και ο δρ. Ye Yuping, συνεργάτης από το Fujian University of Technology, δημοσίευσαν την εργασία τους στο έγκριτο περιοδικό IEEE Transactions on Circuits and Systems for Video Technology.

Μέσα από τη δομή του, το μοντέλο τους, το CF-GAT (curvature-fused graph attention network), προβλέπει τις συντεταγμένες των τρισδιάστατων χαρακτηριστικών απευθείας από ακατέργαστα γεωμετρικά δεδομένα. Στις δοκιμές, το μοντέλο τους επέδειξε πολλαπλά πλεονεκτήματα.

Γεωμετρική επανάσταση στην τεχνητή νοημοσύνη

Αρχικά, εμφάνισε μεγαλύτερη ανθεκτικότητα σε «θόρυβο», δηλαδή σε ατέλειες που θα μπορούσαν να επηρεάσουν την αναγνώριση. Έδειξε επίσης καλύτερη ικανότητα προσαρμογής σε διαφορετικά σχήματα προσώπου, κάτι που το κάνει πιο ευέλικτο. Τέλος, επέτυχε και πιο ακριβή εντοπισμό λεπτομερών σημείων, γεγονός κρίσιμο για την αναπαραγωγή ρεαλιστικών εκφράσεων.

Αυτή η πρόοδος αναμένεται να οδηγήσει στην κατασκευή ακόμα πιο αληθοφανών ανθρωποειδών ρομπότ, την βελτίωση των βιομετρικών συστημάτων και τη δημιουργία πιο εκφραστικών εικονικών άβαταρ. Καθώς τα ανθρωποειδή ενσωματώνονται ολοένα και περισσότερο στην ψυχαγωγία, την υγειονομική περίθαλψη και τις υπηρεσίες, αυτή η γεωμετρική τεχνητή νοημοσύνη μπορεί να καθορίσει το πόσο «φυσικά» θα μοιάζουν στους ανθρώπους.