Przejdź do głównej zawartości
29 października 2025
Od pikseli do percepcji — jak skalowalne oznaczanie fuzji czujników 3D napędza kolejną falę fizycznej sztucznej inteligencji
Share this article

Dane stojące za inteligencją fizyczną

Każdy robot przemieszczający się po hali produkcyjnej, każdy pojazd autonomiczny wykrywający pieszych i każdy dron lądujący na ruchomym celu wykorzystuje to samo: etykietowane dane wysokiej jakości. Jednak wraz ze wzrostem złożoności fizycznej AI, rośnie także ilość przetwarzanych przez nią danych. Robotyka i systemy autonomiczne analizują dane wejściowe z kamer, lidarów, radarów, IMU i czujników GPS, często w czasie rzeczywistym. Etykietowanie danych z czujników 3D odgrywa przy tym kluczową rolę.

Wyzwanie związane z postrzeganiem w fizycznych systemach AI

Nowoczesne fizyczne systemy AI opierają się na percepcji multimodalnej – widzeniu, wyczuwaniu i rozumieniu otoczenia. Jednak przechwytywane przez nie surowe dane są nieuporządkowane:

  • chmury punktów Lidar z milionami punktów na klatkę;
  • sygnały radarowe rejestrujące głębokość i prędkość, ale nie kształt;
  • strumienie wideo z kamer RGB lub kamer na podczerwień;
  • sygnały bezwładnościowe i GPS wymagające wyrównania czasowego.

Połączenie tych strumieni w ujednolicony zestaw danych wymaga procesu ujednolicania danych i pracowników, którzy znają się na geometrii 3D, ramkach współrzędnych i kalibracji czujników. Tradycyjne etykietowanie ramek ograniczających 2D nie wystarczy.

Dlaczego etykietowanie danych 3D jest tak złożone — i tak kosztowne

Etykietowanie danych 3D wymaga specjalistycznych narzędzi i wiedzy:

  • Pola ograniczające 3D i segmentacja semantyczna muszą być dokładnie dopasowane do macierzy kalibracji czujników.
  • Synchronizacja czasu między wieloma czujnikami pozwala zachować zgodność klatek z tą samą chwilą.
  • Obsługa okluzji i śledzenie wieloklatkowe** określają, czy obiekt znika z widoku, czy też pojawia się na nowo.
  • Spójność adnotacji i zgodność między adnotatorami (IAA) bezpośrednio wpływają na wydajność modelu.

Ze względu na te wyzwania wiele firm boryka się z „wąskimi gardłami” w szkoleniu w zakresie modeli percepcji – ograniczonymi możliwościami, niską jakością i długim czasem realizacji. Dlatego też zwracają się one do partnerów korporacyjnych, którzy mogą dostarczyć skalowalne i audytowalne procesy adnotacji.

Etykietowanie danych z czujników – przyszłość adnotacji danych w robotyce

Oznaczanie z wykorzystaniem fuzji sensorów łączy dane z różnych źródeł (lidar, radar, wideo), aby stworzyć bogatszą reprezentację świata fizycznego. W przypadku robotyki i pojazdów autonomicznych oznacza to:

  • Wyższą dokładność wykrywania obiektów przy słabym oświetleniu lub niesprzyjających warunkach pogodowych. Ulepszoną estymację głębokości i prędkości.
  • Bardziej niezawodne rozumienie sceny dzięki wzajemnej weryfikacji danych z różnych sensorów.
  • Mniej martwych punktów i awarii w nietypowych sytuacjach.

Uber AI Solutions przez dziesięć lat udoskonalało ten proces na własnej platformie mobilności oraz w programach partnerskich na całym świecie.

Wnioski — od surowych danych do postrzegania w rzeczywistym świecie

Fizyczna sztuczna inteligencja jest tak dobra, jak dane, które uczą ją widzieć i działać. Dzięki połączeniu zaawansowanej technologii etykietowania danych z globalną siecią ludzi oraz rygorystycznymi standardami jakości, Uber AI Solutions umożliwia firmom budowanie godnych zaufania robotów, pojazdów i maszyn, które działają bezpiecznie w rzeczywistym świecie.