A Tensorflow Lite Posenet vagy a Pose becslés feladata egy ML modell felhasználásával megbecsülni egy személy pózát egy képből vagy egy videóból, becsülve a legfontosabb testtagok térbeli elhelyezkedését (kulcspontok).
A pózbecslés olyan számítógépes látástechnikákra vonatkozik, amelyek észlelik az emberi alakokat a képeken és a videókon, így meg lehet állapítani például, hogy hol jelenik meg valakinek a könyöke egy képen. Fontos tisztában lenni azzal a ténnyel, hogy a pózbecslés pusztán azt becsüli, hogy hol vannak a legfontosabb testízületek, és nem ismeri fel, hogy ki szerepel a képen vagy a videón.
A PoseNet modell egy feldolgozott kamera képét veszi be és adja ki a kulcspontokról. Az észlelt kulcspontokat egy alkatrész azonosító indexeli, a megbízhatósági pontszám 0,0 és 1,0 között van. A megbízhatósági pontszám azt a valószínűséget jelzi, hogy egy kulcspont létezik ebben a helyzetben.
Teljesítmény-referenciaértékek
A teljesítmény az eszköztől és a kimeneti lépésektől (hőtérképek és ofszetvektorok) függően változik. A PoseNet modell képméret nélküli, ami azt jelenti, hogy képes megjósolni a pózpozíciókat ugyanabban a skálában, mint az eredeti kép, függetlenül attól, hogy a képet kicsinyítették-e. Ez azt jelenti, hogy a modellt nagyobb pontossággal állítja be a teljesítmény rovására.
A kimeneti lépés határozza meg, hogy a kimenet mennyire lesz kicsinyítve a bemeneti kép méretéhez képest. Ez befolyásolja a rétegek méretét és a modell kimenetét.
Minél nagyobb a kimeneti lépés, annál kisebb a hálózaton lévő rétegek és a kimenetek felbontása, és ennek megfelelően azok pontossága. Ebben a megvalósításban a kimeneti lépés értéke 8, 16 vagy 32 lehet. Más szavakkal, a 32-es kimeneti lépés a leggyorsabb, de a legalacsonyabb pontosságot, míg a 8 a legnagyobb pontosságot, de a leglassabb teljesítményt eredményezi. Az ajánlott kiindulási érték 16.