A Hírspektrumon fejlett elemzési és csoportosítási módszereket alkalmazunk, hogy megtaláljuk az egy hírről szóló cikkeket. A pontos csoportosítás lehetővé teszi, hogy felderítsük az egyes újságok közvetítései között a különbséget, és láthatóvá tegyük azok különbságeit.
Habár a híreket folyamatosan gyújtjük, de óránként egyszer csoportosítjuk őket, és hozzuk létre a Témaköröket, Kimutatásokat. Minden óra első pár percében létrehozzuk a hír csoportokat a két (napi és heti) idősáv szerint. Az újra csoportosítás azzal is jár, hogy a korábbi témák felül lesznek írva az új elemzésekkel, ezért célszerű ezeket a frissítéseket óránként megtenni
A Hírek feldolgozása során előállítjuk a beágyazási vektorokat ('embedding'-eket). Ezek a vektorok olyan számsorok, amik megukba foglalják a hírek témáját és jelentését numerikus formában, és egy nagy dimenziós térnek egy pontjába mutatnak. Az egymsához közeli pontokról pedig feltételezhetjük hogy, ugyan azt a hírt reprezentálják más szóhasználattal.
Az alábbi ábrán egy két dimenziós példát látunk. A csoportosítás során ezeket a pontokat kell a lehető legjobban klaszterekbe (Témákba) rendezni. Ez a megközelítés rendkívül jól működik, viszont a hírek közötti kapcsolat nem minden témában azonos erősségű. Például egy témába tartozhatnak szigorúan egy hírről szóló cikkek (pl. egy Új törvény tervezet), egy másik téma pedig lefedhet ennél sokkal tágabb témákat (pl. hazai balesetek, parlamenti közvetítések).
A csoportosítás másik velejárója, hogy az egyes klaszterek (Témák) közti, vagy azon kívül eső, egymástól távoli pontokat Zaj pontoknak nevezzük (az ábrán szürkével jelölt pontok), ezáltal létrejön plusz egy téma amibe a máshova nem sorolható híreket gyűjtjük össze.
A Témák címeit a csoportosítás során a összegyűjtött hírek címeiből állítjuk elő. Egy LLM (Nagy Nyelvi Modell) segítségével, készítünk egy olyan általánosított címet, ami a legjobban lefedi a Téma alatt összegyújtött cikkeket. Az így előállított címekkel sokkal intuitívabbá válik a Témák Böngészése, mintha a klaszter középpontjához legközelebbi Hír címével fémjeleznénk a Témákat.