1. Strona główna
  2. AI, RODO, EU Data Act, Cyberbezpieczeństwo, Kryptowaluty, E-handel
  3. RODO i Bezpieczeństwo Informacji
  4. RODO
  5. Big data i profilowanie a identyfikowalność – kiedy przetwarzane dane należy uznać za dane osobowe?
Data publikacji: 08.11.2025

Big data i profilowanie a identyfikowalność – kiedy przetwarzane dane należy uznać za dane osobowe?

Spis treści

Nowoczesne firmy coraz częściej korzystają z analityki predykcyjnej i systemów big data, by przewidywać zachowania klientów, optymalizować sprzedaż i podejmować decyzje biznesowe oparte na danych. Jednocześnie, przetwarzanie ogromnych zbiorów informacji — często pochodzących z różnych źródeł — niesie poważne ryzyka prawne. Jednym z najtrudniejszych zagadnień jest ustalenie, czy dane wykorzystywane w analizie mają charakter danych osobowych, a więc czy podlegają pełnemu reżimowi RODO.

Kluczem do tego jest przesłanka identyfikowalności osoby fizycznej. Od tego, czy dana osoba jest „możliwa do zidentyfikowania”, zależy zakres obowiązków administratora danych oraz ryzyko prawne związane z przetwarzaniem.


📊 Czym jest analiza predykcyjna i profilowanie big data

Analiza predykcyjna to proces, w którym duże zbiory danych (big data) są analizowane przy użyciu algorytmów, aby przewidywać przyszłe zachowania lub zdarzenia. Na przykład:

  • hotel analizuje wzorce rezerwacji, by przewidzieć popyt na określone terminy;
  • platforma e-commerce analizuje historię zakupów, by rekomendować produkty;
  • operator płatności analizuje zachowania transakcyjne, by wykrywać nadużycia.

Tego typu analiza wiąże się z profilowaniem, czyli automatycznym przetwarzaniem danych osobowych w celu oceny określonych cech osoby, np. jej preferencji, sytuacji ekonomicznej czy zachowań zakupowych.

Choć przetwarzanie danych w ten sposób przynosi przedsiębiorcom ogromne korzyści — pozwala trafniej planować działania, ograniczać ryzyka i zwiększać przychody — to jednocześnie rodzi poważne wyzwania dla ochrony prywatności.

Profilowanie może bowiem:

  • ograniczać wolność wyboru klienta (np. różne oferty w zależności od profilu),
  • prowadzić do nieuzasadnionej dyskryminacji (np. odrzucenie wniosku o kredyt),
  • naruszać prawo do anonimowości w sieci.

Dlatego RODO nakłada na przedsiębiorców szereg obowiązków, a punktem wyjścia do ich ustalenia jest właśnie analiza, czy dane, którymi dysponują, są danymi osobowymi.


👤 Dane osobowe a dane anonimowe – gdzie przebiega granica

Zgodnie z art. 4 pkt 1 RODOdane osobowe to każda informacja o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej. Osoba jest możliwa do zidentyfikowania, jeśli można ją rozpoznać bezpośrednio lub pośrednio — np. poprzez:

  • imię, nazwisko, numer identyfikacyjny,
  • adres IP, identyfikator pliku cookie,
  • lokalizację GPS,
  • kombinację informacji ujawniających cechy fizyczne, psychiczne lub ekonomiczne.

Natomiast informacje, których nie da się przypisać do konkretnej osoby, lub w których identyfikacja byłaby niewykonalna lub nieproporcjonalna (np. wymagałaby nadmiernego czasu, kosztów lub zasobów), nie są uznawane za dane osobowe.

🔹 Motyw 26 RODO stanowi, że należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby identyfikacji, z uwzględnieniem kosztów, czasu, technologii i postępu technicznego.

Innymi słowy: to nie teoretyczna możliwość identyfikacji, ale jej racjonalna wykonalność przesądza o uznaniu informacji za dane osobowe.


⚖️ Racjonalna ocena identyfikowalności – praktyczne kryterium dla firm

Zgodnie z orzecznictwem TSUE (sprawa C-582/14, Patrick Breyer) oraz wytycznymi Europejskiej Rady Ochrony Danych (EROD 04/2020), przesłanka identyfikowalności powinna być oceniana racjonalnie i kontekstowo.

Oznacza to, że przedsiębiorca powinien odpowiedzieć sobie na pytania:

  • Czy realnie dysponuję środkami, by ustalić, kim jest dana osoba?
  • Czy byłoby to opłacalne i proporcjonalne względem celu przetwarzania?
  • Czy zastosowane zabezpieczenia techniczne (np. anonimizacja) czynią to praktycznie niemożliwym?

Nie wystarczy więc samo przypuszczenie, że „kiedyś może da się połączyć te dane”.
Racjonalna ocena wymaga:

  • kierowania się logiką i zasadą proporcjonalności,
  • uwzględnienia dostępnych technologii i praktyk w danej branży,
  • odniesienia do perspektywy „rozsądnego człowieka” (reasonable person test).

💡 Przykład:
Firma turystyczna gromadzi anonimowe dane o lokalizacji użytkowników aplikacji, aby analizować ruch turystyczny w regionach. Samo połączenie tych danych nie pozwala zidentyfikować konkretnych osób, bo lokalizacje są zagregowane i zaokrąglane.
➡️ W tym kontekście dane nie będą miały charakteru osobowego.

Natomiast jeśli ta sama firma połączy dane lokalizacyjne z historią rezerwacji w systemie CRM, w którym widnieją imiona, adresy e-mail i numery telefonów, identyfikowalność zostanie przywrócona.


🧠 Subiektywne i obiektywne podejście do identyfikowalności

W doktrynie istnieją dwa podejścia:

  1. Obiektywne – oceniamy identyfikowalność niezależnie od tego, kto przetwarza dane (czyli: „czy ktokolwiek mógłby zidentyfikować tę osobę?”).
  2. Subiektywne – analizujemy, czy konkretny administrator dysponuje środkami, by to zrobić.

Na gruncie RODO dominuje podejście subiektywne:
nawet jeśli dane w teorii mogłyby zostać połączone w sposób umożliwiający identyfikację, nie uznaje się ich za dane osobowe, jeśli administrator racjonalnie nie ma możliwości lub potrzeby dokonania takiej identyfikacji.

📌 Przykład z branży hotelarskiej:
Dostawca systemu marketing automation analizuje zachowania anonimowych użytkowników strony hotelu. Teoretycznie mógłby połączyć adresy IP z danymi rezerwacyjnymi, ale nie ma do nich dostępu i nie prowadzi takiego procesu.
➡️ W tej sytuacji dane nie są uznawane za osobowe w kontekście jego działalności, choć mogą być tak kwalifikowane dla samego hotelu, który zna klientów.


🧩 Trudności z identyfikowalnością w środowisku big data

W praktyce firm korzystających z dużych zbiorów danych pojawiają się trzy grupy problemów:

1. Złożoność i różnorodność danych

Zbiory big data obejmują dane:

  • z systemów CRM i PMS,
  • z social mediów, systemów płatności, urządzeń IoT,
  • z zewnętrznych baz, które nie zawsze są weryfikowane.

Informacje napływają w sposób ciągły i dynamiczny, często bez oceny ich źródła. W efekcie w jednym zbiorze mogą znajdować się dane osobowe, pseudonimizowane i anonimowe – a ich rozdzielenie jest bardzo trudne.

2. Możliwość łączenia danych

Zestawienie kilku neutralnych informacji może prowadzić do identyfikacji osoby.
Np. połączenie historii rezerwacji, adresu IP i preferencji posiłków może wystarczyć, by odtworzyć tożsamość gościa hotelowego.

3. Ewolucja technologiczna

To, co dziś jest anonimowe, jutro może zostać zidentyfikowane dzięki nowym narzędziom analitycznym lub bazom danych.

Dlatego każdy administrator big data powinien wdrożyć:

  • regularny audyt identyfikowalności (ocena, czy dane nie stały się identyfikowalne),
  • test racjonalności (czy możliwa jest identyfikacja przy racjonalnym nakładzie środków),
  • system alertów deanonimizacyjnych, który sygnalizuje ryzyko ponownej identyfikacji.

🧱 Gdzie przebiega granica – kiedy informacja staje się daną osobową

Granica między informacją neutralną a danymi osobowymi nie jest stała.
Przesłanka identyfikowalności zostaje spełniona w momencie, gdy:

z obiektywnych powodów istnieje uzasadnione prawdopodobieństwo, że osoba może zostać zidentyfikowana.

Nie trzeba więc udowadniać, że administrator chce lub planuje zidentyfikować osobę — wystarczy, że mógłby to zrobić przy rozsądnych nakładach.

Czynniki, które warto uwzględnić:

  • czasochłonność wyszukiwania dodatkowych informacji,
  • koszty i nakłady techniczne,
  • dostępność narzędzi i technologii,
  • charakter zbioru danych (czy zawiera unikalne identyfikatory),
  • wiedza i zasoby ludzkie administratora.

📌 Praktyka:
jeśli dane można połączyć z innym systemem lub usługą (np. kontem użytkownika, płatnością, numerem IP) w sposób technicznie prosty — prawdopodobieństwo identyfikacji jest wysokie, a dane podlegają RODO.


⚙️ Kiedy dane stają się danymi osobowymi – praktyczny moment „przekroczenia progu”

Informacja przestaje być anonimowa, gdy:

  • w wyniku połączenia z innymi danymi uzyskuje cechy umożliwiające rozpoznanie osoby fizycznej,
  • istnieje uzasadnione prawdopodobieństwo, że administrator lub inny podmiot może tę osobę zidentyfikować,
  • proces analizy lub profilowania powoduje, że dane mogą zostać przypisane do konkretnego użytkownika (np. identyfikator klienta, konto w systemie CRM).

W praktyce nie chodzi o moment technicznego połączenia danych, lecz o chwilę, w której powstaje faktyczna możliwość identyfikacji. Od tego momentu administrator ma obowiązek stosować przepisy RODO.

💡 Przykład:
System analityczny hotelu przetwarza zagregowane dane dotyczące ruchu w serwisie rezerwacyjnym. W pewnym momencie administrator wprowadza nowe funkcje, które łączą dane o rezerwacjach z adresem IP i ID przeglądarki w celu personalizacji oferty.
➡️ Od tej chwili dane nie są już anonimowe – mają charakter osobowy, a administrator powinien wdrożyć obowiązki wynikające z RODO (np. klauzule informacyjne, rejestr czynności, analiza ryzyka).


🧾 Obowiązki administratora po uzyskaniu identyfikowalności

Gdy dane zyskują charakter osobowy, przedsiębiorca staje się administratorem danych osobowych i musi spełnić wszystkie wymogi wynikające z RODO. W szczególności:

1. Zapewnienie zgodności z zasadami przetwarzania (art. 5 RODO)

Administrator musi zagwarantować:

  • legalność i rzetelność przetwarzania – przetwarzanie danych na podstawie odpowiedniej przesłanki prawnej (np. zgoda, uzasadniony interes);
  • celowość – dane mogą być używane wyłącznie w jasno określonych, uzasadnionych celach;
  • minimalizację danych – przetwarzanie tylko tego, co niezbędne;
  • prawidłowość i aktualność – dane muszą być zgodne ze stanem rzeczywistym;
  • integralność i poufność – odpowiednie zabezpieczenia techniczne i organizacyjne.

2. Obowiązki informacyjne wobec osób, których dane dotyczą (art. 13 i 14 RODO)

Jeżeli dane są pozyskiwane:

  • bezpośrednio od osoby – obowiązek poinformowania o celu, odbiorcach, podstawie prawnej, czasie przechowywania, prawach itd.
  • z innych źródeł (np. systemy big data) – obowiązek przekazania informacji najpóźniej w ciągu miesiąca od pozyskania danych lub przy pierwszym kontakcie z osobą.

W praktyce ten obowiązek powstaje w momencie, gdy dane uzyskają charakter osobowy, a nie od chwili technicznego zbierania anonimowych informacji.

3. Określenie podstawy prawnej przetwarzania (art. 6 RODO)

Przedsiębiorca musi wskazać, na jakiej przesłance przetwarza dane, np.:

  • zgoda osoby (art. 6 ust. 1 lit. a),
  • wykonanie umowy (lit. b),
  • prawnie uzasadniony interes administratora (lit. f).

W przypadku analiz big data często stosowaną podstawą jest uzasadniony interes, ale wymaga on oceny, czy nie narusza praw i wolności osoby (tzw. test równowagi interesów).

4. Zabezpieczenie danych (art. 32 RODO)

Administrator powinien wdrożyć odpowiednie środki techniczne i organizacyjne, takie jak:

  • pseudonimizacja lub szyfrowanie,
  • kontrola dostępu do systemów,
  • regularne testy bezpieczeństwa,
  • rejestry dostępu i logowania.

5. Analiza skutków dla ochrony danych (DPIA, art. 35 RODO)

Jeśli przetwarzanie ma charakter zautomatyzowany, oparty na dużych zbiorach lub wiąże się z oceną zachowań użytkowników, należy przeprowadzić ocenę skutków dla ochrony danych.
DPIA jest obowiązkowa m.in. przy profilowaniu, scoringu, monitoringu zachowań czy analizach predykcyjnych obejmujących dużą liczbę osób.


🧭 Art. 11 RODO – kiedy administrator nie ma obowiązku identyfikacji osoby

Zgodnie z art. 11 ust. 1 RODO:

„Jeżeli cele, w których administrator przetwarza dane osobowe, nie wymagają lub już nie wymagają zidentyfikowania przez niego osoby, której dane dotyczą, administrator nie ma obowiązku zachowania, uzyskania ani przetworzenia dodatkowych informacji w celu zidentyfikowania osoby, której dane dotyczą, wyłącznie po to, by zastosować się do niniejszego rozporządzenia.”

Ten przepis wprowadza ważne odstępstwo dla firm przetwarzających dane anonimowe lub pseudonimizowane – oznacza, że przedsiębiorca nie musi gromadzić dodatkowych danych osobowych tylko po to, by móc zrealizować obowiązki wobec osoby fizycznej (np. udzielić jej informacji, gdy nie zna jej tożsamości).

Przykładowo, jeśli system analityczny przetwarza dane o zachowaniach użytkowników w sposób uniemożliwiający ich identyfikację, administrator nie musi zbierać danych kontaktowych, by wysłać klauzulę informacyjną – wystarczy, że dane są rzeczywiście nieidentyfikowalne.


⚠️ Co art. 11 RODO nie oznacza

Art. 11 RODO nie zwalnia z obowiązków dotyczących bezpieczeństwa i zgodności z zasadami przetwarzania.
Administrator nadal musi:

  • wdrożyć odpowiednie środki techniczne i organizacyjne (art. 32),
  • prowadzić rejestr czynności przetwarzania (art. 30),
  • projektować systemy z uwzględnieniem ochrony danych (art. 25),
  • przeprowadzać analizy ryzyka,
  • reagować na incydenty naruszenia danych.

Zwolnienie dotyczy wyłącznie obowiązków wymagających bezpośredniej komunikacji z osobą, takich jak:

  • obowiązek informacyjny (art. 13–14),
  • realizacja prawa dostępu (art. 15),
  • sprostowanie (art. 16),
  • usunięcie danych (art. 17),
  • przenoszenie danych (art. 20).

Jeśli administrator nie jest w stanie zidentyfikować osoby, nie jest zobowiązany do realizacji tych praw — ale tylko pod warunkiem, że nie próbuje pozyskać dodatkowych danych w celu ustalenia tożsamości.


📌 Praktyczna interpretacja art. 11 RODO w big data

W przypadku firm korzystających z big data przepis ten należy stosować z dużą ostrożnością.
Nie wolno go interpretować jako „zwolnienia z RODO” – dotyczy jedynie ograniczenia niektórych obowiązków wobec osób, których dane są anonimowe.

W praktyce należy rozróżnić dwie sytuacje:

🔹 A. Dane są rzeczywiście anonimowe

Administrator:

  • nie zna tożsamości osób,
  • nie posiada informacji, które pozwalają ją ustalić,
  • nie gromadzi dodatkowych danych identyfikujących.

➡️ W takim przypadku nie ma obowiązku realizacji praw osób fizycznych, ale nadal musi stosować zasady bezpieczeństwa i rozliczalności.

🔹 B. Dane są pseudonimizowane (można przywrócić tożsamość)

Administrator:

  • przechowuje dane w formie zakodowanej (np. ID użytkownika, token, hash),
  • posiada klucz, który umożliwia ponowne powiązanie danych z osobą.

➡️ W tej sytuacji dane są danymi osobowymi, a administrator musi stosować wszystkie przepisy RODO, nawet jeśli w danym momencie nie korzysta z klucza.


⏱️ Moment powstania obowiązków – „rozsądny termin”

Art. 14 ust. 3 RODO określa, że obowiązki informacyjne wobec osoby, której dane nie pozyskano bezpośrednio, należy zrealizować:

  • w rozsądnym terminie po pozyskaniu danych – najpóźniej w ciągu miesiąca,
  • przy pierwszym kontakcie z osobą,
  • lub przy pierwszym ujawnieniu danych innemu odbiorcy.

W praktyce, w kontekście big data, termin ten liczy się od momentu, gdy dane stają się identyfikowalne, a nie od chwili ich zebrania.

💡 Przykład:
Platforma analityczna przetwarza dane o aktywności użytkowników aplikacji w sposób anonimowy. Po wdrożeniu nowej funkcji personalizacji system zaczyna przypisywać dane do profilu zalogowanego użytkownika.
➡️ Od tego momentu administrator ma maksymalnie miesiąc na wdrożenie obowiązku informacyjnego.


🧠 Konflikt między identyfikacją a zasadą minimalizacji

RODO w art. 5 ust. 1 lit. c nakazuje, by dane osobowe były adekwatne, stosowne i ograniczone do tego, co niezbędne.
Z kolei art. 11 ust. 1 RODO mówi, że administrator nie powinien pozyskiwać dodatkowych informacji wyłącznie po to, by móc zrealizować obowiązki wobec osoby.

To oznacza, że w wielu przypadkach przedsiębiorca nie tylko nie musi, ale wręcz nie powinien próbować identyfikować osób, jeśli nie jest to niezbędne dla realizacji celu przetwarzania.

W praktyce:

  • jeśli dane przetwarzane są w sposób anonimowy i nie ma potrzeby ich identyfikacji – administrator powinien pozostać przy stanie anonimowości,
  • jeżeli jednak identyfikacja jest niezbędna (np. dla uzyskania zgody, realizacji praw osoby, weryfikacji umowy) – musi być przeprowadzona zgodnie z zasadą proporcjonalności.

🔎 Test racjonalności – narzędzie do oceny, czy dane są osobowe

W praktyce administratorzy big data powinni stosować tzw. test racjonalności, który pozwala ocenić, czy w danym kontekście dane mogą zostać uznane za osobowe.
Test ten opiera się na motywie 26 RODO i orzecznictwie TSUE (sprawa Patrick Breyer), według których należy brać pod uwagę wszystkie rozsądnie prawdopodobne sposoby identyfikacji, a nie teoretyczne możliwości.

👉 W ramach testu warto przeanalizować:

  1. Cele przetwarzania danych
    Czy istnieje uzasadniona potrzeba identyfikacji osoby, czy dane mogą pozostać anonimowe?
  2. Źródła danych
    Czy pochodzą z systemów własnych, zewnętrznych czy publicznych? Czy zawierają dane kontaktowe?
  3. Dostępne środki techniczne
    Czy administrator ma realną możliwość połączenia danych z osobą fizyczną? Jakie technologie są wykorzystywane?
  4. Nakład czasu, kosztów i pracy
    Czy identyfikacja wymagałaby nieproporcjonalnych nakładów (np. analiz ręcznych, wysokich kosztów obliczeniowych)?
  5. Charakter danych
    Czy dane zawierają unikalne identyfikatory (np. ID klienta, adres IP, sygnatury urządzeń)?
  6. Postęp technologiczny i ryzyko przyszłej reidentyfikacji
    Czy rozwój technologii (np. AI, machine learning) może w przyszłości umożliwić identyfikację?
  7. Środki ograniczające możliwość identyfikacji
    Czy zastosowano anonimizację, pseudonimizację, agregację lub maskowanie danych?

📌 Wniosek z testu należy dokumentować – w formie notatki lub wpisu w rejestrze czynności przetwarzania (art. 30 RODO).
To dowód, że administrator racjonalnie ocenił kontekst przetwarzania, co jest kluczowe w razie kontroli organu nadzorczego.


🧱 Anonimizacja i pseudonimizacja – różne cele i skutki prawne

RODO rozróżnia dwa kluczowe procesy przetwarzania danych w kontekście ograniczenia identyfikowalności:

🔹 Anonimizacja

To proces nieodwracalny, który trwale usuwa elementy pozwalające zidentyfikować osobę.
Po prawidłowej anonimizacji dane przestają być danymi osobowymi i nie podlegają RODO.

Przykłady:

  • usunięcie lub agregacja wszystkich identyfikatorów (np. zamiast ID użytkownika – grupy wiekowe, regiony),
  • przetwarzanie danych wyłącznie statystycznie (np. wskaźniki konwersji, liczba wizyt).

⚠️ Warunkiem skutecznej anonimizacji jest to, że nawet po połączeniu z innymi danymi administrator nie jest w stanie odtworzyć tożsamości osoby.

🔹 Pseudonimizacja

To proces odwracalny, który zastępuje dane identyfikujące pseudonimami (np. ID, tokenami, kluczami).
Dane pseudonimizowane wciąż są danymi osobowymi, ponieważ istnieje możliwość przywrócenia tożsamości osoby (np. poprzez dostęp do klucza lub odrębnej bazy).

Przykład:
System CRM przechowuje dane klientów w formie zakodowanych identyfikatorów, a klucz powiązania znajduje się w innym systemie.

➡️ W takim przypadku dane są nadal osobowe, ale ryzyko ich naruszenia jest mniejsze, co wpływa korzystnie na ocenę skutków (DPIA) i poziom zabezpieczeń.


🧰 Jak wdrożyć skuteczną anonimizację w praktyce

Aby proces anonimizacji był skuteczny i zgodny z RODO, należy spełnić trzy warunki:

  1. Nieodwracalność – brak możliwości powiązania danych z osobą, nawet przy użyciu dodatkowych źródeł.
  2. Wielowarstwowość – usunięcie wszystkich elementów, które samodzielnie lub łącznie mogą prowadzić do identyfikacji.
  3. Trwałość efektu – ponowna identyfikacja nie powinna być możliwa także po zmianach technologicznych czy wzbogaceniu bazy o nowe dane.

🔧 Przykładowe techniki anonimizacji:

  • agregacja – prezentowanie danych w postaci zbiorczej, np. według regionu zamiast miejscowości,
  • maskowanie – zastępowanie części danych symbolami (np. „J*** K****” zamiast imienia i nazwiska),
  • perturbacja – wprowadzanie losowych zmian w wartościach (np. zaokrąglenie wieku),
  • redukcja danych – usunięcie niepotrzebnych atrybutów (np. numeru IP, e-maila),
  • synteza danych – generowanie fikcyjnych danych o tych samych cechach statystycznych.

🚨 System alertów deanonimizacyjnych

Autorzy opracowania słusznie wskazują, że w środowiskach big data, gdzie dane są stale wzbogacane, warto wprowadzić mechanizmy ostrzegające przed ryzykiem wtórnej identyfikacji.

Taki system może:

  • analizować strukturę zbiorów danych i ich powiązania,
  • wykrywać sytuacje, w których agregacja lub łączenie informacji zwiększa ryzyko identyfikacji,
  • automatycznie informować administratora o konieczności ponownej anonimizacji lub wdrożenia zabezpieczeń.

💡 Przykład praktyczny:
Dostawca platformy e-commerce wprowadza narzędzie analizujące logi transakcyjne i dane lokalizacyjne klientów.
System alertowy wykrywa, że zestawienie adresu IP, daty transakcji i wartości koszyka może pozwolić na identyfikację pojedynczego klienta w małej miejscowości.
➡️ Administrator otrzymuje powiadomienie o potrzebie ograniczenia dokładności danych lub ich agregacji.


🧠 Profilowanie a decyzje zautomatyzowane – ryzyka i obowiązki (art. 22 RODO)

RODO w art. 22 przewiduje szczególne ograniczenia dotyczące profilowania i zautomatyzowanego podejmowania decyzji.
Osoba, której dane dotyczą, ma prawo nie podlegać decyzji, która:

  • opiera się wyłącznie na zautomatyzowanym przetwarzaniu (w tym profilowaniu),
  • i wywołuje wobec niej skutki prawne lub w podobny sposób istotnie na nią wpływa.

Przykłady decyzji podlegających art. 22:

  • automatyczne odrzucenie wniosku o kredyt na podstawie scoringu,
  • zablokowanie konta użytkownika w systemie rezerwacyjnym na podstawie analizy ryzyka,
  • zmiana ceny lub oferty w oparciu o profil zakupowy.

Administrator, który stosuje profilowanie lub analizę predykcyjną, powinien:

  1. zapewnić możliwość interwencji człowieka w proces podejmowania decyzji,
  2. poinformować osoby o zasadach profilowania i jego skutkach,
  3. umożliwić zakwestionowanie decyzji lub przedstawienie własnego stanowiska,
  4. ograniczyć zakres danych używanych w procesie decyzyjnym do niezbędnych elementów.

🧩 Wtórna identyfikowalność – ryzyko szczególne w big data

Zjawisko wtórnej identyfikowalności polega na tym, że dane początkowo anonimowe zyskują cechy danych osobowych w wyniku:

  • połączenia z innymi zbiorami danych,
  • wzbogacenia bazy o nowe informacje,
  • zmian technologicznych (np. nowe algorytmy analizy).

W praktyce ryzyko to można ograniczyć poprzez:

  • okresowe przeglądy baz danych (co najmniej raz w roku),
  • ograniczenie liczby źródeł danych i dostępu dla pracowników,
  • prowadzenie rejestru powiązań między bazami danych,
  • audyty dostawców i podmiotów przetwarzających,
  • bieżące aktualizacje DPIA.

💼 Co powinna zrobić firma przetwarzająca dane w analizie big data

Każdy przedsiębiorca korzystający z danych w celach analitycznych lub predykcyjnych powinien wdrożyć następujące praktyki:

  1. Zdefiniować kontekst przetwarzania danych – ustalić cele, zakres, źródła i technologie.
  2. Przeprowadzić test racjonalności identyfikowalności – ocenić, czy dane mogą prowadzić do identyfikacji.
  3. Wdrożyć pseudonimizację lub anonimizację – już na etapie projektowania systemów (privacy by design).
  4. Prowadzić rejestr czynności i audyty identyfikowalności – dokumentować każdą zmianę kontekstu przetwarzania.
  5. Ustalić moment pojawienia się danych osobowych – określić, od kiedy dane podlegają reżimowi RODO.
  6. Wdrożyć system alertów deanonimizacyjnych – automatyczne monitorowanie ryzyka wtórnej identyfikacji.
  7. Określić procedurę reakcji – w przypadku pojawienia się identyfikowalności wdrożyć klauzule informacyjne, podstawy prawne i zabezpieczenia.

📘 Podstawa prawna

  • art. 2 ust. 1, art. 4 pkt 1, art. 5, art. 6, art. 11, art. 13–14, art. 22, art. 25, art. 32, art. 35 RODO
  • motyw 26 i 57 RODO
  • wyrok TSUE z 19 października 2016 r., C-582/14, Patrick Breyer przeciwko Niemcom
  • Wytyczne EROD 04/2020 w sprawie wykorzystywania danych lokalizacyjnych i narzędzi kontakt tracing w kontekście COVID-19

📌 Tematy zawarte w poradniku

  • identyfikowalność osoby fizycznej w RODO i jej racjonalna ocena
  • przetwarzanie danych w analizie predykcyjnej i big data
  • znaczenie art. 11 RODO i minimalizacja identyfikacji
  • anonimizacja i pseudonimizacja w praktyce przedsiębiorcy
  • profilowanie i automatyczne decyzje (art. 22 RODO)
  • test racjonalności i system alertów deanonimizacyjnych

🔗 Linki do źródeł

Ostatnia aktualizacja: 08.11.2025
Czy ta porada była dla Ciebie pomocna?

Zobacz również: