Smartwatch e dados de estresse no Mundial Como montar pipeline com janelas e baseline

Eu acho fascinante — e meio inquietante — que um Mundial possa virar um “stress test” científico para o teu corpo. Segundo o Sapo.pt, investigadores alemães da Universidade de Bielefeld querem usar dados de smartwatches e pulseiras para medir como reagimos a golos, derrotas e minutos de tensão. Na prática, isto toca direto no que a gente desenvolve: coleta de dados em tempo quase real, pipelines seguros, análise estatística e (principalmente) modelos que não confundem “emoção” com “artefato de sensor”.

O que o “World Cup Fever Study” quer medir (e por que isso interessa a devs)

O ponto central do projeto, como descrito pelo Sapo.pt, é simples: quando a equipa preferida marca (ou perde), o corpo muda. E smartwatches já recolhem sinais que refletem isso. O que muda é a intenção: em vez de “fitness tracking”, vira um estudo comportamental/fisiológico em escala.

Os sinais típicos que entram no estudo incluem:

Frequência cardíaca (HR): tendência e picos durante momentos específicos do jogo.
Stress: métricas derivadas (muitas vezes baseadas em HRV — variabilidade da frequência cardíaca).
Movimento: aceleração/atividade (pra separar emoção de “mexer muito”).
Sono: contexto (descanso influencia HR e stress baselines).

O “porquê” técnico aqui é o que costuma cair por terra em estudos simples: sem separar variáveis de confusão, tu acabas medindo o que é operacional (mexer, tomar água, correr no sofá…) e não o que interessa (resposta ao jogo). Por isso, o design do dado é tão importante quanto o modelo.

Por que a arquitetura de dados decide o resultado (não o modelo)

Eu já vi isto acontecer em produção: a galera foca no ML e esquece a ingestão. No teu caso — e no estudo — a qualidade do pipeline define a “verdade” dos resultados.

O fluxo descrito pelo Sapo.pt aponta para um esquema onde:

Participantes se registram online com metadados (país, nacionalidade, equipa preferida, grau de identificação).
Quando existe amostra suficiente por seleção, são enviados convites para ligar o smartwatch.
Os dados chegam com timestamps e métricas fisiológicas ao longo do tempo.

Para devs, isso implica decisões específicas:

Alinhamento temporal: “momento do jogo” precisa casar com “momento do sinal”. Sem isso, tu borras a correlação.
Janela de análise: picos podem ocorrer poucos segundos após um golo, mas a HR pode ter inércia. Tu precisas de janelas (ex.: pré-evento, durante evento, pós-evento).
Normalização por baseline: HR e stress variam muito entre pessoas. Comparar “pico absoluto” entre indivíduos é receita para erro.
Controle de atividade: se o movimento sobe, a HR sobe. Então “emoção” e “atividade” precisam ser desassociadas.

Comparação rápida: por que “só usar HR” é fraco

Se tu usar apenas frequência cardíaca, tu vais capturar coisas demais: ansiedade geral, café, treino, caminhada pra cozinha, ruído do cotidiano. A combinação com stress (ex.: HRV) e movimento melhora a robustez porque introduz sinais que ajudam a explicar variação não relacionada ao jogo.

Uma alternativa comum seria questionários antes/depois. Funciona, mas tem recall bias (“eu senti que foi pior do que foi”) e menor granularidade temporal. Já o smartwatch dá resolução fina — desde que o timestamp esteja certo.

Na Prática: como eu construiria um pipeline mínimo (do evento ao dado útil)

Quando eu desenho algo assim, eu penso em 3 estágios: coleta, alinhamento e feature engineering. Aqui vai um passo a passo bem pragmático.

Normaliza timestamps

Garantir que eventos do jogo (golo, expulsão, final de período) e séries do smartwatch estão em UTC com precisão suficiente. Se tiver fuso local, converte uma vez e guarda.
Define janelas por evento

Exemplo: 2 min antes do golo, 3 min durante, 2 min depois. Isso reduz o efeito de baseline e captura resposta.
Calcula baseline por pessoa

Baseline = média (ou mediana) da HR/HRV em uma janela neutra anterior (ex.: último período sem emoções fortes). Depois mede “delta vs baseline”.
Cria features de movimento como controle

Ex.: média de aceleração e percentual de tempo “ativo” na janela. Depois, durante modelagem, tu usas isso como covariável.
Somente então entra no modelo

Agora sim tu treinas um modelo para estimar “resposta ao evento” (ou testar hipóteses). O ML vira um passo final, não o primeiro.

Um exemplo de código funcional para feature engineering (puro Python/pandas). Ele recebe uma série de smartwatch e um evento do jogo, e devolve features de janela com baseline:

import pandas as pd

def features_around_event(signal_df, event_ts, 
                           pre_minutes=2, during_minutes=3, post_minutes=2,
                           person_id_col="person_id", hr_col="hr",
                           motion_col="motion"):
    """
    signal_df: DataFrame com colunas:
      - person_id_col
      - timestamp (datetime64[ns], em UTC)
      - hr_col
      - motion_col
    event_ts: Timestamp do evento (datetime64, em UTC)
    """
    event_ts = pd.Timestamp(event_ts)

    pre_start = event_ts - pd.Timedelta(minutes=pre_minutes)
    during_end = event_ts + pd.Timedelta(minutes=during_minutes)
    post_end = event_ts + pd.Timedelta(minutes=post_minutes)

    pre = signal_df[(signal_df["timestamp"] >= pre_start) & (signal_df["timestamp"] < event_ts)]
    during = signal_df[(signal_df["timestamp"] >= event_ts) & (signal_df["timestamp"] <= during_end)]
    post = signal_df[(signal_df["timestamp"] > during_end) & (signal_df["timestamp"] <= post_end)]

    if pre.empty or during.empty:
        return None  # sem dados suficientes

    person_id = pre[person_id_col].iloc[0]

    def agg(df):
        return {
            "hr_mean": df[hr_col].mean(),
            "hr_max": df[hr_col].max(),
            "motion_mean": df[motion_col].mean(),
        }

    pre_agg = agg(pre)
    during_agg = agg(during)
    post_agg = agg(post) if not post.empty else {"hr_mean": None, "hr_max": None, "motion_mean": None}

    # delta vs baseline (o truque que evita comparar absoluto entre pessoas)
    feats = {
        "person_id": person_id,
        "event_ts": event_ts,
        "pre_hr_mean": pre_agg["hr_mean"],
        "during_hr_mean": during_agg["hr_mean"],
        "post_hr_mean": post_agg["hr_mean"],
        "during_hr_max": during_agg["hr_max"],
        "delta_during_hr_mean": during_agg["hr_mean"] - pre_agg["hr_mean"],
        "delta_during_hr_max": during_agg["hr_max"] - pre_agg["hr_mean"],
        "during_motion_mean": during_agg["motion_mean"],
        "post_motion_mean": post_agg["motion_mean"],
    }
    return feats

O motivo dessa decisão (baseline + deltas) é direto: HR absoluta não é comparável entre indivíduos. Normalizar por baseline é o mínimo pra qualquer conclusão não virar “estatística bonita” mas biologicamente frágil.

Erros Comuns: o que eu vejo devs (e cientistas) fazerem errado

Vou ser direto: as armadilhas aqui são recorrentes. Se você está a construir software para estudos ou produtos com sensores, presta atenção.

1) “Ignorar movimento” e culpar o coração

Se o wearable mede HR e movimento, e você ignora movimento, qualquer mudança em HR pode ser atividade física (levantou, foi ao corredor, mexeu no corpo). Eu chamaria isso de confundir causa com covariável.

2) Alinhamento temporal preguiçoso

Timestamp local vs UTC. Latência de sincronização. Clock drift do dispositivo. Em dados de sensor, isso é comum. O resultado? Correlações que “somem” quando você melhora a sincronização.

3) Feature engineering sem validação de cobertura

Tu cria features assumindo que sempre há dados na janela. Na real, existe dropouts (bateria, strap solto, dispositivo offline). Se você não trata isso, o modelo aprende “quem tem dados” e não “quem sentiu emoção”.

4) Privacidade tratada como checkbox

Smartwatch é dado sensível, mesmo quando parece “só HR”. Eu recomendaria desde cedo: minimizar dados, aplicar pseudonimização, e limitar acesso por função. Se um dev acha que isso é “secundário”, o problema aparece tarde demais.

5) Métrica “stress” sem explicar origem

“Stress” no wearable costuma ser derivado (muitas vezes via HRV e heurísticas do fabricante). Se você usa isso sem entender o cálculo, tu cria um abismo entre “rótulo” e “interpretação”. Para pesquisa, isso mata a reprodutibilidade.

Implicações práticas: o que esse estudo muda no teu dia a dia de programação

Mesmo que você nunca participe do estudo, o caso é útil como benchmark de engenharia. Ele força você a encarar:

Observabilidade: logs e métricas pra garantir que timestamp e sincronização estão corretos.
Qualidade de dados: validações automáticas (missingness, distribuição de HR, jitter temporal).
Segurança: controle de acesso, trilha de auditoria e retenção mínima.
Modelagem com causalidade mínima: não é causal puro, mas pelo menos controlar covariáveis (movimento, baseline, sono).
Design de UX para consentimento: o “liga o smartwatch” depende de confiança. Se o fluxo for friccionante, a taxa de adesão cai.

Na minha experiência, é aqui que projetos de sensores melhoram mais: quando a engenharia vira parte do método científico, e não só um “serviço de backend”.

FAQ (perguntas que eu esperaria de devs)

1) Como garantir que o “momento do golo” sincroniza com a HR do smartwatch?

Eu padronizaria tudo para UTC e usaria um modelo de latência/sincronização. Depois verificaria consistência: o pico deve aparecer em janelas plausíveis (ex.: segundos/minutos após o evento), e não aleatoriamente. Se aparecer aleatório, é timestamp drift.

2) Preciso necessariamente de HRV para ter um bom sinal?

Não sempre. Mas “stress” derivado geralmente aproveita HRV. Se tu não tiver HRV, ao menos usa movimento e baseline forte. Sem isso, HR vira métrica demais “geral”.

3) Como evitar vieses por “nível de adepto” e auto-seleção?

Mesmo com metadados (identificação como adepto), tu tens auto-seleção: pessoas mais emocionais podem aderir mais. Eu trataria isso com estratificação e modelos que incluam covariáveis, além de checar equilíbrio por país/equipe.

4) Qual banco de dados eu uso para lidar com séries temporais desse tipo?

Depende do volume, mas eu normalmente separo: armazenamento de evento (relacional/colunar) e séries temporais (timeseries ou formatos otimizados em object storage). O que importa: consulta por janelas e baixa latência para feature extraction.

5) Dá para fazer análise só com dados agregados?

Dá, mas você perde resolução do pico e aumenta risco de confundir “atividade” com emoção. Agregados podem servir para dashboards, porém feature engineering de janela tende a exigir séries mais granulares.

Segundo o Sapo.pt, a ideia do World Cup Fever Study é convidar utilizadores (via smartwatch) quando existe amostra suficiente por seleção. Isso torna ainda mais relevante a engenharia de sincronização, consentimento e qualidade do dado. Sem isso, o “pico de tensão” vira apenas “pico de dados”.

Gostou? Me segue no GitHub e deixa um comentário se tiver dúvida ou quiser aprofundar algum ponto.