Omar Guerrero | Backend Developer & Data Engineer

Durante el curso de Inteligencia de Negocios con Power BI – Nivel Intermedio (CONECO, jul–ago 2025) desarrollé dos proyectos con enfoques distintos: uno empresarial y otro exploratorio con datos abiertos de Kaggle.

Certificado otorgado por CONECO Consultoría & Capacitación · Docente: Ing. Jacinto Regalado

Proyecto 1 — Corp Trimestral Dashboard

Reporte de ventas 2021–2022 para una empresa con múltiples líneas de producto y cobertura nacional en Perú.

Dataset

Datos segmentados por:

Vendedor — 8 representantes comerciales
Línea de producto — Audio, Cómputo, Fotografía, Impresión, Video
Región — Centro, Lima, Norte, Oriente

Proceso en Power BI

1. Power Query
Limpieza de fechas, normalización de nombres y creación de tabla calendario.

2. Modelo estrella
Tabla de hechos (ventas) relacionada con dimensiones de tiempo, vendedor, producto y región.

3. Medidas DAX

-- Participación por región
Participacion Region =
DIVIDE(
    SUM(Ventas[Monto]),
    CALCULATE(SUM(Ventas[Monto]), ALL(Dim_Region))
)

-- Variación año anterior
Ventas YoY =
CALCULATE(SUM(Ventas[Monto]), SAMEPERIODLASTYEAR(Calendario[Fecha]))

4. Visualizaciones
Gráfico de barras horizontales (ranking de vendedores), matriz cruzada línea × región, gráfico de área temporal y mapa de burbujas sobre Perú.

Hallazgos principales

Lima concentra el 87% de las ventas totales (S/ 170,997,982 de S/ 195,608,763)
Juan Mejía lidera con S/ 60,032,093 — casi el triple del segundo vendedor
La línea Cómputo es dominante en todas las regiones
Pico de ventas en marzo 2021, con tendencia a la baja hacia fin de 2022

KPIs por región

Región	Total Ventas
Lima	S/ 170,997,982
Norte	S/ 14,135,817
Oriente	S/ 5,279,788
Centro	S/ 5,195,176

🔗 Ver dashboard en Power BI Service

Proyecto 2 — Supercars Explorer

Explorador visual de un dataset de supercars de Kaggle, con foco en precio, potencia y aceleración como KPIs principales.

Fuente: Cars Datasets 2025 — Kaggle

Pipeline de limpieza en Python

El dataset original contenía valores mixtos como "70-85 hp" o "1,200 cc", por lo que implementé un pipeline en dos scripts antes de cargar en Power BI.

Script 1 — Extracción y normalización

import pandas as pd
import re

def extract_first_number(val):
    if pd.isna(val):
        return val
    m = re.search(r"[\\d,]+\\.?\\d*", str(val).strip())
    return float(m.group().replace(",", "")) if m else None

# Columnas transformadas:
# CC/Battery Capacity  → CC/Battery Capacity (cc)
# HorsePower           → HorsePower (hp)
# Total Speed          → Total Speed (km/h)
# Performance 0-100    → Performance 0-100 (sec)
# Cars Prices          → Cars Prices (USD)
# Torque               → Torque (Nm)

Salida: Cars_Datasets_2025_clean.csv

Script 2 — Validación y exportación final

# Forzar tipos numéricos
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col], errors="coerce")

# Eliminar filas con >50% de datos nulos
threshold = len(df.columns) * 0.5
df = df.dropna(thresh=threshold)

# Deduplicación por marca + modelo
df = df.drop_duplicates(subset=["Company Names", "Cars Names"])

# Validar rangos lógicos
df = df[df["Total Speed (km/h)"].between(0, 500) | df["Total Speed (km/h)"].isna()]
df = df[df["Cars Prices (USD)"].isna() | (df["Cars Prices (USD)"] > 0)]

Salida: Cars_Datasets_2025_final.csv

Proceso en Power BI

Carga del CSV limpio directo desde Power Query (sin transformaciones adicionales)
Medidas DAX para precio promedio por marca, HP promedio y ranking por aceleración
Slicers en cascada — filtro por marca (Car) → modelo (Model)
Tarjetas KPI para precio, HP, velocidad máxima, aceleración y asientos

KPIs principales

💰 Precio — Cars Prices (USD)
⚡ Potencia — HorsePower (hp)
🏎️ Aceleración — Performance 0-100 (seg)

Ejemplo: Tesla Model S

Métrica	Valor
Precio	$88,490
Potencia	670 HP
Velocidad máxima	250 km/h
0–100 km/h	3.1 seg
Asientos	5
Motor	0.1L (dual electric motors)
Cilindrada	100 CC
Torque	967 Nm

🔗 Ver dashboard en Power BI Service

Tecnologías utilizadas

Herramienta	Uso
Power BI Desktop	Modelado, DAX y diseño de reportes
Power BI Service	Publicación y compartición
Python — pandas / re	Limpieza y validación del dataset
Kaggle	Fuente del dataset de supercars

Conclusiones

El pipeline Python → Power BI demostró ser una combinación efectiva: pandas resuelve la suciedad del dato crudo y Power BI se enfoca en el valor visual. El modelo estrella en el proyecto corporativo facilitó medidas DAX reutilizables y consultas rápidas. Los slicers en cascada mejoran notablemente la experiencia de exploración en datasets con jerarquía natural (marca → modelo).

Tip: Si replicás este flujo con otros datasets de Kaggle, el paso más crítico es identificar columnas con unidades mezcladas en texto antes de cargar a Power BI. Un script de limpieza previo ahorra horas de trabajo en Power Query.

De datos a decisiones con Power BI

Proyecto 1 — Corp Trimestral Dashboard

Dataset

Proceso en Power BI

Hallazgos principales

KPIs por región

Proyecto 2 — Supercars Explorer

Pipeline de limpieza en Python

Script 1 — Extracción y normalización

Script 2 — Validación y exportación final

Proceso en Power BI

KPIs principales

Ejemplo: Tesla Model S

Tecnologías utilizadas

Conclusiones