Capítulo 6 — Configuración del entrenamiento

Ajuste preestablecido Preview exportado como JSON y visualizado en TextEdit — campos id/name/category/version/createdAt/description, trainingConfig con todos los parámetros relevantes (maxIterations 5000, densifyUntilIteration 3500, ssimWeight 0,20, renderScale 0,50, strategy classic, cameraAlignment applePhotogrammetry, densifyGradThreshold 2.0e-06, opacityResetInterval 3000, minOpacity 0,005, seis conmutadores booleanos) — Ajuste preestablecido Preview exportado como JSON y visualizado en TextEdit — campos id/name/category/version/createdAt/ description, trainingConfig con todos los parámetros relevantes (maxIterations 5000, densifyUntilIteration 3500, ssimWeight 0,20, renderScale 0,50, strategy classic, cameraAlignment applePhotogrammetry, densifyGradThreshold 2.0e-06, opacityResetInterval 3000, minOpacity 0,005, seis conmutadores booleanos)

Una exportación típica de un ajuste preestablecido como JSON. Campos de nivel superior: id (UUID), name, (classic | mcmc | sceneClass | custom), (versión de schema), (timestamp), (texto libre). El objeto anidado contiene los parámetros críticos para la reproducibilidad — en la importación, todo el bloque se deserializa en el struct TrainingConfig, y los defaults de la versión actual de la app rellenan los campos que falten en el JSON (p. ej., tras una actualización de la app). Para pasar un ajuste preestablecido a otro Mac, basta con enviar este archivo JSON.

El struct TrainingConfig es el corazón de cada run de entrenamiento en RadianceKit. Recopila todos los parámetros que influyen en el entrenamiento — desde el número máximo de iteraciones, pasando por las ocho learning rates, hasta los campos especiales para MCMC, Mip-Splatting, el currículum y la lógica de tope consciente de la escena. Lo editas en la barra lateral en la sección Training Configuration (Vista Experto), lo guardas como ajuste preestablecido o lo entregas como exportación JSON a otro Mac. Al iniciar el entrenamiento, este mismo objeto se congela y se entrega al backend de GPU.

Este capítulo es material de referencia para power users y autores de scripts. Lista los 81 campos públicos, los 9 ajustes preestablecidos estáticos y el único método público. El archivo fuente es TrainingConfig.swift — en caso de duda, el comentario de doc almacenado allí y el valor por defecto del inicializador son la fuente de verdad.

Índice:

+ Iteración (T1–T2) + Learning Rates (T3–T10) + Densificación — Classic (T11–T16) + Loss (T17–T20) + Progresión de grado SH (T21) + Rendimiento (T22–T25) + Diagnóstico y preparación de la nube de puntos (T26–T30) + Regularización (T31–T37) + Refinamiento (T38–T44) + Sky Dome (T45–T48) + Adam + schedule de LR (T49–T55) + Post-procesado + Apple AI (T56–T60) + Densificación MCMC (T61–T73) + Mip-Splatting (Q1.5) (T74–T76) + Densificación adaptativa (Q5) (T77–T79) + Currículum (Q6) (T80–T81) + Ajustes preestablecidos estáticos (TP1–TP9) + Método: + ¿Qué campo para qué? (Cheat Sheet) + Campos peligrosos

Iteración (T1–T2)

T1maxIterations

DETALLES

Predeterminado: 30 000 (initializer), 35 000 (.full), 200 000 (.fullMCMC) Rango: 1 000 – 500 000 (deslizador UI), sin límite superior duro en la lógica Definido en:

TÉCNICO

Número total de iteraciones de entrenamiento que ejecuta el backend. Una iteración significa un forward render de una sola cámara de entrenamiento, un backward pass sobre todos los componentes del loss (L1 + SSIM + regularizaciones opcionales + máscara de cielo) y un paso del optimizador Adam. Este número controla directamente los demás schedules: la learning rate de posición sigue una curva cosine annealing de 0 a T1 mismo o a T49 positionLRScheduleEndIteration; la densificación se detiene en T2 densifyUntilIteration; el decay de ruido MCMC termina en T69 mcmcNoiseDecayEnd; los upgrades de grado SH ocurren en las tres marcas de T21. Para la densificación clásica, el sweet spot empírico está en 20 000–35 000 iteraciones (Sesiones 1–32, tests V546), para MCMC en 60 000–200 000 (V534). Empujar mucho más allá de los valores almacenados en el ajuste preestablecido rara vez aporta calidad adicional — el momentum de Adam se satura, y sin un final de decay de LR el loss se estanca. Al contrario, bajar de ~5 000 lleva a geometría incompletamente convergida (la density control tiene muy poco tiempo para clone/split).

T2densifyUntilIteration

DETALLES

Predeterminado: 15 000 (initializer), 5 000 (.full), 160 000 (.fullMCMC) Rango: 0 – Definido en:

TÉCNICO

Iteración en la que se detiene la densificación. Hasta este punto, los Gaussianos se clonan, dividen y podan según las reglas parametrizadas en T11–T16 (Classic) o T67–T70 (MCMC); después, el número de Gaussianos se mantiene constante y solo se optimizan posiciones, rotaciones, escalas, opacidades y coeficientes SH (fase de refinamiento). En el paper original de 3DGS, el valor está en el 50 % de T1, en el preset .full de RadianceKit solo en el ~14 % (5 000 de 35 000) — consecuencia de los experimentos V310/V338 que mostraron que tras 5 000 iteraciones más densificación empeora el resultado (más floaters, mayor uso de memoria, sin ganancia de calidad). MCMC, en cambio, ejecuta la relocalización hasta el 80 % de T1 (V504b) porque MCMC no produce floaters dañinos. Si T2 es demasiado pequeño (< 1 000), surgen muy pocos Gaussianos; demasiado grande bajo Classic (> 50 % de T1) lleva a sobrecrecimiento y a outliers de saturación RGB (véase Outdoor Overtraining Findings).

Predeterminado: false (initializer y todos los ajustes preestablecidos) Rango: booleano Definido en:

TÉCNICO

Habilita el enmascaramiento de cielo. En cada imagen se enmascara la región de cielo mediante Apple Vision Framework (VNGenerateForegroundInstanceMaskRequest), y el loss en esa región se pone a cero. Razón: las escenas exteriores sufren a menudo de píxeles de cielo azul/gris/blanco que llevan a la app a colocar Gaussianos exactamente ahí — lo que se percibe como "floaters". Sin máscara de cielo, el loss en esa región nunca sería cero, porque el cielo en la imagen varía ligeramente y la app sigue intentando reconstruirlo con splats. La máscara Vision se calcula una vez por cámara antes del entrenamiento y se mantiene en RAM. Típicamente se activa junto con T45 skyDomeEnabled (lógica UI en la vista de Ajustes). Déjalo deshabilitado para escenas interiores o renderizados sintéticos — la máscara detectaría erróneamente techos o paredes como "cielo".

Progresión de grado SH (T21)

T21shDegreeUpgradeIterations

DETALLES

Estado: Q1.5 fue rechazado el 2026-05-25 tras 14 iteraciones autónomas + comprobación nocturna de confianza con 1,5 M como "closed no-win" (max Δ@2× = +0,27 dB, la puerta original requería ≥ +1,5 dB de media sobre 0,5×/2×, FALLA en 0/11 escenas pareadas). Los campos permanecen opt-in para experimentos de investigación; todos los ajustes preestablecidos de producción los tienen off. Véase el veredicto: docs/plans/2026-05-25-phase-q1.5-final-verdict.md.

T74useMipSplatting

DETALLES

Predeterminado: false (todos los ajustes de producción), true (.fullMCMCMip — hermano de investigación) Rango: booleano Definido en:

TÉCNICO

Habilita Mip-Splatting (Yu et al. CVPR 2024): filtro de suavizado 3D + filtro 2D + compensación α que limita la frecuencia por Gaussiano al bound de Nyquist de la tasa de muestreo de cámara de entrenamiento más densa. Objetivo teórico: eliminar aliasing al renderizar a escalas distintas del entrenamiento (0,5× o 2× de la resolución de entrenamiento). Habilitado en los shaders de preprocess y backward projection, corrección funcional verificada en el test Q1.5-D. Pero: la puerta de aceptación original (Δ@1× ≥ +0,3 dB Y avg(Δ@0,5×, Δ@2×) ≥ +1,5 dB) no se alcanzó en ninguna de las 11 escenas pareadas. Máximo observado: family 750K classic Δ@2× = +0,270 dB. Las escenas outdoor (Truck, Flowers) incluso mostraron empeoramiento en 1× y 0,5×. Hipótesis: el suavizado 3D compite con la relocalización MCMC a Gs alto. El campo se mantiene para una reevaluación multi-escala futura con metodología correcta Mip-NeRF-360 (véase el backlog O3 en la ruta de benchmark).

T75mipSmoothing3DScale

DETALLES

Predeterminado: 0,2 (default del paper) Rango: 0,05 – 1,0 Definido en:

TÉCNICO

Parámetro de escala de suavizado 3D (Yu et al. §3.3, default del paper 0,2). Más grande = más suavizado en espacio mundo por Gaussiano (= más anti-aliasing pero también más blur a la escala default), más pequeño = más nítido pero más propenso a aliasing. Solo se consulta cuando T74 useMipSplatting = true. No se ha optimizado más en las pruebas Q1.5 — la puerta A/B ya se perdió con el default del paper 0,2, sweeps adicionales serían inútiles.

T76mipFilter2DVariance

DETALLES

T80curriculumResolutionRamp

DETALLES

Predeterminado: false Rango: booleano Definido en:

TÉCNICO

Función Q6: la resolución de entrenamiento empieza en 0,5× y cambia en T50 positionLRScheduleEndIteration / 2 (o T1 maxIterations / 2, si T50 no está fijado) a T22 trainingRenderScale. Usa la infraestructura resize/restoreImageBuffers desarrollada en Q1.5.1. Sobrescribe T23 resolutionWarmupScale cuando está habilitado. Q6 pasó como "portador de la ganancia de calidad" en el bundle Q5+Q6 (véase T77) — el aumento gradual de resolución da a la app tiempo para encontrar la geometría gruesa a menor resolución antes de pasar al trabajo de detalle fino. Vía CLI: –curriculum-resolution.

T81curriculumSHProgression

DETALLES

Predeterminado: false Rango: booleano Definido en:

TÉCNICO

Función Q6: sobrescribe T21 shDegreeUpgradeIterations con [maxIter/4, maxIter/2, maxIter*3/4], distribuyendo los upgrades SH de forma uniforme a lo largo del tiempo de entrenamiento en lugar de cargarlos al principio. Hipótesis: una geometría estable se establece antes de la explosión de detalle de color, lo que coloca con más precisión los efectos de brillo dependientes de la dirección de visión. Q5+Q6 juntos PASAN 1/3 escenas, Q6 como portador de la ganancia (Q5 sola FALLA). Vía CLI: –curriculum-sh.

Firma: public func resolveMcmcMaxGaussians(initialPointCount: Int, bufferCapacity: Int) -> Int Definido en:

Fuente única de verdad para la pregunta "¿hasta cuántos Gaussianos se puede dejar crecer a MCMC?" Calculado a partir de tres entradas: el T62 mcmcMaxGaussians configurado (con suelo de extinción masiva 150 000 si 0), el (número de puntos init de SfM) y el (tamaño de buffer Gaussiano preasignado). Lógica:

+ base = T62 > 0 ? T62: 150_000 (el suelo de extinción masiva protege contra bugs de default de initializer como el incidente de extinción masiva 1.4.3) + Si T73 mcmcAutoScaleByScene && initialPointCount > 0 && T72 mcmcCapMultiplier > 0: - scaled = max(base, ceil(initialPointCount × T72)) else

+ Si bufferCapacity > 0: return min(scaled, bufferCapacity) + Else return scaled

Ejemplo: Bicycle (Mip-NeRF 360, 194 frames de foto) → SfM init ~156 K puntos, T62 = 150 000, T72 = 5,32, capacidad de buffer 8 M. Tope resuelto = min(8M, max(150K, ceil(156K × 5,32))) = min(8M, 830K) = 830 K. Ese es el tope de crecimiento efectivo al que se atiene la lógica de relocalización MCMC.

Calcula el número máximo real de splats bajo MCMC. Toma tu ajuste, mira con cuántos puntos empieza tu escena, y escala por el Multiplier, si está activada la adaptación automática. Así el tope se adapta a la escena en lugar de forzar el mismo valor para una escena diminuta y una enorme. No tienes que llamar tú al método — el entrenamiento lo usa internamente.

¿Qué campo para qué? (Cheat Sheet)

Objetivo	Campos a ajustar
Más detalle a la distancia	`T62 mcmcMaxGaussians` arriba, `T72 mcmcCapMultiplier` 5+
Más detalle en general (Classic)	`T1 maxIterations` arriba (≤ 40K), `T2 densifyUntilIteration` ≤ 14 % de T1
Reducir floaters en vuelos de dron	`T43 frustumCullEnabled` on, `T20 skyMaskingEnabled` on, `T45 skyDomeEnabled` on
Cielo agradable en escenas exteriores	`T45 skyDomeEnabled` on, `T47 skyDomeRadiusMultiplier` 30–60
Archivo de exportación más pequeño	Estrategia `.mcmc` (T61), `T56 postTrainingCompactification` on, `T62 mcmcMaxGaussians` ≤ 200K
Entrenamiento más rápido	`T22 trainingRenderScale` 0,5, `T1 maxIterations` a la mitad — ¡pero no ambos!
Mejores brillos	`T21 shDegreeUpgradeIterations` con `[2K, 5K, 8K]` (sin front-load temprano), MCMC + 200K iter
Mantener el Mac responsivo	`T25 throttleDelayMs` 5–10 (cuesta ~15 % de tiempo de entrenamiento)
Previsualización en vivo más a menudo	`T59 livePreviewInterval` abajo a 10–20
Transiciones más suaves en sombras	`T17 ssimWeight` ligeramente arriba (0,15–0,25), pero no por encima de 0,3
Mantener compactos los interiores	Ajuste preestablecido P10 Indoor (, `T72 = 1,76`)

Campos peligrosos

Estos campos pueden, con una mala configuración, llevar a OOM, crash de la app, extinción masiva de Gaussianos o datos de benchmark inutilizables. Trátalos con cuidado:

- T11 densifyGradThreshold — partir a la mitad puede crear 2–4× más Gaussianos, lo que rápidamente revienta la memoria GPU. Ten en cuenta también: debe coincidir con T22 trainingRenderScale (1,0× → 1e-6, 0,5× → 2e-6, 0,25× → 4e-6). - T72 mcmcCapMultiplier — con escenas grandes con > 200 K puntos init SfM y un multiplicador > 5, surge un tope resuelto de millones de Gaussianos. En Macs de 36 GB de RAM, OOM es posible. El ajuste preestablecido Outdoor 5,32 funciona solo porque Mip-NeRF 360 Bicycle tiene 156 K puntos init → tope 830 K. - T39 testViewIndices — fijarlo manualmente puede inutilizar el benchmark (todos los índices > N → sin holdouts). Deja que lo fije el flag –benchmark. - T64 mcmcOpacityRegWeight y T65 mcmcScaleRegWeight — En la beta 1.4.3 puestos a 0,01, lo que llevó a la extinción masiva (460 K → 5 Gaussianos en una iteración). Desde 1.4.4 fijados en 0,0, pero subirlos manualmente puede reproducir el problema. - T15 opacityResetInterval — si no está en 100 000+ (efectivamente off) y el entrenamiento es más corto que 10 000 iteraciones, el reset destruye la convergencia. .preview por eso lo tiene en 100 000 a pesar de maxIterations = 5 000. - T54/T55 densifyPhase2* — la densificación de dos fases acabó en pruebas en una cascada de 0 Gaussianos. Deja ambos en 0. - T74 useMipSplatting — Q1.5 closed-no-win 2026-05-25, puede incluso empeorar el PSNR en algunas escenas outdoor. Default off, opt-in solo para investigación.

Si un campo está en esta lista y quieres cambiarlo, primero haz copia de seguridad de tu ajuste preestablecido actual (exporta como JSON) y considera si puedes medir el resultado de forma reproducible — en otro caso, no sabrás después si has provocado una mejora o un empeoramiento.