METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

72
METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE TUBERÍAS CORROÍDAS MEDIANTE LA PREDICCIÓN DEL FACTOR ESTIMADO DE REPARACIÓN A TRAVÉS DE LA APLICACIÓN DE ALGORITMOS DE MACHINE LEARNING BRANDON BARRERA MARTINEZ Trabajo dirigido por: CAMILO ANDRÉS FRANCO DE LOS RIOS, PhD Co-asesor: RAFAEL AMAYA, Estudiante Doctoral Jurado Interno: SERGIO CABRALES, PhD Jurado Externo: IVAN MURA, PhD UNIVERSIDAD DE LOS ANDES MAESTRÍA EN INGENIERÍA INDUSTRIAL BOGOTÁ, 2019

Transcript of METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

Page 1: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

METODOLOGÍA PARA LA EVALUACIÓN DE LA

INTEGRIDAD DE TUBERÍAS CORROÍDAS MEDIANTE LA

PREDICCIÓN DEL FACTOR ESTIMADO DE REPARACIÓN

A TRAVÉS DE LA APLICACIÓN DE ALGORITMOS DE

MACHINE LEARNING

BRANDON BARRERA MARTINEZ

Trabajo dirigido por:

CAMILO ANDRÉS FRANCO DE LOS RIOS, PhD

Co-asesor:

RAFAEL AMAYA, Estudiante Doctoral

Jurado Interno:

SERGIO CABRALES, PhD

Jurado Externo:

IVAN MURA, PhD

UNIVERSIDAD DE LOS ANDES

MAESTRÍA EN INGENIERÍA INDUSTRIAL

BOGOTÁ, 2019

Page 2: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

2

TABLA DE CONTENIDO

1. RESUMEN .................................................................................................................. 4

2. INTRODUCCIÓN ........................................................................................................ 6

3. OBJETIVOS ............................................................................................................. 10

3.1. General ................................................................................................................. 10

3.2. Específicos ............................................................................................................ 10

4. MARCO TEÓRICO ................................................................................................... 11

4.1. Corrosión ............................................................................................................... 11

4.2. Detección de los defectos de corrosión ................................................................. 11

4.2.1. Pruebas Hidrostáticas ..................................................................................... 12

4.2.2. Evaluación directa ........................................................................................... 12

4.2.3. Inspección en línea (ILI) .................................................................................. 12

4.3. Evaluación de los defectos de corrosión................................................................ 13

4.3.1. Nomenclatura ................................................................................................. 14

4.3.2. ASME B31G ................................................................................................... 14

4.3.3. DNV-RP-F101 ................................................................................................. 14

4.4. Cálculo del ERF .................................................................................................... 15

4.5. Inspección periódica de los defectos de corrosión ................................................. 15

4.6. Modelos de crecimiento de defectos de corrosión ................................................. 17

4.7. Modelos de Machine Learning ............................................................................... 18

5. METODOLOGÍA ....................................................................................................... 21

5.1. Base de datos ILI .................................................................................................. 22

5.2. Exploración de la base de datos ............................................................................ 26

5.3. Segmentación – Clustering.................................................................................... 28

5.3.1. Tipos de segmentación ................................................................................... 29

5.3.2. Modelos de Clustering .................................................................................... 30

5.3.3. Clustering Jerárquico ...................................................................................... 31

5.3.4. Caracterización de los Clusters ....................................................................... 33

5.3.5. Selección del mejor modelo de Clustering ...................................................... 36

5.4. Pre-procesamiento de los datos ............................................................................ 36

5.4.1. SMOTE ........................................................................................................... 37

5.5. Entrenamiento de los modelos .............................................................................. 38

5.5.1. Regresión lineal .............................................................................................. 38

Page 3: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

3

5.5.2. Regresión con componentes principales ......................................................... 39

5.5.3. Random Forest ............................................................................................... 40

5.6. Selección de los modelos ...................................................................................... 42

5.6.1. Regresión lineal .............................................................................................. 42

5.6.2. Regresión con componentes principales ......................................................... 43

5.6.3. Random Forest ............................................................................................... 44

5.7. Evaluación de los modelos .................................................................................... 44

5.7.1. k-Fold Cross Validation ................................................................................... 45

5.7.2. Out of Bag Error .............................................................................................. 45

5.8. Prueba de los modelos .......................................................................................... 46

5.9. Evaluación de modelo para toma de decisiones y reentrenamiento ...................... 46

6. RESULTADOS ......................................................................................................... 48

6.1. Base de datos ILI .................................................................................................. 48

6.2. Exploración de la base de datos ............................................................................ 48

6.3. Segmentación – Clustering.................................................................................... 50

6.4. Pre-procesamiento ................................................................................................ 51

6.5. Entrenamiento de los modelos .............................................................................. 52

6.5.1. Regresión lineal .............................................................................................. 53

6.5.2. Regresión con componentes principales ......................................................... 57

6.5.3. Random Forest ............................................................................................... 59

6.6. Prueba de los modelos .......................................................................................... 62

6.7. Análisis de costos .................................................................................................. 63

6.7.1. Primer escenario: sin modelo de predicción .................................................... 64

6.7.2. Segundo escenario: con modelo de predicción ............................................... 64

7. CONCLUSIONES ..................................................................................................... 66

8. TRABAJO A FUTURO .............................................................................................. 67

9. REFERENCIAS ........................................................................................................ 68

Page 4: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

4

1. RESUMEN

Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y

productos derivados en la industria petrolera son las tuberías onshore. Estas tuberías son

susceptibles a fallas causadas por corrosión, fallas operativas, errores humanos o

vandalismo lo que conlleva a pérdidas de metal, abolladuras o grietas. De esta manera, se

generan daños a la integridad mecánica de la tubería y como consecuencia, se pueden

provocar daños ambientales o afectaciones a la población, y se puede conllevar a pérdidas

económicas significativas por reparaciones, pérdida de productos, respuestas de

emergencia y daños a la propiedad.

La corrosión es una de las principales causas de fallas en tuberías de transporte de crudo

y de gas natural. Es por esto, que la corrosión es un fenómeno cuya investigación es de

gran importancia para planificar las actividades de mantenimiento en la industria petrolera.

Frente a este problema, es importante implementar prácticas y procedimientos que

permitan proteger, administrar y mantener la integridad de los sistemas de tubería. En este

sentido, el propósito de este proyecto es proponer una metodología que permita la

aplicación de algoritmos de Machine Learning para la evaluación de la integridad de

tuberías corroídas, en una próxima inspección, mediante la predicción del Factor Estimado

de Reparación. Este factor es una variable que permite jerarquizar los defectos de corrosión

reportados en una misma tubería al tomarse como un criterio del tiempo de vida restante.

Entre mayor sea este factor, la integridad de la tubería es más crítica.

Para cumplir con el objetivo propuesto, se implementa una metodología de segmentación

de la tubería, mediante la técnica de Clustering jerárquico, que se utiliza para analizar los

defectos de corrosión en inspecciones realizadas en instantes de tiempo diferentes y facilita

la identificación de zonas vulnerables a este problema. Además, esta metodología de

segmentación permite tener en cuenta comportamientos como la interacción de los defectos

de corrosión que se encuentran cercanos entre sí.

Adicionalmente, se proponen diferentes modelos de aprendizaje supervisado que permiten

realizar la predicción del Factor Estimado de Reparación entre inspecciones.

Específicamente, se proponen los modelos de regresión lineal, regresión con componentes

principales y ensamble de árboles o Random Forest. Para cada uno de estos modelos, se

plantea un procedimiento detallado para su aplicación y evaluación de tal manera que,

puedan ser usados a partir de cualquier base de datos generada por una herramienta de

Page 5: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

5

inspección en línea (ILI). En general, se demostró que estos algoritmos de Machine

Learning tienen el potencial de crear modelos de predicción precisos. Teniendo en cuenta

que la prioridad es maximizar la capacidad predictiva más allá de la interpretabilidad de los

modelos, se escoge el modelo de Random Forest, como el mejor método de predicción.

Al final se justifica el uso de la metodología mediante un análisis de costos para determinar

la importancia de la propuesta realizada. De esto se pudo concluir que utilizar herramientas,

como los modelos de predicción propuestos, como soporte en la toma de decisiones de

inspección, mantenimiento y reparación puede traer beneficios económicos significativos

para la industria petrolera. Sin embargo, esta metodología se tiene que ir mejorando y

perfeccionando con el tiempo y con la adquisición de nuevos datos.

Para evaluar la metodología propuesta, se utiliza como caso de estudio una base de datos

compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una

tubería de crudo con una longitud de 44 kilómetros, un diámetro externo de 273.1

milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de

operación admisible (MAOP) de 1500 psig.

Page 6: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

6

2. INTRODUCCIÓN

Una de las opciones más usadas para el transporte en largas distancias de crudo, gas y

productos derivados en la industria petrolera son las tuberías onshore [1]. En Estados

Unidos, más de 217.000 km de tuberías transportan líquidos peligrosos, 34.000 km

transportan crudo, y 483.000 km gas natural [2]. Estas tuberías son susceptibles a fallas

causadas por corrosión, fallas operativas, errores humanos o vandalismo lo que conlleva a

pérdidas de metal, abolladuras o grietas [3]. De esta manera, se provocan daños a la

integridad mecánica del sistema incluyendo una pérdida de contención primaria (LOC).

Como consecuencia, se pueden provocar daños ambientales o afectaciones a la población

[4]. Además, se puede conllevar a pérdidas económicas significativas por reparaciones,

pérdida de productos, respuestas de emergencia y daños a la propiedad [4]. Frente a esto,

es importante implementar prácticas y procedimientos para proteger, administrar y

mantener la integridad de los sistemas de tubería. Todo esto se concentra en mantener un

buen programa de gestión de la integridad (PGI) de la tubería [5].

El objetivo principal de la gestión de la integridad es mantener las tuberías en condiciones

de operación seguras, a través de la reducción de la probabilidad del LOC mediante la

mitigación de sus consecuencias y buscando una estabilidad económica para la compañía

[5]. Concretamente, un PGI ajusta cuándo, dónde, cómo y qué acciones deben tomarse en

el proceso de inspección, mantenimiento y reparación [5]. Además, debe ser capaz de

monitorear y predecir defectos, gestionar el riesgo asociado, evitar que acontezca una falla,

controlar el daño de manera exitosa y reducir los costos en general [5]. Por esto, la gestión

de la integridad de la tubería comprende las áreas de: prevención de fallas; de estrategias

de inspección y reparación; y de productos, prácticas y servicios que ayudan al operador a

maximizar la vida útil de la tubería [6].

De acuerdo con Kishawy y Gabbar [7], un PGI debe constar de los siguientes componentes:

(i) un proceso para identificar los segmentos de la tubería y el modo de falla; (ii) un plan de

evaluación de la integridad; (iii) un análisis que contiene toda la información disponible

sobre la integridad de la tubería y las consecuencias de una falla; (iv) criterios para acciones

de reparación; (v) un proceso continuo de evaluación para mantener la integridad; (vi)

identificación de medidas preventivas y de mitigación; (vii) métodos para medir la

efectividad del programa y (viii) un proceso de revisión de los resultados de la evaluación

de la integridad. Específicamente, para este estudio es de interés brindar herramientas que

permitan apoyar a los componentes (iv), y (v), dado que en estos se toman decisiones sobre

Page 7: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

7

futuras intervenciones que mantengan la integridad de la tubería y es un proceso que se

debe realizar de manera continua.

La gestión de integridad tiene una dualidad de la cual depende que los daños y las pérdidas

económicas puedan ser significativamente altas o bajas. Por un lado, si la tubería no se

interviene a tiempo y/o adecuadamente, se puede llegar a un LOC que afecte a las personas

y al medio ambiente debido a la peligrosidad de los fluidos de transporte (inflamables,

explosivos, tóxicos, etc.) [8]. Por otro lado, si las intervenciones son extremadamente

conservadoras, por ejemplo, con un intervalo de tiempo de pequeño, se puede llegar a tener

pérdidas económicas por mantenimientos o reparaciones innecesarias [8]. En otras

palabras, el criterio de un PGI se encuentra en un compromiso entre los costos de

reparación, incluida la pérdida de producción, y la necesidad de proteger la vida humana y

el medio ambiente [3]. Dado todo lo anterior, es indispensable que los encargados de tomar

decisiones evalúen cada defecto que perturbe la integridad de la tubería de la mejor forma

posible, de tal manera, que se minimicen las pérdidas económicas [8].

Amaya et al. [6] mencionan que “la corrosión es uno de los principales mecanismos de

degradación y uno de los objetivos primordiales para la gestión de la integridad de la

tubería” . Según el departamento de transporte de los Estados Unidos, aproximadamente

el 25% de todos los reportes de fallas en tuberías de transporte de crudo y de gas natural,

se deben a defectos de corrosión, Figura 1 [9]. De estos defectos, el 65% se debe a

corrosión en las paredes externas y el 35% a corrosión en las paredes internas [2].

Adicionalmente, se conoce que cerca del 8% de la producción mundial de metales es usado

en producción, transporte y procesamiento en la industria petrolera [10]. Esta enorme

cantidad de metal usada en esta industria es la más propensa a la corrosión en comparación

con otras industrias. Específicamente, se destruye aproximadamente 1 kg de acero por

tonelada de crudo procesado debido a la corrosión [10]. Es por esto, que la corrosión es un

fenómeno cuya investigación es de gran importancia para planificar las actividades de

mantenimiento en la industria petrolera [11].

Page 8: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

8

Figura 1. Porcentajes por causas de fallas en tuberías. Muestra de datos de fallas de EE. UU. durante un

periodo de 20 años en su red de 800,000 km de tuberías onshore [9].

El objetivo principal de este proyecto se concentra en proporcionar una metodología que

permita predecir, en una inspección futura, el estado de los defectos de corrosión de las

tuberías de transporte en la industria petrolera, mediante el factor estimado de reparación

(ERF). Este factor es una variable que permite jerarquizar las anomalías reportadas en una

misma tubería al tomarse como un criterio del tiempo de vida restante [12]. Entre mayor sea

este factor, la integridad de la tubería es más crítica. Además, si el ERF toma valores

mayores a 0.95 o 1, indica que la tubería requiere de una reparación inmediata en la zona

afectada por el defecto.

Para este propósito, se propondrá una segmentación de la tubería que permita la

identificación de zonas críticas debido a la corrosión. Después, se propondrán modelos de

aprendizaje supervisado para que sean entrenados con datos que describan un estado

actual de la integridad de los defectos de corrosión en las zonas críticas (dimensiones, ERF,

entre otras). A partir de este entrenamiento, se buscará identificar cuales defectos serán

críticos en una próxima inspección mediante la predicción del ERF. De esta manera, este

trabajo busca soportar la toma de decisiones en pro de prevenir pérdidas de contención al

identificar secciones críticas que luego deben ser evaluadas para su mantenimiento. En

otras palabras, los encargados de tomar decisiones contarán con una herramienta adicional

que podrán utilizar para tomar acciones de inspección, mantenimiento y reparación.

Page 9: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

9

A continuación, se presentará formalmente los objetivos del proyecto y un marco teórico

que expone los fundamentos y bibliografía respecto al tema de investigación que involucra

los defectos de corrosión en tuberías y la aplicación de técnicas de Machine Learning.

Además, se presentará la metodología propuesta que describe los procesos de

segmentación y de predicción sobre la tubería que se utilizará como caso de estudio.

Posteriormente, se presentarán los resultados obtenidos del proceso de segmentación y de

cada uno de los modelos de Machine Learning propuestos para la predicción. Finalmente,

se realizarán las conclusiones pertinentes sobre los resultados obtenidos y del trabajo

realizado y además, se propondrá un trabajo a futuro.

Page 10: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

10

3. OBJETIVOS

3.1. General

Proponer una metodología de Machine Learning para la evaluación de la integridad

de tuberías corroídas y la predicción del Factor Estimado de Reparación.

3.2. Específicos

Definir una metodología de segmentación de la tubería, mediante técnicas de

aprendizaje computacional no supervisado, que permitan analizar los defectos de

corrosión en inspecciones realizadas en instantes de tiempo diferentes y que

permitan crear zonas vulnerables a este problema.

Examinar diferentes modelos de aprendizaje supervisado que permitan realizar la

predicción del Factor Estimado de Reparación entre inspecciones.

Establecer un procedimiento detallado para la aplicación y evaluación de los

modelos propuestos para la predicción del Factor Estimado de Reparación.

Evaluar el uso de la metodología mediante un análisis de costos para determinar la

importancia de la propuesta realizada.

Page 11: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

11

4. MARCO TEÓRICO

4.1. Corrosión

La corrosión es un mecanismo complejo que reduce la integridad estructural de la tubería

asociada con la pérdida de metal (reducción de espesor) [11]. Es un proceso electroquímico

que produce la oxidación del metal de la tubería al reaccionar con su entorno, el cual puede

conllevar a perforaciones en la tubería, agrietamiento por corrosión, aglomeraciones de

material, fragilidad, sobrepresión interna, fallas por fatiga, rugosidad sobre la superficie,

cavitación, entre otras [9]. Los defectos de corrosión pueden interactuar con otros

adyacentes, formando colonias de corrosión, lo cual reduce la resistencia de la tubería en

comparación cuando los defectos se encuentran aislados [13]. Además, la corrosión es un

mecanismo dependiente del tiempo y es inevitable que se presente este problema en la

tubería, por lo cual, la gestión de la integridad debe centrarse en su control [9].

Los métodos que se usan para controlarlo se basan principalmente en el uso de

recubrimientos y la implementación de técnicas de soporte como la protección catódica [14].

Por un lado, los recubrimientos son considerados por la industria como la primera línea de

defensa en contra de la corrosión [15]. Estos son seleccionados teniendo en cuenta: las

condiciones de operación de la tubería (temperatura, presión, etc.); el entorno en el que se

encuentra; fluido que transporta y el modo de falla del recubrimiento (por ejemplo, cómo se

comporta el recubrimiento cuando existen desuniones en la tubería) [15]. Por otro lado, la

protección catódica es una técnica para reducir la corrosión en el metal, haciendo que toda

la superficie sea un cátodo mediante la aplicación de corriente, es decir, se crea una barrera

eléctrica [15]. Sin embargo, son técnicas que no evitan totalmente el problema. Por ejemplo,

la corrosión externa ocurre debido a un defecto o desgaste del recubrimiento que genera

que la pared de la tubería entre en contacto con el entorno [13]. Respecto a la corrosión

interna, por ejemplo, ocurre por presencia de agua en el producto que se transporta [13].

Dado esto y la alta frecuencia de ocurrencia, es importante inspeccionar continuamente el

problema de corrosión en toda la tubería [16].

4.2. Detección de los defectos de corrosión

Según el Código de Regulación Federal para líquidos y gases (CFR 192 y CFR 195), existen

tres métodos aprobados para detectar corrosión en tuberías: pruebas hidrostáticas,

evaluación directa, e inspección en línea [17].

Page 12: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

12

4.2.1. Pruebas Hidrostáticas

Esta técnica prueba la resistencia de la tubería a través de agua a una presión mayor que

la presión de operación [17], usualmente, el 125% de la presión máxima de operación de la

tubería (MOP) [2]. Es un método destructivo debido a las altas presiones a las que se

somete la tubería, es muy costoso e involucra problemas asociados con la adquisición,

tratamiento y eliminación del agua usada [2]. Asimismo, es posible que mediante este

método no se detecten fallas pequeñas y sea necesario hasta otra prueba hidrostática para

identificarlas [2]. Finalmente, se realiza por secciones de tubería lo que involucra detener el

flujo del producto transportado y es necesario realizar excavaciones que pueden afectar la

integridad de la tubería [2].

4.2.2. Evaluación directa

Como parte de los programas de monitoreo, se suele utilizar investigación de campo

(evaluación directa) [2]. Específicamente, se evalúa el estado general de la tubería y se

identifica la presencia de defectos de corrosión. Para esto, se utilizan métodos

electroquímicos, mediciones de potencial, mediciones de resistencias a la polarización

lineal, espectroscopias de impedancias electroquímicas, sensores galvánicos, pruebas de

resistencias eléctricas, métodos ópticos, entre otros [18]. Sin embargo, este tipo de técnicas

se usan principalmente después de haber usado modelos que predicen la presencia de

defectos severos de corrosión, de tal forma, que se prioriza la evaluación directa en ciertos

puntos determinados [2]. Es una técnica muy usada en sistemas donde no es posible

realizar inspecciones en línea [17].

4.2.3. Inspección en línea (ILI)

La técnica ILI se define como la inspección realizada por un Smart o Intelligent Pig (Figura

2), desde el interior de una tubería [19]. Este equipo es impulsado por el flujo del líquido o

gas producto, lo que permite realizar pruebas no destructivas para inspeccionar la tubería

[19]. Específicamente, el Smart Pig es capaz de detectar la mayoría de pérdidas de metal

causadas por corrosión. Para esto, puede usar dos tipos de tecnologías de inspección: MFL

(Magnetic Flux Leakage) y UT (Ultrasonic Tools) [2]. Por un lado, el MFL mide el cambio

generado en las líneas del flujo magnético por los defectos de corrosión. Este cambio

produce una señal que puede relacionarse con la longitud y profundidad de un defecto [2].

Por otro lado, en la tecnología UT se utilizan grandes conjuntos de transductores

Page 13: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

13

ultrasónicos que reciben y envían ondas de sonido. Estas últimas viajan a través del grosor

de la pared, lo que permite un mapeo detallado de la tubería [2].

Figura 2. Esquema de una inspección en línea mediante un Smart Pig [3].

Como ventajas se puede destacar que ILI tiene la capacidad de detectar y cuantificar una

gran cantidad de fallas además de las de corrosión y adicionalmente, ofrece una cobertura

total de tubería [19]. En comparación con las pruebas hidrostáticas, ILI puede reportar

pequeñas fallas inclusive aquellas que hasta ahora están iniciando [19]. Este tipo de

detecciones, por ejemplo, extiende el intervalo de tiempo entre inspecciones y permite

mejorar la estimación de las tasas de crecimiento de corrosión [19]. Sin embargo, el

mantenimiento del equipo es fundamental para no perder efectividad de la lectura y su

implementación requiere de un alto conocimiento, experticia y habilidad por parte de los

operarios [19]. A pesar de esto, la técnica de inspección en línea es la de mayor preferencia

en la industria petrolera [19] y por tal motivo, en el presente proyecto se utilizarán datos

obtenidos mediante esta técnica para realizar el respectivo análisis.

4.3. Evaluación de los defectos de corrosión

Una vez detectados los defectos de corrosión se vuelve indispensable tener métodos que

permitan cuantificar el nivel y/o magnitud de la corrosión presentada. En los procesos de

inspección en línea cuando se detecta el defecto de corrosión, se reportan las dimensiones

del mismo (longitud, ancho, profundidad) [2]. Con estas medidas, se establece una relación

con alguna de las variables de operación de la tubería (presión, flujo, etc.) y de esta manera,

se determina la magnitud de la anomalía [2]. Específicamente, las dimensiones de los

defectos de corrosión se asocian con la presión segura que previene un estallido o también

denominada como presión de estallido [20]. Para esto, existen diferentes estándares,

siendo los más utilizados ASME B31G y DNV-RP-F101 [20]. Estos son métodos aprobados

por la industria y diseñados para calcular las presiones seguras de operación de tuberías

corroídas [9]. Además, estos estándares contienen modelos calibrados mediante pruebas

Page 14: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

14

en las que se llevan, a diferentes tipos de tuberías corroídas, hasta una presión en la que

se presenta una falla (rotura o estallido) del material [21]. A continuación, se presenta la

forma con la que se calcula la presión de estallido en cada uno de los métodos:

4.3.1. Nomenclatura

- 𝒅: Profundidad máxima del defecto de corrosión [in]

- 𝒕: Espesor de la tubería [in]

- 𝒍: Longitud máxima del defecto de corrosión [in]

- 𝑫: Diámetro externo de la tubería [in]

- 𝝈𝒚: Esfuerzo de fluencia [psi]

- 𝒇𝒖: Resistencia a la tracción, estimada como 1.2𝜎𝑦 [psi]

4.3.2. ASME B31G

Este método es el más utilizado y es conocido por proporcionar estimaciones de la presión

de estallido conservadoras [20]. De acuerdo al método, la presión de estallido (𝑃𝑠𝐵31𝐺) se

calcula mediante las siguientes ecuaciones [21]:

𝑃𝑠𝐵31𝐺 = 𝑃𝑠𝑖 ∗ [

1 − (23) (

𝑑𝑡 )

1 − (23

) (𝑑𝑡

) 𝑀−1] (1)

Donde,

𝑀 = √1 + 0.81 (𝑙

𝐷)

2

(𝐷

𝑡) (2)

𝑃𝑠𝑖 =1.1𝜎𝑦2𝑡

𝐷 (3)

4.3.3. DNV-RP-F101

Este método fue publicado por la organización noruega DNV en una guía para evaluar la

corrosión en tuberías [9]. Específicamente, se realizó con pruebas a gran escala y análisis

numéricos de los defectos de corrosión [9]. De acuerdo al método, la presión de estallido

(𝑃𝑠𝐷𝑁𝑉) se calcula mediante las siguientes ecuaciones [20]:

𝑃𝑠𝐷𝑁𝑉 = 1.05 ∗ [

2𝑡𝑓𝑢 (1 −𝑑𝑡 )

(𝐷 − 𝑡) (1 −𝑑

𝑡𝑄)] (4)

Page 15: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

15

Donde,

𝑄 = √1 + 0.31 (𝑙

√𝐷𝑡)

2

(5)

4.4. Cálculo del ERF

Una vez realizada la estimación de la presión de estallido, que determina la magnitud del

estado del defecto de corrosión, es posible calcular el factor estimado de reparación, ERF

por sus siglas en inglés. Este factor permite jerarquizar las anomalías reportadas en una

misma tubería al tomarse como un criterio del tiempo de vida restante [12]. Entre mayor sea

este factor, la integridad de la tubería es más crítica. Además, si el ERF toma valores

mayores a 0.95 o 1, indica que la tubería requiere de una reparación inmediata en la zona

afectada por el defecto [12]. Este factor se estima de la siguiente manera:

𝐸𝑅𝐹 =𝑀𝐴𝑂𝑃

𝐷𝐹 ∗ 𝑃𝑠 (6)

Donde,

𝑆𝑀𝑂𝑃 = 𝐷𝐹 ∗ 𝑃𝑠 (7)

En las ecuaciones anteriores, 𝑀𝐴𝑂𝑃 hace referencia a la máxima presión de operación

admisible, es decir, la presión máxima que la tubería puede resistir antes de sufrir una

deformación plástica [12]. Respecto a 𝐷𝐹, esta hace referencia a un factor de diseño de la

tubería que va a depender de la norma con la que se realice (B31G, DNV, etc.) [12]. Tanto

el 𝑀𝐴𝑂𝑃 como el 𝐷𝐹, son variables determinadas durante el proceso de diseño de la

tubería. Finalmente, 𝑃𝑠 es la presión de estallido estimada en la sección anterior.

4.5. Inspección periódica de los defectos de corrosión

Después de haber detectado y cuantificado los defectos de corrosión, es indispensable

dentro un programa de gestión de integridad, establecer una metodología de inspección

continua y un mantenimiento periódico a través de políticas que incluyen intervalos óptimos

de inspección [22]. Si este intervalo es demasiado corto, se realizarán inspecciones y

acciones de mitigación innecesarias, mientras si el intervalo de inspección es demasiado

largo se podrían desencadenar fallas debidas a la criticidad de los defectos [23]. Es todo un

reto establecer el intervalo óptimo principalmente por las diferentes incertidumbres que se

involucran en la toma de decisiones [23].

Page 16: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

16

Como primera fuente de incertidumbre se encuentran los errores asociados a la

herramienta de medición. Específicamente, existen errores debidos a umbrales de

detección, medición y reporte, a errores de detección, a errores por falsas alarmas y a

errores de localización [24]. En segundo lugar, el deterioro o degradación de las paredes

de la tubería debido a la corrosión también es incierto. Esto se debe principalmente a que

el crecimiento del defecto de corrosión tanto individual como en agrupaciones varía con el

tiempo [23]. En otras palabras, se tiene una incertidumbre asociada a la tasa de crecimiento

del defecto de corrosión. En tercer lugar, la geometría de la tubería, las propiedades del

material, y la presión interna son valores inciertos en la realidad [23]. Finalmente, los

modelos de capacidad para tuberías corroídas también tienen asociados un nivel de

variabilidad [23]. Todas estas incertidumbres mencionadas deberían tenerse en cuenta al

momento en el que se determine el intervalo de inspección óptimo.

El principal reto consiste en calcular la tasa de crecimiento de los defectos de corrosión

debido a que está sujeta a incertidumbres significativas y a la variabilidad de las

características del flujo o de las condiciones preexistentes [25]. Por ejemplo, los defectos

de corrosión están influenciados por parámetros como: temperatura, presión, flujo (régimen

y velocidad), pH, concentraciones de producto de corrosión disuelto, soldaduras, humedad,

y hasta la historia del metal usado [26]. La influencia de cada uno de estos factores es muy

poco conocida. Sin embargo, un pequeño cambio de alguno puede afectar

significativamente el crecimiento de la tasa de corrosión. Además, algunos de ellos están

estrechamente relacionados entre sí [26]. Con el objetivo de tener la mayoría de variables

de incertidumbre en cuenta, se han propuesto diferentes modelos desde una perspectiva

de seguridad o desde el punto de vista de la relación costo-beneficio.

Desde el punto de vista de la seguridad, la selección del intervalo óptimo de inspección se

realiza basado en criterios de confiabilidad como probabilidades de falla [23]. Desde esta

perspectiva, se encuentran estudios como el de Provan y Rodriguez [27], que desarrollaron

un modelo basado en un proceso de Markov para tener en cuenta el crecimiento de los

defectos de corrosión y de esta manera, determinar el tiempo de inspección óptimo. Para

esto, tuvieron en cuenta la incertidumbre en la detección del defecto por parte de las

herramientas de inspección, pero ignoraron la incertidumbre de la medición de estas

mismas. Hong [28] también empleó un proceso de Markov para modelar el crecimiento de

defectos de corrosión, y además, incorporó la incertidumbre de detección y de medición de

la herramienta de inspección en la determinación de una probabilidad de falla.

Page 17: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

17

Adicionalmente, utilizó un proceso de Poisson para modelar la generación de nuevos

defectos. En otro trabajo de Hong [29], el crecimiento del tamaño del defecto de corrosión

se modela como una cantidad aleatoria, independiente del tiempo. Finalmente, Morrison y

Worthingham [30], usaron el mismo modelo de crecimiento de los defectos de corrosión.

Sin embargo, no tuvieron en cuenta la incertidumbre de detección ni la incertidumbre de

medición de las herramientas de inspección.

De la selección del intervalo óptimo de inspección basado en la relación costo-beneficio,

también se han presentado varios trabajos interesantes. Cheng y Pandey [31], utilizaron

metodologías analíticas para determinar el intervalo de inspección óptimo. Para esto,

consideraron la degradación del sistema como un proceso gamma homogéneo. Además,

la inspección interna óptima se seleccionó en función de la regla de costo mínimo esperado.

Gomes et al. [32] utilizaron un enfoque basado en una simulación para determinar el

intervalo de inspección óptimo según la regla del mínimo costo esperado. En esta

simulación se incorporó un modelo de ley de potencia para describir el crecimiento de la

profundidad del defecto. En este trabajo, la incertidumbre de detección de los defectos fue

tenida en cuenta, pero se ignoraron los errores de medición y la generación de nuevos

defectos de corrosión. Finalmente, Zhang y Zhou [23] utilizaron una simulación de Monte

Carlo para determinar el intervalo de inspección óptimo. Para esto, consideraron la

generación de nuevos defectos, mediante un proceso de Poisson no homogéneo, y el

crecimiento de los defectos de corrosión mediante un proceso de gamma homogéneo.

Además, utilizaron la regla del costo mínimo esperado y tuvieron en cuenta, las

incertidumbres de detección y de medición de los defectos.

En resumen, los trabajos presentados buscan principalmente describir el proceso de

crecimiento de la corrosión o, en otras palabras, describir el proceso de degradación

progresiva de la estructura de las paredes de la tubería.

4.6. Modelos de crecimiento de defectos de corrosión

De acuerdo con Amaya et al. [33] y su revisión bibliográfica existen diferentes enfoques

para modelar el crecimiento de los defectos de corrosión: (i) descripciones fenomenológicas

[34] [35]; (ii) ajustes de variables aleatorias [36] [37]; (iii) procesos estocásticos [38]; (iv)

procesos de simulación [39] [40]; (v) enfoques empíricos [41] [42] y (vi) enfoques

determinísticos [43]. Sin embargo, estos enfoques tienden a ser evaluaciones muy

detalladas o muy simplificadas que conllevan a restricciones para su uso.

Page 18: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

18

Por un lado, los enfoques empíricos y determinísticos no tienen en cuenta el proceso de

degradación y sus incertidumbres asociadas [33]. Por otro lado, las descripciones

fenomenológicas y los enfoques de simulación requieren de recursos computacionales

significativos al intentar describir en detalle cada uno de los mecanismos [33]. Como punto

intermedio están los procesos estocásticos que, aunque permiten tener en cuenta el

mecanismo de degradación y las incertidumbres asociadas, modelar todo en conjunto

puede llegar a ser algo complejo. A pesar de esto, describir adecuadamente el crecimiento

de la corrosión es una parte esencial en los programas de gestión de la integridad de la

tubería. Dependiendo que tan bien se haga, se pueden obtener mejores predicciones del

estado de la integridad de la tubería entre inspecciones programadas y de esta manera, se

puede evitar cualquier posible falla [33].

Se puede construir un modelo de crecimiento de defectos de corrosión no solo a partir de

una base de datos tomados mediante una herramienta de inspección en línea (ILI), sino

también, mediante el uso de datos simulados [44]. Por ejemplo, Timashev y Bushinskaya

[44] proponen un método de simulación de Monte Carlo para crear las profundidades de

defectos simulados utilizando una distribución lognormal. Con estos defectos simulados, se

construye un modelo de ecuaciones diferenciales y se compara con un modelo Pure Birth

Markov Model construido a partir de datos ILI, obteniendo resultados muy similares. Sin

embargo, según Xie y Tian [5], con los modelos basados en datos tomados a través de una

herramienta de inspección en línea se obtienen mejores estimaciones del crecimiento de

los defectos de corrosión siempre y cuando, estén disponibles múltiples conjuntos de datos

de ILI. En el presente proyecto se entrenarán modelos de Machine Learning a partir de una

base de datos de defectos de corrosión obtenidos mediante una herramienta de inspección

en línea.

4.7. Modelos de Machine Learning

En la actualidad, los modelos de Machine Learning han demostrado tener la capacidad para

adaptar y extraer conocimiento en una variedad de problemas y contextos complejos [45].

Específicamente, estos modelos tienen la capacidad de encontrar patrones confusos en los

datos y aprender de ellos sin la necesidad de depender de un modelo predeterminado.

Además, son capaces de realizar predicciones sobre nuevos datos a partir de lo aprendido

[45]. Por ejemplo, Campos et al [45] presentan un estudio exploratorio de técnicas de

Machine Learning como soporte de predicción de fallas de software. En este estudio,

demuestran que los modelos de Machine Learning tienen el potencial de crear modelos de

Page 19: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

19

predicción precisos en el contexto propuesto. Inspirado en este estudio, el presente

proyecto busca aplicar técnicas de Machine Learning como soporte de predicción de fallas

en tuberías de transporte de la industria petrolera. Específicamente, se aplican a la

predicción del estado de un defecto de corrosión.

En la literatura, se encontraron aplicaciones de algoritmos de Machine Learning para el

contexto planteado especialmente orientados a la detección y evaluación del estado de los

defectos de corrosión. Respecto a la detección, Zajam et al. [46] investigaron la aplicabilidad

del modelo de Support Vector Machine y un análisis wavelet sobre vibraciones con el

objetivo detectar varios tipos de defectos en la tubería a partir de esta variable respuesta.

También, se encuentra el ejemplo de Bastian et al. [47], los cuales proponen una red

neuronal convolucional para clasificar imágenes de una tubería a partir de su nivel de

corrosión. De esta forma, se discrimina imágenes de la tubería entre aquellas que tienen

corrosión y aquellas que no. Finalmente, Liu et al. [48] implementan modelos como Support

Vector Machine, árboles de decisión, Random Forest, y ensambles para realizar el proceso

de coincidir defectos en múltiples corridas de inspección en línea a partir de sus

características. A esta aproximación se le conoce como análisis defecto a defecto.

Respecto a los ejemplos de modelos que evalúan el estado de los defectos, se encuentra

el presentado por Gentile et al. [25]. En este se propone un modelo de regresión

multivariable para establecer que factores tienen una mayor influencia en la determinación

de la tasa de crecimiento de corrosión. Además, se propone un modelo de una red neuronal

artificial para poder determinar un valor adecuado de la tasa de corrosión. Sin embargo,

como se mencionó anteriormente, estas aplicaciones están orientadas hacia la evaluación

actual de la integridad de la tubería. Es decir, se analiza la tubería en el mismo instante de

tiempo. En el presente proyecto, el valor agregado está en el hecho de que se busca aplicar

los modelos de tal forma que se pueda evaluar los defectos de corrosión en la tubería en

instantes de tiempo diferentes, de tal manera, que se pueda predecir su crecimiento.

Específicamente, este proyecto busca implementar los algoritmos de Machine Learning de

tal forma que permitan predecir el factor estimado de reparación (ERF) de los defectos de

corrosión en una inspección futura. Para este propósito, se propondrá una segmentación

de la tubería que permita la identificación de zonas críticas debido a la corrosión.

Posteriormente, se propondrán modelos de aprendizaje supervisado para que sean

entrenados con datos que pertenecen a una base de reportes generada por una

herramienta de inspección en línea (ILI) a una tubería tomada como caso de estudio. Estos

Page 20: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

20

datos se pre-procesarán de tal forma que describan el estado actual de la integridad de los

defectos de corrosión en las zonas críticas (dimensiones, ERF, entre otras). A partir del

entrenamiento realizado, se buscará encontrar patrones complejos en los datos de tal

forma, que se pueda realizar predicciones sobre el ERF que permitan identificar cuales

defectos serán críticos en una próxima inspección. De esta manera, este trabajo busca

soportar la toma de decisiones en pro de prevenir pérdidas de contención al identificar

secciones críticas que luego deben ser evaluadas para su mantenimiento.

Page 21: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

21

5. METODOLOGÍA

La metodología general propuesta en este documento para evaluar la integridad de la

tubería basada en mediciones de defectos de corrosión realizadas por ILI y mediante la

predicción del factor estimado de reparación (ERF) se muestra en el diagrama de flujo

presentado en la Figura 3. Esta es una metodología que se basa en la presentada por Liu

et al. [48] con algunas modificaciones que la adaptan al objetivo de este proyecto.

Figura 3. Esquema de la metodología propuesta. Modificación de [48].

Page 22: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

22

Específicamente, la metodología se divide en cuatro grandes secciones. En la primera

sección, se realiza una exploración de la base de datos. En la segunda sección, se realiza

una segmentación de la tubería para identificar zonas vulnerables a la corrosión y para

poder analizarla en periodos de tiempo diferentes. En la tercera sección, se realiza un pre-

procesamiento de la base de datos y se divide en dos partes, una para realizar el

entrenamiento y otra para realizar la prueba del modelo. En general, en esta tercera sección

se entrena cada uno de los modelos propuestos (con los datos de entrenamiento), se

calibran los parámetros específicos, se validan los modelos obtenidos y finalmente, se

prueba cada uno de ellos (con los datos destinados para prueba). En la última sección, se

evalúa los modelos como parte del proceso de toma de decisiones para la asignación de

tareas de reparación a lo largo de la tubería. Esta metodología se describirá con más detalle

a continuación:

5.1. Base de datos ILI

De acuerdo con el Foro de Operadores de Tuberías (POF) [49], el resultado de una

inspección en línea (ILI) contiene: (i) un reporte de los componentes y anomalías

encontradas de la tubería, (ii) un reporte específico de las anomalías encontradas y (iii) un

reporte de agrupaciones.

En el primer reporte, se especifica cada uno de los componentes (como válvulas, puntos

de soldaduras, accesorios tipo te, entre otros) y cada una de las anomalías identificadas

(como corrosión, grietas, abolladuras, desprendimientos, ovalidad, entre otras). Cada uno

de estos se caracterizan mediante: parámetros de ubicación como la distancia longitudinal

y la orientación usando la analogía de la posición horaria (ver Figura 4); parámetros

estructurales como diámetro externo, espesor de la pared, presión de diseño, la máxima

presión de operación admisible (MAOP), entre otros; y por último, la información respecto

a las anomalías o irregularidades encontradas [49].

Figura 4. Localización y orientación de los componentes y anomalías encontradas en ILI. (a) Vista

Longitudinal. (b) Vista transversal. [50]

Page 23: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

23

En el segundo reporte, se especifica mucho más la información respecto a las anomalías

encontradas. También se detallan todos los defectos con sus parámetros de ubicación y

orientación como se observa en la Figura 4 [49]. Además, se especifican las dimensiones

ancho, largo y profundidad de cada uno de los defectos mediante una aproximación

conservadora a un rectángulo, como se observa en la Figura 5 [49]. Finalmente, se reporta

el tipo de defecto y una clasificación del mismo [49]. Para este proyecto es de interés este

reporte dado que caracteriza las anomalías o defectos presentes en la tubería.

Específicamente, es de interés aquellos registros referentes al tipo de anomalía de

corrosión.

Figura 5. Dimensionamiento de los defectos. [49]

El tercer reporte indica aquellos defectos de corrosión que fueron agrupados. Para esto, se

tienen dos reglas de interacción: la primera es que se agrupan dos defectos de corrosión si

la distancia entre ellos (longitudinal o circunferencialmente) es menor a seis veces el

espesor de la pared y la segunda, es que se agrupan si la distancia entre ellos es menor

que la mínima extensión de los dos defectos (es decir, longitud o ancho, respectivamente)

[49]. En la Figura 6 se puede observar cómo funcionan las reglas de agrupación.

Page 24: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

24

Figura 6. Ilustración de agrupación de defectos mediante las reglas de interacción. [36]

Es muy importante destacar que los reportes de la inspección en línea involucran

incertidumbres sobre la caracterización de los defectos identificados. Inicialmente, se tiene

una probabilidad asociada a la detección de los defectos determinada a partir de la

condición de la tubería y suele ser del 90% o mayor [36]. Esto conlleva a que no se reporte

la totalidad de los defectos que tiene la tubería. Adicionalmente, se presenta incertidumbre

en las mediciones realizadas sobre los defectos. Por ejemplo, en el largo, el ancho o en la

posición del defecto. También, es posible que la herramienta de inspección en línea detecte

falsas alarmas, es decir, reporta defectos en la tubería que realmente no existen.

Finalmente, dependiendo de la herramienta de MFL (Magnetic Flux Leakage) y de UT

(Ultrasonic Tool) incorporada en el Smart Pig, existe un umbral de detección que determina

desde que espesor de la tubería merece reportar un defecto de corrosión. En general, para

herramientas MFL el umbral suele ser del 5% y de 0.5 mm para herramientas UT [49]. A

pesar de esto, se busca que la variabilidad que se genera en los datos por los errores de

medición sea capturada por los modelos propuestos en la presente metodología. Para

mitigar el efecto de los errores de detección se buscará segmentar la tubería en secciones

que incorporen más de un defecto de tubería. Respecto a las falsas alarmas, estas se

tratarán en el pre-procesamiento de los datos. En relación con el umbral de reporte se

consideran los datos no reportados como defectos que no tienen la gravedad suficiente

para pensar que en una próxima inspección se conviertan en defectos de corrosión críticos.

De lo mencionado anteriormente, se puede visualizar un ejemplo en la Figura 7.

Page 25: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

25

Figura 7. Ilustración del efecto de los errores de medición y el umbral de reporte de ILI. [51]

Cabe mencionar que la metodología propuesta en este documento se presenta de forma

general para que pueda ser usada a partir de cualquier base de datos generada por una

herramienta de inspección en línea (ILI). Adicionalmente, es necesario tener en cuenta que

se requiere de una base de datos compuesta por al menos dos corridas de inspección en

línea de la tubería. Esto se debe principalmente a que con la primera corrida se realiza un

proceso de segmentación y se evalúa el estado de los defectos de corrosión para tratar de

predecir el factor estimado de reparación (ERF) en una siguiente inspección. Dado que se

requiere información para entrenar los modelos, es fundamental conocer el estado de los

defectos de corrosión en la siguiente inspección. Por este motivo, es necesario contar con

al menos dos corridas ILI en la base de datos.

Page 26: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

26

5.2. Exploración de la base de datos

Como se había mencionado anteriormente, la base de datos está compuesta de tres tipos

de reportes, de los cuales el segundo tipo es el de interés para el presente proyecto. Este

tipo de reporte caracteriza cada una de las anomalías encontradas. Para cada uno de estos

reportes, la herramienta ILI caracteriza los defectos de corrosión mediante 13 variables que

se muestran en la Tabla 1 [49].

Tabla 1. Descripción de las variables reportadas por la herramienta de inspección en línea para los defectos

de corrosión.

Nombre de la variable

Descripción de la variable Unidades de reporte

Tipo de Variable

𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔 Distancia longitudinal de registro del defecto de corrosión desde el punto de referencia. Ver Figura 4a.

Metros Continua

𝑝𝑜𝑠𝐻𝑜𝑟𝑎𝑟𝑖𝑎 Posición horaria en la tubería del defecto. Ver Figura 4b.

Hora:Minuto -

𝑠𝑢𝑝𝑒𝑟𝑓𝑖𝑐𝑖𝑒 Superficie en la que se localiza el defecto. Interna o Externa.

- Binaria

𝑙𝑎𝑟𝑔𝑜 (𝐿) Longitud del defecto. Ver Figura 5. Milímetros Continua

𝑎𝑛𝑐ℎ𝑜 (𝑊) Ancho del defecto. Ver Figura 5. Milímetros Continua

𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 (𝑑) Profundidad máxima del defecto expresada como el porcentaje en comparación con el espesor.

% Continua

𝑝𝑟𝑜𝑓𝑃𝑟𝑜𝑚 Profundidad promedio del defecto de corrosión expresada como el porcentaje en comparación con el espesor.

% Continua

𝐸𝑅𝐹 Factor estimado de reparación (ERF) del defecto.

- Continua

𝑃𝑏𝑢𝑟𝑠𝑡 Presión de estallido. Presión segura que previene un estallido.

PSI Continua

𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎 Distancia a la soldadura más cercana. Metros Continua

𝑗𝑢𝑛𝑡𝑎 Número de la junta en la que se encuentra el defecto.

- Discreta

𝑒𝑠𝑝𝑒𝑠𝑜𝑟𝐽𝑢𝑛𝑡𝑎 Espesor de la pared de la junta en la que se encuentra el defecto.

Milímetros Continua

𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛

Clasificación del defecto a partir de sus dimensiones y de un parámetro geométrico A. Permite tener una idea de la forma de la corrosión. Ver Figura 8.

- Discreta

Page 27: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

27

Figura 8. Diagrama de clasificación de los defectos. Si el espesor de la tubería es menor a 10 mm, entonces

A = 10 mm, de lo contrario, A = Espesor de la pared. [49]

A partir de estas variables, es conveniente realizar una exploración y limpieza de los datos

de tal forma que se identifiquen errores o valores ausentes en los datos. Por ejemplo, en la

base de datos se encuentran tanto los reportes de las agrupaciones como los reportes

individuales de los defectos agrupados. Dado esto, es necesario eliminar aquellos reportes

de los defectos que fueron agrupados con el motivo, de considerar la agrupación como un

único defecto. También, existe el caso de las observaciones que no se les reporta el ERF.

Como se cuenta con la información de las dimensiones de los defectos, es posible calcular

el ERF para cada uno utilizando, por ejemplo, la ecuación (1) o (4). Esta ecuación debe

hacer referencia al estándar con el que la herramienta reporta los ERF de tal forma, que se

es congruente con los demás datos que sí están reportados.

Adicionalmente, es importante identificar que variables se encuentran en diferente

proporción de tal manera, que se evalúe si es correcto tener en cuenta dicha variable o si

puede llegar a generar ruido en los modelos [52]. Además, es importante identificar aquellas

variables con varianza próxima a cero. Esto dado a que, si una variable tiene el mismo o

casi el mismo valor para todas las observaciones, su varianza es igual o próxima a cero.

Frente a esta situación, es conveniente excluirla dado que puede añadir al modelo más

ruido que información [52].

Page 28: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

28

Finalmente, es útil observar la correlación entre las variables reportadas por la herramienta

de inspección en línea. Esto para conocer qué tipo de relación existe entre las variables

predictoras y la variable respuesta. Asimismo, para conocer la relación entre las variables

predictoras dado que si un par de variables están muy correlacionadas pueden conllevar a

problema de multicolinealidad en modelos como por ejemplo la regresión lineal. Para esto

se puede determinar la matriz de correlaciones la cual permite conocer la relación entre

cada par de variables.

5.3. Segmentación – Clustering

Una vez realizada la exploración de los datos se propone establecer una segmentación de

la tubería de tal forma, que se establezcan zonas críticas afectadas por la corrosión y con

el objetivo de poder evaluar y analizar la tubería en dos instantes de tiempo diferentes.

Específicamente, la segmentación es el proceso de dividir las tuberías en sectores que

puedan usarse como una unidad para la evaluación de la integridad [6]. Dado esto, se

crearán segmentos de diferente longitud que agruparán un número de defectos de corrosión

reportados como se puede observar en la Figura 9. Esto se realiza con tres motivos

principales. El primer motivo es que se busca controlar la variabilidad e incertidumbre

generada tanto por los errores de medición como los errores de detección de la herramienta

de inspección [53]. La segunda justificación consiste en considerar el comportamiento de

las posibles interacciones que se pueden generar entre defectos de corrosión, problema

que ya se había mencionado anteriormente en la sección 4.1 como colonias de corrosión.

Figura 9. Ilustración de la segmentación de la tubería. Modificación de [53].

La última justificación de la segmentación, pero no menos importante, radica en el

crecimiento de los defectos de corrosión (ver Figura 10). Esto conlleva a que los defectos

no sean caracterizados de la misma manera en inspecciones realizadas entre tiempos

Page 29: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

29

diferentes [48]. Principalmente, se debe a cambios de los reportes tanto en la ubicación

como en el dimensionamiento de cada uno. Por consiguiente, al intentar hacer la

correspondencia para analizar el crecimiento del defecto, entre los reportes de las dos

inspecciones realizadas, puede llegar a ser un trabajo dispendioso y de gran tiempo de

dedicación [48]. Especialmente, si se realiza manualmente que es como es como

comúnmente se suele hacer en los modelos que intentan describir el crecimiento y el tiempo

de falla de un defecto [48]. Frente a esto, al considerar la tubería como un sistema de

segmentos es posible analizar los defectos de corrosión en dos instantes de tiempo

diferentes al tomarse cada segmento como una unidad que contiene dichos defectos.

Figura 10. Ilustración del crecimiento de la corrosión. [48]

Dado que el objetivo de la presente metodología es analizar un estado actual de la corrosión

de la tubería para poder realizar una predicción del estado de los defectos en una

inspección futura, la segmentación se realiza sobre los reportes de la primera inspección

de la base de datos de ILI. De esta manera, se utiliza esta información como estado actual

de la tubería para predecir el estado de la integridad en la segunda corrida de inspección.

5.3.1. Tipos de segmentación

Según Amaya et al. [6] , el tamaño de los segmentos generados puede ser un valor estático

o dinámico. Si es estático quiere decir que cada segmento tiene un tamaño fijo, inicialmente

predefinido. Este valor puede ser arbitrario, por ejemplo, 1 kilómetro, o puede asociarse al

tamaño de las juntas de la tubería o inclusive, puede ser definido a partir de componentes

de particular interés como las válvulas [6]. Sin embargo, según Amaya et al. [6] “la

segmentación estática conlleva a una variabilidad significativa en los resultados de la

evaluación de riesgos, generando inclusive, aumentos en los costos de intervención debido

Page 30: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

30

a evaluaciones innecesarias”. Además, “zonas críticas pueden ocultarse si los riesgos se

ponderan a lo largo de segmentos de gran tamaño” [6].

Por otro lado, la segmentación dinámica es adaptable a condiciones externas o mecánicas

[6]. Además, se realiza con la propiedad de que cada sección tiene caracterización

constante a lo largo del segmento [54]. Por ejemplo, Amaya et al [6] realizaron una

segmentación dinámica para determinar la longitud de cada sección a partir de la

probabilidad de falla de los defectos y determinaron que al utilizar la segmentación

dinámica, el proceso de crecimiento de la corrosión se estima mejor en comparación con la

segmentación estática. En el presente proyecto, se propone determinar los segmentos a

partir de modelos de aprendizaje no supervisado, concretamente mediante modelos de

Clustering, que permitan establecer zonas vulnerables (segmentos) de la tubería al

problema de corrosión mediante la agrupación de los defectos reportados.

5.3.2. Modelos de Clustering

Clustering hace referencia a un conjunto amplio de técnicas para encontrar subgrupos o

Clusters en una base de datos [52]. Esto lo realizan de tal manera que las observaciones

de cada grupo sean similares entre sí, mientras que las observaciones en distintos grupos

sean diferentes entre sí [52]. Para realizar esto, es necesario definir que significa que dos

o más observaciones sean similares o diferentes [52]. Dado que en este contexto lo que se

busca es crear zonas vulnerables (segmentos) de la tubería mediante la agrupación de los

defectos de corrosión que se encuentren cercanos entre sí, el criterio para establecer

similitud es la distancia entre ellos.

Para establecer la distancia entre los defectos, se utilizan los parámetros de localización y

orientación, es decir, la distancia longitudinal y la posición horaria de cada uno de los

reportes. A partir de estas dos variables, se calcula la distancia entre los defectos y aquellos

que estén más cercanos entre sí, se agrupan. Sin embargo, al observar las variables de la

Tabla 1, se puede identificar que la variable de la posición horaria se reporta mediante la

analogía de un reloj (ver Figura 5). Es decir, este valor se reporta en horas y minutos. Dado

esto, es necesario transformar esta variable para poder calcular adecuadamente las

distancias entre los defectos. Para esto, se determina la distancia de arco desde un punto

de referencia (0:00 horas) de tal manera, que se ubica cada uno de los defectos en el

perímetro de la tubería. Con esta ubicación (𝑦) y la localización mediante la distancia

longitudinal (𝑥), es posible calcular la distancia entre defectos.

Page 31: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

31

Existen diferentes formas de estimar la distancia entre los defectos: distancia Euclidiana,

Manhattan, máxima, Canberra, binaria, Minkowski, entre otras. En este documento, se

proponen dos formas en específico al ser las más utilizadas. La primera es la distancia

Euclidiana cuya fórmula se presenta en la ecuación (8) y el segundo criterio es la distancia

Manhattan la cual se presenta en la ecuación (9).

𝑑1,2 = √(𝑥1 − 𝑥2)2 + (𝑦1 − 𝑦2)2 (8)

𝑑1,2 = |𝑥1 − 𝑥2| + |𝑦1 − 𝑦2| (9)

En las anteriores ecuaciones, 𝑑1,2 hace referencia a la distancia entre los puntos centrales

del defecto 1 y del defecto 2. Además, 𝑥i hace referencia a la distancia longitudinal y 𝑦i a la

posición horaria del defecto i. Con estos criterios, se realiza la segmentación mediante el

modelo de Clustering jerárquico dado que es uno de los más conocidos y porque la

metodología de construcción de los Clusters va acorde con el contexto propuesto [52]. A

continuación, se da una breve explicación de la metodología del modelo propuesto.

5.3.3. Clustering Jerárquico

En el modelo de Clustering jerárquico no se conoce inicialmente cuantas agrupaciones se

quiere. En cambio, se determina una representación visual en forma de árbol de las

observaciones, llamado dendograma [52]. En la Figura 11, se observa un ejemplo de este

donde, haciendo la analogía de un árbol invertido, cada hoja hace referencia a una

observación y a medida que se sube a través del árbol, las hojas se fusionan en ramas [52].

Estas fusiones corresponden a observaciones que son similares entre sí. Entre más abajo

del dendograma se dé la fusión de las hojas y ramas, más similares van a hacer entre si las

observaciones y entre más arriba, va a ver una mayor diferencia [52]. En otras palabras, la

altura de fusión indica que tan similares o que tan diferentes son dos observaciones. Dentro

del contexto de este proyecto, dos observaciones (defectos) son más similares uno al otro,

si se encuentran cerca, es decir, si la distancia entre ellos es pequeña. De esta manera, se

logra ver todos los posibles agrupamientos desde 1 hasta 𝑛, siendo 𝑛 el número de

observaciones, es decir, cada observación es un grupo [52].

Page 32: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

32

Figura 11. Ejemplo de un dendograma para una base de datos de 45 observaciones. [52]

Para construir el dendograma, se realiza un proceso iterativo que comienza desde la parte

inferior del árbol tomando cada observación como un grupo [52]. Es decir, se inicializa con

𝑛 grupos. En la siguiente iteración, los dos grupos que son más similares se fusionan

formando 𝑛 − 1 grupos. A continuación, los dos grupos actuales que son más similares

nuevamente se fusionan, resultando en 𝑛 − 2 grupos [52]. De esta manera, se continúa con

el proceso iterativo hasta que solamente quede un grupo.

Para saber si dos grupos son similares entre sí, se utiliza el concepto de enlace o

vinculación. Este puede ser de cuatro tipos: completo, promedio, simple o centroide [52]. El

enlace completo toma como referencia a la máxima disparidad entre grupos. Para esto, se

calculan todas las diferencias entre cada una de las observaciones de un grupo 1 y las

observaciones del grupo 2, y se toma como similitud entre los dos grupos, la mayor de estas

diferencias [52]. Para este proyecto, las diferencias se interpretan como la distancias entre

un par de defectos. El enlace tipo simple es el opuesto al completo. Es decir, no se toma la

máxima diferencia sino por el contrario, se toma la mínima diferencia como similitud entre

grupos. Esto puede conllevar a que resulte una gran cantidad de grupos en las que se fue

fusionando cada observación una a la vez y no por grupos [52]. Respecto al enlace tipo

promedio, no se toma ni la mínima ni la máxima diferencia sino más bien se toma el

promedio de todas las diferencias. Finalmente, el enlace tipo centroide consiste en calcular

el centroide (vector medio de longitud 𝑝 variables) para los defectos del grupo 1 y los

defectos del grupo 2 y la similitud va a depender de la diferencia entre los dos centroides.

Page 33: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

33

Figura 12. Ejemplo del uso de los diferentes tipos de enlace para un mismo caso de estudio. [52]

De todos estos tipos de enlace, el completo y el promedio son los más utilizados porque

los enlaces simples tienden a generar dendogramas desequilibrados y los enlaces tipo

centroide tienden a generar dificultades de interpretación [52]. Dado esto, el dendograma

va a depender significativamente del tipo de enlace a utilizar (ver Figura 12). En el presente

proyecto se propone evaluar el método de Clustering jerárquico mediante los enlaces tipo

completo, promedio y simple.

5.3.4. Caracterización de los Clusters

Al realizar el proceso de Clustering sobre los reportes obtenidos en la primera inspección,

cada uno de los segmentos agrupa un número de defectos de corrosión. Como

consecuencia de esto, se divide la tubería en diferentes segmentos o Clusters de distinta

longitud. Dicha longitud está definida por los defectos que agrupa cada segmento.

Específicamente, se establece el límite inferior y el límite superior de cada uno de los

segmentos a partir de las distancias longitudinales de los defectos. El límite inferior de cada

segmento se determina ubicando aquel defecto agrupado con menor distancia longitudinal.

De ese defecto se toma distancia la distancia longitudinal, se le resta la mitad del largo del

defecto y se le resta un parámetro de precisión de longitud de la herramienta ILI (0.15m).

El mismo procedimiento se realiza con el límite superior para el cual, se ubica aquel defecto

agrupado con mayor distancia longitudinal. De ese defecto se toma la distancia longitudinal,

se le suma la mitad del largo del defecto y se le suma un parámetro de precisión de longitud

(0.15m). Al sumar y restar el parámetro de precisión de la longitud se busca tener en cuenta

Page 34: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

34

la incertidumbre de los parámetros de localización y, además, tener en cuenta parte del

posible crecimiento del defecto. A continuación, se presenta el procedimiento mediante la

ecuación (10) y (11) para determinar el límite inferior y el límite superior del segmento 𝑖,

respectivamente:

𝑙𝑖𝑚𝐼𝑛𝑓𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 −𝑙𝑎𝑟𝑔𝑜𝑘

2− 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (10)

𝑙𝑖𝑚𝑆𝑢𝑝𝑒𝑟𝑖𝑜𝑟𝑖 = 𝑑𝑖𝑠𝑡𝐿𝑜𝑛𝑔𝑘 +𝑙𝑎𝑟𝑔𝑜𝑘

2+ 𝑝𝑎𝑟á𝑚. 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 (11)

En las anteriores ecuaciones, 𝑘 hace referencia al defecto con menor y mayor distancia

longitudinal del segmento 𝑖 para el límite inferior y superior, respectivamente.

Por otro lado, dado que el objetivo es describir el estado de corrosión actual de la tubería

mediante los segmentos es necesario buscar variables que caractericen adecuadamente

cada uno de los segmentos. Puesto que solo se cuenta con la caracterización de cada uno

de los defectos de forma individual, se extrapola el concepto de que un defecto se

caracteriza por un perfil crítico definido por las dimensiones más grandes del defecto

(profundidad, ancho y longitud) [26]. De esta manera, un segmento se caracteriza a partir

del defecto más crítico, de tal forma, que se realicen predicciones, a partir de este, que

permitan identificar ubicaciones de la tubería donde la corrosión conllevaría potencialmente

a fallas en una próxima inspección.

Existen otras posibilidades de caracterizar el segmento como, por ejemplo, mediante un

promedio de todos los defectos o a partir del defecto menos crítico. Sin embargo, estas

opciones no permiten tener predicciones adecuadas de los defectos más críticos dentro del

segmento. Por lo cual, es posible que las predicciones no sean capaces de identificar

defectos de corrosión que resulten, por ejemplo, en pérdidas de contención. Esto

conllevaría a que la metodología propuesta perdiera el valor agregado de ser una

herramienta que facilite la toma de acciones de inspección, mantenimiento y reparación de

la tubería y que permita la prevención de fallas. Por este motivo, en el presente proyecto se

caracteriza el segmento mediante el defecto más crítico y otras variables adicionales.

El defecto más crítico se considera como aquel que tiene un mayor factor estimado de

reparación (ERF). Dado esto, después de realizar el proceso de segmentación de la tubería,

se debe buscar, para cada uno de los Clusters generados, el reporte del defecto que tenga

un mayor ERF entre los agrupados. De este defecto crítico, se toman el ERF y las

Page 35: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

35

dimensiones (largo, ancho y profundidad) para caracterizar el Cluster o segmento al que

pertenece.

Dado que se quiere tener en cuenta la variabilidad asociada a la formación de colonias se

crea una nueva variable que represente la distancia mínima que tiene el defecto crítico con

los defectos a su alrededor. También, se toma la distancia de la soldadura más cercana al

defecto más crítico porque las soldaduras suelen ser puntos de acumulación de material lo

que conlleva a la concentración de defectos de corrosión y de esta manera, puede ser un

foco de formación de colonias de corrosión. Finalmente, se calcula otra variable que

represente un estado general del segmento. Esta variable es el porcentaje del área afectada

del segmento por los defectos de corrosión.

En resumen, las variables que se usan para describir cada uno de los segmentos

determinados son las siguientes:

- 𝐸𝑅𝐹𝑚𝑎𝑥1𝑖: Factor estimado de reparación del defecto más crítico del segmento 𝑖

en la primera inspección.

- 𝑙𝑎𝑟𝑔𝑜𝑖: Longitud del defecto más crítico del segmento 𝑖 en la primera inspección.

- 𝑎𝑛𝑐ℎ𝑜𝑖: Ancho del defecto más crítico del segmento 𝑖 en la primera inspección.

- 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖: Profundidad del defecto más crítico del segmento 𝑖 en la primera

inspección.

- 𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖: Distancia a la soldadura más cercana del defecto más crítico del

segmento 𝑖 en la primera inspección.

- 𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎𝑖: Distancia mínima que tiene el defecto más crítico con los defectos a

su alrededor y que pertenecen al segmento 𝑖.

- %𝑎𝑓𝑒𝑐𝑡𝑎𝑐𝑖𝑜𝑛𝑖: Porcentaje del área afectada del segmento 𝑖 por los defectos de

corrosión.

Para poder analizar el estado de un segmento en dos inspecciones diferentes (realizadas

en tiempos distintos), se utiliza la segmentación realizada sobre la primera corrida de

inspección en los datos de la segunda. Así, se localiza el defecto más crítico en la segunda

inspección para cada uno de los segmentos y se evalúa el estado de la integridad de la

tubería mediante el nuevo ERF. Esta es la variable de respuesta que se busca predecir con

las variables que caracterizan los segmentos de la primera corrida:

- 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖: Factor estimado de reparación del defecto más crítico del segmento 𝑖

en la segunda inspección.

Page 36: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

36

De esta manera, cada segmento se convierte en una observación que conforma una nueva

base de datos con la que se entrenan los modelos de predicción. Cada observación es un

segmento que está caracterizado por las variables establecidas para la primera inspección

y tiene asociado un ERF de la segunda inspección.

5.3.5. Selección del mejor modelo de Clustering

Una vez descrita la forma como se caracterizan cada uno de los Clusters o segmentos, es

necesario determinar qué modelo de Clustering es el más adecuado. Principalmente, es

importante seleccionar el tipo de enlace (completo, promedio o simple) y el número de

Clusters o segmentos (𝑛) con los que se realiza el proceso de Clustering. Realizar esto a

través del dendograma no es procedimiento claro [52]. Por este motivo, en la presente

metodología se escoge aquel modelo con su respectiva configuración de parámetros que

minimice la variabilidad de los máximos ERF en la primera y la segunda corrida de

inspección. Para esto, se utiliza como indicador el error cuadrático medio (MSE) para

determinar la diferencia del ERF entre las dos inspecciones para cada uno de los 𝑛

segmentos generados. La ecuación para calcular este indicador se presenta a continuación:

𝑀𝑆𝐸 =∑ (𝐸𝑅𝐹𝑚𝑎𝑥1𝑖 − 𝐸𝑅𝐹𝑚𝑎𝑥2𝑖)2𝑛

𝑖=1

𝑛 (12)

5.4. Pre-procesamiento de los datos

Después de realizar el proceso de segmentación de la tubería y la respectiva

caracterización es indispensable realizar un tratamiento de la base de datos que se va a

utilizar para entrenar los modelos. Esto con la finalidad de que se utilicen correctamente en

los algoritmos y se obtengan mejores resultados.

Como primer paso se deben eliminar de la base aquellas observaciones que corresponden

a falsas alarmas y a reparaciones. Las falsas alarmas se identifican por aquellos segmentos

que no tienen defectos de corrosión en la segunda inspección. Es decir, aquellas

observaciones que no tienen asociado ningún ERF en la segunda inspección. Respecto a

las reparaciones, se identifican al observar que el ERF disminuye en la segunda corrida de

inspección en comparación con el ERF determinado para la primera inspección. Estas

deben eliminarse para eliminar el ruido que genera la incertidumbre asociada a las

reparaciones realizadas.

Page 37: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

37

Finalmente, después de haber realizado el pre-procesamiento, se divide la base de datos

en dos partes. Una parte es destinada para el entrenamiento de los modelos en el cual se

busca que el modelo aprenda, a partir de las observaciones, como estimar la variable

respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) [52]. Con la segunda parte, se busca evaluar la precisión del modelo

al probarlo con datos con los que no ha sido entrenado, es decir, con datos que el modelo

no ha “visto” [52]. Sin embargo, antes de realizar esto es necesario comprobar que la base

de datos esté correctamente balanceada respecto a la variable respuesta. Esto porque se

quiere que los modelos aprendan correctamente a predecir tanto segmentos que serán

críticos como los que no en una próxima inspección. Un segmento será crítico cuando en

una próxima inspección se caracterizará por tener un ERF mayor a 0.90. Es muy posible

que la base de datos esté no balanceada respecto a los segmentos que no serán críticos

porque los conjuntos de datos del mundo real se componen predominantemente de

ejemplos “normales” con solo un pequeño porcentaje de observaciones “anormales” [55].

Frente a esta situación, si se entrena los modelos con la base de datos desbalanceada, es

muy probable que los modelos tiendan a subestimar la criticidad de los segmentos en una

próxima inspección. Por tal motivo, es fundamental balancear la base de datos.

Por un lado, si la cantidad de datos es lo suficientemente grande, se puede realizar un

balanceo manual donde se seleccione un porcentaje similar entre los datos de segmentos

que serán críticos y los que no. Por otro lado, si no se cuenta con la cantidad de datos

suficiente, se pueden utilizar técnicas de Oversampling, que permitan aumentar el número

de observaciones de la clase minoritaria, o técnicas de Undersampling, que permitan

disminuir las observaciones de la clase mayoritaria.

5.4.1. SMOTE

En el presente proyecto, se propone utilizar la técnica de Synthetic Minority Over-Sampling

Technique (SMOTE). Este es un método que combina el Oversampling de la clase

minoritaria y el Undersampling de la clase mayoritaria [55]. El Oversampling se realiza

generando observaciones sintéticas a partir de las observaciones que actualmente se

tienen. Esto se realiza tomando muestras de la clase minoritaria e introduciendo ejemplos

sintéticos entre la muestra [55]. El Undersampling se realiza eliminando aleatoriamente

muestras de los datos de la clase mayoritaria hasta que la clase minoritaria se convierta en

un porcentaje específico de la clase mayoritaria [55]. De esta manera, se busca generar

una base de datos con observaciones balanceadas respecto a si el ERF es crítico o no en

la segunda inspección.

Page 38: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

38

Antes de realizar el SMOTE se toma aleatoriamente el 70% del número de observaciones

clasificadas como críticas para incluirlas dentro de la base destinada para prueba. Esto con

el objetivo de probar los modelos con datos que si son reales. Con el 30% de observaciones

restantes y las observaciones clasificadas como no críticas se realiza el SMOTE obteniendo

nuevas observaciones sintéticas clasificadas como críticas y eliminando observaciones

clasificadas como no críticas. Esto con el objetivo de balancear los datos. La totalidad de

estas observaciones generadas con el método SMOTE se destinan para la base de

entrenamiento. Para complementar la base de prueba con observaciones no críticas se

seleccionan aleatoriamente, de las observaciones originales, una cantidad suficiente para

que la base de prueba quede igual de balanceada, entre críticos y no críticos, a la base de

entrenamiento.

5.5. Entrenamiento de los modelos

Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine

Learning. Para realizar el ajuste de los modelos propuestos se utiliza la parte de la base de

datos destinada para el entrenamiento. Dado que se quiere desarrollar un modelo preciso

que pueda ser usado para predecir una variable respuesta con base en variables de

entrada, se deben considerar los modelos supervisados. Adicionalmente, dado que la

variable de respuesta es de tipo cuantitativa, es decir, de valores numéricos continuos, los

modelos más adecuados son los de regresión. En el presente proyecto se propondrán tres

algoritmos en específico del tipo mencionado: regresión lineal, regresión con componentes

principales y Random Forest. El primero, regresión lineal, se propone para tener como base

un modelo clásico de predicción. El segundo modelo, regresión con componentes

principales, se propone para tener un punto de comparación en caso de existan variables

correlacionadas. Por último, se propone el modelo de Random Forest para tener un punto

de comparación con un modelo mucho más moderno y cuyo principal objetivo es tener un

alto nivel de predicción. A continuación, se realiza una descripción de la metodología de

cada uno de los métodos propuestos:

5.5.1. Regresión lineal

El método de regresión lineal es un enfoque muy simple pero muy útil y ampliamente

utilizado dentro de las herramientas de aprendizaje estadístico [52]. Es un método que

permite predecir una respuesta cuantitativa y, además, sirve como un buen punto de partida

para comparar herramientas más modernas [52]. En general, este modelo busca predecir

una variable de respuesta 𝑌 a partir de múltiples variables (𝑝) predictoras 𝑋′𝑠. Para esto,

Page 39: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

39

asume que existe una relación aproximadamente lineal entre las 𝑋′𝑠 y 𝑌 [52].

Matemáticamente, el modelo se puede escribir de la siguiente manera:

𝑌 = 𝛽𝑜 + 𝛽1𝑋1 + 𝛽2𝑋2 + ⋯ + 𝛽𝑝𝑋𝑝 (13)

En la ecuación (13), los 𝛽𝑗 son los coeficientes o parámetros del modelo de regresión lineal.

Sin embargo, son constantes no conocidas que pueden ser estimadas a partir de los datos

destinados para el entrenamiento [52]. Estas estimaciones son los �̂�𝑗 con los cuales se

puede llegar a hacer una predicción �̂� de la variable respuesta. Matemáticamente, la

predicción se puede observar de la siguiente manera:

�̂� = �̂�𝑜 + �̂�1𝑋1 + �̂�2𝑋2 + ⋯ + �̂�𝑝𝑋𝑝 (14)

Para estimar los coeficientes de regresión �̂�𝑗, existen un gran número de formas que lo

hacen con gran precisión [52]. Sin embargo, la forma más utilizada es mediante el criterio

de mínimos cuadradados. En este, se selecciona los �̂�𝑗 de tal manera que se minimice la

suma de los residuos al cuadrado:

𝑅𝑆𝑆 = ∑(𝑦𝑖 − �̂�𝑖)2

𝑛

𝑖=1

(15)

5.5.2. Regresión con componentes principales

En el anterior método de regresión lineal, la predicción se realizaba a partir de las variables

o predictores originales. En este algoritmo, se busca transformar los predictores para

después ajustar un modelo de mínimos cuadrados usando las variables transformadas [52].

Específicamente, la transformación consiste en crear 𝑀 < 𝑝 variables, 𝑍1, 𝑍2, … , 𝑍𝑀,

mediante una combinación lineal de los 𝑝 predictores originales de la siguiente manera [52]:

𝑍𝑚 = ∑ 𝜙𝑗𝑚𝑋𝑗

𝑝

𝑗=1

(16)

Como se puede observar en la anterior ecuación, cada 𝑍𝑚, también denominado

componente principal 𝑚, se determina a partir de la asignación de los pesos 𝜙𝑗𝑚 . Por

ejemplo, para el primer componente principal 𝑍1 los pesos se asignan de tal manera que se

defina una línea que sea lo más cercana posible a los datos [52]. En otras palabras, el

Page 40: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

40

primer principal componente captura la mayoría de la información contenida en los

predictores. Para el segundo componente principal, se determinan los pesos de tal manera,

que 𝑍2 sea una combinación lineal de las variables que son no correlacionadas con 𝑍1 y

tienen la mayor varianza sujeta a esta restricción [52]. En otras palabras, 𝑍2 termina siendo

perpendicular u ortogonal a 𝑍1. De esta manera, se construyen los demás componentes

principales, buscando que el nuevo componente sea lo más no correlacionado al anterior

componente.

Después de transformar las variables, asignando cada constante 𝜙𝑗𝑚, se ajusta el modelo

de regresión de la siguiente manera [52]:

𝑦 = 𝜃𝑜 + ∑ 𝜃𝑚𝑧𝑖𝑚

𝑀

𝑚=1

(17)

Ahora los coeficientes de regresión son 𝜃0, 𝜃1, … , 𝜃𝑀 y también son constantes no conocidas

por lo que es necesario determinar su valor estimado (𝜃𝑗) por ejemplo, mediante el método

de mínimos cuadrados [52]. A esta técnica se le conoce como reducción de dimensiones

porque convierte un problema de estimar 𝑝 + 1 coeficientes (𝛽0, 𝛽1, … , 𝛽𝑝) a un problema en

el que se estiman 𝑀 + 1 coeficientes (𝜃0, 𝜃1, … , 𝜃𝑀), donde 𝑀 < 𝑝 [52]. Con este método, se

busca disminuir la variabilidad de los coeficientes ajustados y eliminar aquellas variables

que estén correlacionadas con otras. En general, la idea principal es encontrar la menor

cantidad 𝑀 componentes que expliquen la mayor variabilidad en los datos y tengan la mayor

relación con la variable respuesta [52].

Dado que el algoritmo de regresión con componentes principales consiste en identificar

aquellas direcciones en donde la variabilidad de los datos es mayor, las variables cuya

escala sea mayor a las demás pueden perturbar el análisis [52]. Por este mismo motivo,

este método es altamente sensible a Outliers [52]. Dado esto, es recomendable escalar

cada una de las variables antes de aplicar este método para que las variables tengan media

0 y desviación estándar de 1 y finalmente, eliminar los Outliers encontrados [52].

5.5.3. Random Forest

El algoritmo de Random Forest tiene como base la generación de múltiples árboles de

decisión. Un árbol de decisión consiste en una serie de reglas de división que separan los

datos en múltiples regiones no superpuestas (ver Figura 13b) [52]. Estas reglas se pueden

Page 41: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

41

ver gráficamente (ver Figura 13a) mediante la analogía de un árbol que se dibuja al revés.

En este sentido, las hojas, también denominadas nodos terminales, se encuentran en la

parte inferior del árbol y representan cada una de las regiones en que se dividen los datos.

Los puntos a lo largo del árbol donde se realizan las reglas de división se denominan nodos

internos [52].

Figura 13. Representación gráfica de un árbol de decisión. (a) Árbol de decisión. (b) Regiones generadas [52]

Para cada observación de entrenamiento que caiga en la región 𝑅𝑗, la predicción se calcula

como la media de todos los valores de respuesta de las observaciones utilizadas como

entrenamiento en 𝑅𝑗 [52]. Las reglas de división que crean cada una de las regiones se

establecen con el objetivo de minimizar la suma de los residuos al cuadrado que está dada

por:

𝑅𝑆𝑆 = ∑ ∑ (𝑦𝑖 − �̂�𝑅𝑗)

2

𝑖𝜖𝑅𝑗

𝐽

𝑗=1

(18)

Sin embargo, es inviable considerar computacionalmente cada partición posible de los

datos. Por esta razón, se utiliza el proceso de división binaria recursiva [52]. Este consiste

en ir de arriba hacia abajo del árbol realizando la mejor división, es decir, aquella separación

de los datos que obtenga la mejor reducción del RSS [52]. Este proceso de división se

realiza hasta alcanzar un criterio de parada como, por ejemplo, que cada una de las

regiones contenga no más de un número determinado de observaciones [52]. Después de

crear las regiones, la predicción de una observación de prueba se calcula usando la media

de las observaciones de entrenamiento en la región a la que pertenece esa observación de

prueba [52].

Page 42: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

42

El algoritmo de Random Forest consiste en construir un número determinado de árboles de

decisión sobre muestras de entrenamiento generadas por Bootstrap [52]. Se caracteriza

especialmente porque al realizar cada regla de división se tiene en cuenta una muestra

aleatoria de 𝑚 predictores de un total de 𝑝 predictores [52]. En otras palabras, el algoritmo

al momento de establecer la regla de división no considera la totalidad de los predictores

disponibles. De esta forma, se logra que los múltiples árboles que se generan no estén

correlacionados en dado caso que exista un predictor muy fuerte y además, que se

disminuya la alta varianza que se genera con un solo árbol [52]. Al final, la predicción del

modelo es resultado del promedio de las predicciones realizadas por cada uno de los

árboles construidos.

5.6. Selección de los modelos

Como se puede observar en la anterior sección, cada uno de los modelos propuestos tiene

una metodología específica de ajuste. Dependiendo de la forma, la flexibilidad del modelo

puede cambiar y, se pueden obtener múltiples modelos. Dado esto, es necesario tener en

cuenta una metodología de selección del mejor modelo. A continuación, se presenta la

respectiva descripción de cómo hacer el proceso de selección para cada uno de los

algoritmos propuestos:

5.6.1. Regresión lineal

La precisión del modelo de regresión lineal al predecir una variable de respuesta depende

significativamente de los predictores usados [52]. Es importante tener en cuenta todas

aquellas variables predictoras que estén relacionadas con la variable respuesta. Sin

embargo, a medida que se incrementa el número de predictores se puede reducir la

capacidad predictiva del modelo cuando se evalúa este en nuevas observaciones

(Overfitting) y además, se hace la interpretación del modelo cada vez más compleja [52].

Es posible que todos los predictores disponibles estén asociados con la variable respuesta,

pero es más frecuente que la respuesta solo esté relacionada a un subconjunto de

predictores [52]. Con el fin de conocer aquellas variables predictoras que realmente están

asociadas a la variable respuesta, se debe realizar un proceso de selección de variables.

Este proceso se puede hacer de cuatro diferentes formas: Best Subset Selection, Forward

Selection, Backward Selection, o Mixed Selection.

El método de selección de Best Subset Selection consiste en ajustar cada uno de los

modelos que se pueden proponer a partir de la combinación de todas las 𝑝 variables

Page 43: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

43

posibles [52]. De esta manera, se generarían 2𝑝 posibles modelos que se pueden evaluar,

lo que puede llegar a ser un problema respecto al tiempo computacional requerido [52]. Al

final, se escoge aquel modelo con menor suma de residuos al cuadrado y un mayor 𝑅2.

Forward Selection consiste en un método en el que se comienza con un modelo que no

contiene ninguna variable predictora [52]. Poco a poco se va agregando las variables

predictores al modelo, una a la vez, hasta que todas las variables predictoras estén en el

modelo. Específicamente, en cada etapa se va agregando aquella variable que brinde la

mayor mejora adicional al ajuste del modelo [52]. Mediante este método la cantidad de

modelos a evaluar disminuye significativamente [52].

El método de Backward Selection provee también una alternativa eficiente,

computacionalmente, de selección de variables predictoras [52]. Este método funciona al

contrario que el de Forward Selection dado que comienza con un modelo que tiene en

cuenta todas las posibles variables predictoras 𝑝 [52]. Una a la vez, se va retirando la

variable menos útil del modelo.

Finalmente, el método de Mixed Selection consiste en una aproximación híbrida entre los

modelos Forward Selection y Backward Selection [52]. En esta se va agregando variables

al modelo de manera secuencial. Sin embargo, después de agregar cada nueva variable,

el método puede remover alguna otra variable que mejore el ajuste del modelo [52]. Este

método busca imitar el de Best Subset Selection manteniendo las ventajas de los métodos

de Forward Selection y Backward Selection [52].

En el presente proyecto se evalúan tres de los cuatro posibles métodos de selección: Best

Subset Selection, Forward Selection y Backward Selection. Al final se comparan los mejores

modelos obtenidos por cada método y se selecciona el más adecuado. Después de esto es

importante realizar un análisis sobre los supuestos de este modelo para identificar la

estabilidad de las predicciones. Primero, se debe evaluar que exista una relación lineal

entre los predictores y la variable respuesta [52]. También, se debe revisar que los residuos

cumplan con los supuestos de normalidad y homocedasticidad [52]. Finalmente, se debe

evaluar si el modelo propuesto tiene problemas de autocorrelación y multicolinealidad [52].

5.6.2. Regresión con componentes principales

Al igual que el método de regresión lineal, el entrenamiento del algoritmo de regresión con

componentes principales consiste en determinar la cantidad de variables predictoras. Sin

embargo, para este algoritmo no se utiliza algún proceso de selección de variables. Por el

Page 44: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

44

contrario, se busca establecer el mínimo número de componentes principales que expliquen

la mayor variabilidad de los datos y tengan la mayor relación con la variable respuesta [52].

Entre más componentes principales se usen en el modelo de regresión, el sesgo disminuye,

pero la varianza aumenta [52]. Además, el modelo de regresión con componentes

principales suele funcionar adecuadamente cuando con solo los primeros componentes

principales son suficientes para capturar la mayor parte de variación en los predictores [52].

5.6.3. Random Forest

Para el algoritmo de Random Forest se genera un modelo diferente dependiendo de los

parámetros de construcción de los árboles. El primero de ellos es el que determina el

número de variables predictoras que se tienen en cuenta al momento de realizar cada una

de las reglas de división [52]. Se busca que este valor sea menor al total de las variables

predictoras existentes dado que genera que los árboles que se construyan estén menos

correlacionados entre sí. Además, un número pequeño de variables a tener en cuenta

beneficia la predicción cuando existe un amplio número predictores correlacionados [52].

También está el parámetro que determina el número mínimo de observaciones que deben

tener los nodos terminales [52]. Finalmente, existe un último parámetro que determina el

número de árboles que se construirán dentro del algoritmo de Random Forest [52]. En este

algoritmo, si se incrementa este parámetro no conlleva al Overfitting. Es decir, que entre

más árboles se generen no se conlleva al problema de Overfitting. Sin embargo, si afecta

la eficiencia computacional. Por este motivo, se busca que se construyan el número árboles

mínimos con el objetivo de ahorrar recursos computacionales.

Dado que son diversos parámetros a seleccionar, es necesario generar modelos a partir de

diferentes valores de estos de tal manera, que se seleccione aquellos parámetros que

permitan tener un modelo con mayor precisión.

5.7. Evaluación de los modelos

Para evaluar el desempeño de la capacidad predictiva y/o la selección apropiada del nivel

de flexibilidad de cada uno de los modelos que se generan, se emplea el error de prueba

[52]. Este error de prueba es el promedio de los errores obtenidos de las predicciones

realizadas (𝑓(𝑥𝑖)) con el modelo usado para nuevas observaciones (𝑥𝑖) que no han sido

tenidas en cuenta en el entrenamiento [52]. Para modelos de regresión, la medida del error

más usada es el error cuadrático medio (MSE) el cual, se determina de la siguiente manera

para 𝑛 observaciones de prueba [52]:

Page 45: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

45

𝑀𝑆𝐸 =∑ (𝑦𝑖 − 𝑓(𝑥𝑖))𝑛

𝑖=1

2

𝑛 (19)

Específicamente, se busca un modelo que permita tener el menor error de prueba posible

[52]. Con este, es posible comparar los múltiples modelos que se proponen y seleccionar

el mejor. Sin embargo, en muchas ocasiones no se cuenta con una base de datos lo

suficientemente grande para poder destinar una parte para entrenamiento y otra para

prueba. Por tal motivo, existen diferentes técnicas que permiten estimar el error de prueba

utilizando únicamente la base de datos de entrenamiento [52]. A continuación, se presentan

los utilizados en la presente metodología:

5.7.1. k-Fold Cross Validation

Este método consiste en dividir aleatoriamente la base de datos de entrenamiento en 𝑘

grupos de un tamaño aproximadamente igual [52]. El primer grupo es considerado como

grupo de “prueba” y los restantes se destinan para el entrenamiento. A ese primer grupo se

estima el error de prueba. Este procedimiento se repite 𝑘 veces tomando en cada iteración

un grupo diferente para prueba y estimando su respectivo error [52]. Al final, el estimado de

error de prueba se determina de la siguiente manera, tomando en cuenta el error cuadrático

medio como medida:

𝐶𝑉(𝑘) =∑ (𝑀𝑆𝐸𝑖)𝑘

𝑖=1

2

𝑘 (19)

El valor de 𝑘 típicamente se suele asignar como 5 o 10, siendo esta última la más utilizada

[52]. También, 𝑘 puede ser igual al número de observaciones (𝑛) lo que conllevaría a que

en cada iteración se seleccionara una observación como prueba. Sin embargo, esto

conlleva a un alto requerimiento computacional [52].

En la presente metodología, este método se utiliza principalmente para estimar el error de

prueba para los modelos de regresión lineal y de regresión con componentes principales.

Para los modelos de Random Forests, se utiliza el Out of Bag Error para estimar el error de

prueba.

5.7.2. Out of Bag Error

El Out of Bag Error es una forma de estimar el error de prueba en modelos basados en

Bagging [52]. Es decir, aquellos modelos que consisten en la construcción de árboles de

decisión ajustados repetidamente a muestras de observaciones obtenidas mediante

Page 46: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

46

Boostrap [52]. Específicamente, se ha demostrado que cada árbol basado en Bagging usa

alrededor de dos tercios de las observaciones como entrenamiento. Las observaciones

restantes, un tercio, son denominadas Out of Bag [52]. Si se toma una de esas

observaciones y se realiza una predicción por cada uno de los árboles generados, es

posible obtener una estimación del error de prueba al promediar cada uno de los errores

obtenidos con cada árbol. De esta manera, se puede determinar un Out of Bag MSE para

estimar el error de prueba.

5.8. Prueba de los modelos

Una vez que se han entrenado los modelos y se ha hecho el respectivo proceso de

selección y evaluación de cada uno, se identifica cuál de ellos obtiene una mejor predicción

de la variable respuesta. Para realizar esto, en la sección 5.4 se realizó una separación de

las observaciones de tal forma, que algunas se destinaron para el entrenamiento y otras

para la prueba. Con estas últimas, se busca probar la capacidad de predicción de cada uno

de los modelos bajo las mismas nuevas observaciones. Esta base de prueba se mantiene

aislada de toda la metodología de generación de observaciones sintéticas, entrenamiento,

selección y evaluación de los modelos. De esta manera, se pueden probar cada uno de los

modelos con observaciones que nunca han visto y además se permite asegurar que durante

la optimización de los modelos no se haya generado Overfitting.

Específicamente, se propone utilizar el indicador de error MSE, ecuación (19), de tal forma,

que entre menor sea, la predicción va a ser mucho más precisa.

5.9. Evaluación de modelo para toma de decisiones y reentrenamiento

Después de haber elegido el mejor modelo, la metodología propuesta finaliza con la

predicción del ERF en una próxima inspección. Es decir, se evalúa los modelos como parte

del proceso de toma de decisiones para la asignación de tareas de reparación a lo largo de

la tubería. Para esto, se recomienda reentrenar el modelo nuevamente con los datos

utilizados tanto en el entrenamiento como en la prueba de los modelos. Después, la

predicción se realizará utilizando las observaciones de la última corrida de inspección en

línea (ILI) disponible. De esta manera, se buscará predecir el ERF de los segmentos

actuales en una inspección futura. Luego de realizar las predicciones, es criterio del

ingeniero a cargo tomar las respectivas decisiones de inspección, mantenimiento y

reparación de los defectos de corrosión en la tubería.

Page 47: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

47

Finalmente, los modelos deben reentrenarse con los datos que se van adquiriendo con las

nuevas inspecciones en línea (ILI) que se realicen. Para esto, se debe seguir la misma

metodología propuesta en este proyecto teniendo principal cuidado en el balanceo de la

base de datos. Es muy probable que las nuevas observaciones que se tomen se encuentren

desbalanceados hacia los defectos no críticos. Por tal motivo, es fundamental realizar un

adecuado pre-procesamiento de los datos antes de reentrenar el modelo propuesto.

Page 48: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

48

6. RESULTADOS

Los siguientes resultados se obtuvieron utilizando el software R, específicamente, se

usaron las funciones hclust() para realizar el Clustering jerárquico, lm() para realizar las

regresiones lineales, pcr() para determinar el modelo de regresión por componentes

principales, y randomForest() para generar el ensamble de árboles. A continuación, se

presenta un caso de estudio en el que se prueba la metodología propuesta:

6.1. Base de datos ILI

Para evaluar la metodología propuesta en este proyecto, se utiliza una base de datos

compuesta de los reportes generados por dos inspecciones en línea (ILI) realizadas a una

tubería de gasolina con una longitud de 44 kilómetros, un diámetro externo de 273.1

milímetros, un espesor de pared promedio de 6.35 milímetros y una máxima presión de

operación admisible (MAOP) de 1500 psig. Las dos ILI fueron realizadas con dos años de

diferencia sobre la misma tubería. Por motivos de confidencialidad, no es posible divulgar

públicamente en ningún medio escrito o virtual más información acerca de la tubería y de

la compañía de la cual procede esta base de datos.

6.2. Exploración de la base de datos

En la tubería analizada se encuentran concretamente las siguientes anomalías:

abolladuras, defectos de manufactura, ovalidad, irregularidades de soldadura, y pérdidas

de metal por corrosión. En detalle, la base de datos está compuesta por 133,815 reportes

de anomalías encontradas durante la primera inspección y de 122,803 en la segunda

inspección. De estos reportes, 33,466 y 59,102 son defectos de corrosión, respectivamente.

Dentro de los 33,466 reportes de la primera inspección, se encuentran tanto los reportes de

las agrupaciones como los reportes individuales de los defectos agrupados. Dado esto, es

necesario eliminar aquellos reportes de los defectos que fueron agrupados con el motivo,

de considerar la agrupación como un único defecto. De este procedimiento, se encuentra

que 28,404 de los reportes se convierten realmente 1,796 reportes. Por lo cual, ahora la

base de datos cuenta con 6,858 reportes de corrosión de la primera inspección. Lo mismo

se realiza para los datos de la segunda inspección, resultando que de los 59,102 reportes

realmente son 15,013 reportes de corrosión.

Por otro lado, de los 6,858 reportes de corrosión de la primera inspección, el 13.14% se

encuentran en la pared externa de la tubería y el 86.86% se encuentran en la pared interna.

Page 49: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

49

Respecto a la segunda inspección, el 8.11% de los reportes son externos mientras que el

91.89% son internos. Dado esto, se debe tener en cuenta que existen una mayor cantidad

de reportes internos en comparación con la cantidad de reportes externos y

específicamente, existe un desbalanceo respecto a esta variable.

Adicionalmente, en la Figura 14 se puede observar una descripción de los datos respecto

a la variable de clasificación de los defectos que realiza la herramienta ILI entre: Pitting

(PITT), Circumferential Slotting (CISL), Circumferential Grooving (CIGR), Axial Grooving

(AXGR), Axial Slottting(AXSL), Pinhole (PINH) y General (GENE).

Figura 14. Porcentaje de defectos pertenecientes cada clasificación. (a) Datos de la primera inspección. (b)

Datos de la segunda inspección.

De los 6,858 reportes de corrosión de la primera inspección, se puede identificar que a

4,192 no se les reporta el ERF. Como se cuenta con la información de las dimensiones de

los defectos, es posible calcular el ERF para cada uno utilizando la ecuación (1). Esta

ecuación es referente al estándar ASME B31G dado que los demás reportes se realizan

bajo este mismo estándar. De esta forma, se es congruente con las demás observaciones.

Finalmente, se analiza la correlación de las variables observando que existen varias que

son altamente correlacionadas. Por ejemplo, las dimensiones (largo, ancho y profundidad)

presentan un alto coeficiente de correlación (aproximadamente de 0.7 para cada una) con

el ERF y de las dimensiones entre sí (aproximadamente 0.5).

Page 50: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

50

6.3. Segmentación – Clustering

Para realizar la segmentación de la tubería, en el presente trabajo se propone realizarla

mediante el método de Clustering jerárquico bajo los tipos de enlace completo, promedio y

simple. Además, teniendo en cuenta dos tipos de distancia, Euclidiana y Manhattan. Para

comprobar la mejor configuración, se realizó el proceso de Clustering para cada

combinación posible obteniendo los siguientes resultados de la medida de MSE propuesta

en la sección 5.3.5:

Figura 15. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y

utilizando la distancia Euclidiana.

Figura 16. Evaluación del MSE vs el número de Clusters para los diferentes tipos de enlaces propuestos y

utilizando la distancia Manhattan.

Page 51: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

51

Tanto en la Figura 15 como en la Figura 16, se observa que la menor variabilidad entre los

máximos ERF de la primera y la segunda corrida de inspección se obtiene utilizando el

Clustering jerárquico con el tipo de enlace simple. Específicamente, se logra el mínimo valor

posible utilizando aproximadamente 3,000 como el número de Clusters generados.

Concretamente, para este número de Clusters se obtiene un MSE de 0.006641 para la

configuración simple-Euclidiano y un MSE de 0.006652 para la configuración simple-

Manhattan. Consecuentemente, se escoge realizar la segmentación de la tubería mediante

el método de Clustering jerárquico utilizando el tipo de enlace simple y la distancia

Euclidiana. El dendograma obtenido mediante este método se observa a continuación:

Figura 17. Dendograma obtenido en el Clustering jerárquico utilizando el tipo de enlace simple y la distancia

Euclidiana.

Después de realizar el proceso de segmentación de la tubería, se caracteriza cada uno de

los segmentos de acuerdo a lo explicado en la sección 5.3.4. De esta forma, se crea una

nueva base de datos compuesta por 3,000 observaciones donde cada observación hace

referencia a un segmento caracterizado. A partir de esta base de datos, se realizará el

entrenamiento de los modelos propuestos.

6.4. Pre-procesamiento

Antes de realizar el entrenamiento de los modelos, se efectúa el pre-procesamiento de la

nueva base de datos. Como primer paso, se eliminan aquellas observaciones que

corresponden a falsas alarmas y a reparaciones. De los 3,000 datos existentes se

removieron 1,172 lo que conlleva a que la base de datos ahora solo cuente con 1,828

observaciones.

Finalmente, es necesario comprobar que la base de datos esté correctamente balanceada

respecto a la variable respuesta. Para esto, se clasifica cada una de las observaciones

teniendo en cuenta que, si el ERF de la segunda inspección (𝐸𝑅𝐹𝑚𝑎𝑥2) es mayor o igual a

Page 52: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

52

0.9, el segmento (observación) se considera como crítico y, si es menor, como no crítico.

Al realizar esto, se observa la siguiente distribución:

Tabla 2. Descripción de la clasificación de la criticidad de la base de datos sin balancear.

Clasificación Crítico No Crítico

Número de observaciones 84 1744

Porcentaje del total de observaciones 4.6% 95.4%

Como se puede observar, la base de datos se encuentra desbalanceada respecto a la

variable respuesta. Dado esto, se utiliza la técnica propuesta de SMOTE para realizar

Oversampling y Undersampling sobre las observaciones. Sin embargo, antes de realizar el

SMOTE se toma aleatoriamente el 70% del número de observaciones clasificadas como

críticas (aproximadamente 58) para incluirlas dentro de la base destinada para prueba. Con

el 30% de observaciones restantes (26) y las 1,774 observaciones clasificadas como no

críticas se realiza el SMOTE obteniendo 263 observaciones sintéticas críticas y 217

observaciones no críticas. La totalidad de estas observaciones se destinan para la base de

entrenamiento. Para complementar la base de prueba con observaciones no críticas se

seleccionan aleatoriamente, de las 1,774 observaciones originales, una cantidad suficiente

para que la base de prueba quede igual de balanceada a la base de entrenamiento. A

continuación, se presentan el número de observaciones finales destinadas para cada una

de las bases de datos:

Tabla 3. Descripción de la clasificación de la criticidad para cada una de las bases balanceadas.

Base de Datos Número de Observaciones

Críticas Número de Observaciones

No Críticas

Entrenamiento 263 217

Prueba 58 47

6.5. Entrenamiento de los modelos

Una vez pre-procesados los datos se realiza el entrenamiento de los modelos de Machine

Learning utilizando la base de datos de entrenamiento. A continuación, se presentan los

resultados del entrenamiento, selección y evaluación para cada uno de los algoritmos

propuestos:

Page 53: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

53

6.5.1. Regresión lineal

Para la regresión lineal, se realiza el proceso de selección de variables predictoras

mediante los métodos Best Subset Selection, Forward Selection y Backward Selection.

Estos métodos de selección se combinan con el algoritmo de k-Fold CrossValidation de tal

forma que se pueda estimar el error de prueba MSE y se pueda comparar cada uno de los

modelos obtenidos mediante este indicador. El algoritmo de k-Fold CrossValidation se

realiza con un valor 𝑘 = 10. Para los tres métodos de selección se obtienen exactamente

los mismos resultados que se muestran a continuación:

Figura 18. Resultados de la selección de variables predictoras para el modelo de regresión lineal.

Al observar los resultados obtenidos, se identifica que el modelo que minimiza el MSE es

el que utiliza una sola variable predictora. Específicamente, esta variable es la de la

profundidad del defecto de corrosión más crítico. A partir de esto, el modelo para predecir

el ERF en una próxima inspección (𝐸𝑅𝐹𝑚𝑎𝑥2) del segmento 𝑖 se puede expresar mediante

la siguiente ecuación:

𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 = 0.5174 + 0.0164 ∗ 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖 (20)

Page 54: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

54

Con este modelo, se obtiene un R2 ajustado de 0.7283. Sin embargo, para los modelos de

regresión lineal es importante verificar los supuestos. Primero, se debe verificar la

suposición de una relación lineal entre los predictores y la variable respuesta. Para esto se

grafica los valores ajustados (predichos) en contra de los residuales del modelo. En la

Figura 19 se puede observar la gráfica resultante de la cual se puede identificar que existe

un patrón no lineal que no puede ser modelado con precisión usando una regresión lineal.

Especialmente, cuando se intenta realizar predicciones con valores de ERF mayores a 1.2.

Para solucionar esto, se puede utilizar transformaciones no lineales como log 𝑋, √𝑋 o 𝑋2

sobre las variables predictoras.

Figura 19. Resultados de la selección de variables predictoras para el modelo de regresión lineal.

También es conveniente revisar la normalidad y la homocedasticidad de los residuos del

modelo. Para comprobar esto, se usa el Q-Q plot (Figura 20) para el caso de normalidad y

el gráfico de residuos estandarizados versus los valores ajustados (Figura 21) para el caso

de la homocedasticidad. Al observar las Figuras 20 y 21, se puede ver claramente que no

se cumple ninguno de los supuestos de normalidad y homocedasticidad, respectivamente.

Primero, en la Figura 20 los datos de los extremos se alejan notoriamente de la recta lo que

conlleva a decir que los residuos no se asemejan a una distribución normal. En la Figura

21, la línea de ajuste (línea roja) de los residuos no es una recta horizontal sino por el

contrario, tiene un comportamiento exponencial. Consecuentemente, la varianza de los

residuos no es constante.

Page 55: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

55

Figura 20. Q-Q plot para observar la normalidad de los residuos.

Figura 21. Gráfico de residuos estandarizados contra los valores ajustados para observar la

homocedasticidad de los residuos.

Todo lo mencionado anteriormente se puede comprobar utilizando las pruebas de Shapiro-

Wilk y de Breush-Pagan para probar normalidad y homocestadicidad. Los resultados de los

p-valores de cada prueba se muestran a continuación:

Tabla 4. P-valores para las pruebas de normalidad y homocedasticidad de los residuos.

Prueba p-valor

Shapiro-Wilk (Normalidad) 5.72 ∗ 10−16

Breush-Pagan (Homocedasticidad) 1.43 ∗ 10−9

Page 56: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

56

A partir de los resultados de la Tabla 4, se puede observar que los p-valores para ambas

pruebas son menores a 0.05. Por tal motivo, se puede concluir con un nivel de confianza

del 95% que los residuos no cumplen los supuestos de normalidad ni de homocedasticidad.

Otro supuesto importante de la regresión lineal es que los residuales del modelo no estén

correlacionados y sean independientes. Dado el contexto del problema donde se está

utilizando una base de datos compuesta por observaciones tomadas en inspecciones en

línea (ILI) realizadas en puntos de tiempos discretos puede llegar a suceder que las

observaciones estén autocorrelacionadas como una serie de tiempo. Para observar esto,

se utiliza la gráfica de residuos versus las observaciones ordenadas (Figura 22). En este

caso, no se observa ningún patrón que conlleve a concluir algún tipo de correlación de los

datos.

Figura 22. Gráfico de residuos versus las observaciones ordenadas para observar independencia.

Por último, no se evalúa problemas de multicolinealidad porque es un modelo de una sola

variable. Frente a lo expuesto anteriormente el modelo regresión lineal no es adecuado para

el contexto presentado. Por tal motivo, las conclusiones que se obtengan del ajuste del

modelo solo pueden ser tomadas como sospechas. Sin embargo, es interesante analizar la

precisión sobre la predicción de la variable respuesta que se puede lograr con este modelo

dado que el objetivo principal es predecir más no interpretar el modelo. Por esta razón, es

que inicialmente se selecciona el modelo de regresión lineal con menor MSE estimado de

prueba.

Page 57: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

57

6.5.2. Regresión con componentes principales

Dado que algunas variables predictoras presentan una alta correlación entre ellas, se

propone usar el algoritmo de regresión con componentes principales. Para determinar los

componentes principales y específicamente, establecer el mínimo número de componentes

a tener en cuenta en el modelo, se utiliza el algoritmo de k-Fold CrossValidation. De esta

forma se puede estimar el error de prueba MSE y se puede comparar cada uno de los

modelos obtenidos mediante este indicador. El algoritmo de k-Fold CrossValidation se

realiza con un valor 𝑘 = 10. A continuación, se muestran los pesos asignados a cada

variable para el cálculo de cada uno de los componentes (𝜙𝑗𝑚):

Tabla 5. Pesos asignados a cada variable en el cálculo de cada uno de los componentes.

Variable Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7

𝐸𝑅𝐹𝑚𝑎𝑥1 0.503 -0.333 0.208 - 0.173 - 0.745

𝑙𝑎𝑟𝑔𝑜 0.446 0.414 - - -0.39 0.669 -0.112

𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑 0.441 -0.474 0.134 -0.137 0.352 - -0.645

𝑎𝑛𝑐ℎ𝑜 0.498 0.223 - - -0.401 -0.728 -

%𝑎𝑓𝑒𝑐𝑡𝑎𝑐𝑖𝑜𝑛 0.238 0.582 -0.343 - 0.694 - -

𝑑𝑖𝑠𝑡𝑆𝑜𝑙𝑑𝐶𝑒𝑟𝑐𝑎𝑛𝑎 -0.203 0.168 0.332 -0.898 - - -

𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎 - 0.275 0.837 0.402 0.215 - -

Al interpretar la Tabla 5, se puede identificar que el primer componente recoge

mayoritariamente la información del ERF1 y de las dimensiones de los defectos, es decir,

largo, ancho y profundidad. Para el segundo componente, se toma en mayor proporción

información del porcentaje del área afectada y la profundidad. En la Figura 23, se puede

observar la proporción acumulada de la varianza que es explicada por cada uno de los

componentes principales. De esta gráfica se puede identificar que con los dos primeros

componentes se puede describir aproximadamente el 60% de la variabilidad de los datos.

Si se incluye 5 componentes en el modelo se logra describir aproximadamente el 95% de

la variabilidad de los datos.

Page 58: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

58

Figura 23. Proporción acumulada de la varianza que es explicada por cada uno de los componentes

principales.

Finalmente, en la Figuras 24 y 25 se observa el comportamiento del MSE estimado y del

R2 en donde es posible identificar el número de componentes óptimo que debe contener el

modelo para obtener una buena predicción de ERF en una próxima inspección.

Figura 24. Comportamiento del MSE a partir del número de componentes principales incluidos en el modelo.

Page 59: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

59

Figura 25. Comportamiento del R2 a partir del número de componentes principales incluidos en el modelo.

De estas gráficas se puede observar que se logra minimizar el MSE estimado y maximizar

R2 del modelo, cuando se incluyen 6 componentes principales. Sin embargo, a partir del

componente 5 la mejora es mínima. Dado que se busca asignar al modelo el menor número

de componentes, seleccionar el modelo que incluya 5 componentes es una buena decision.

Con este modelo se obtiene un valor de R2 ajustado de 0.7153. Finalmente, se comprueba

que existían variables predictoras que estaban correlacionadas y contenian en gran parte,

la misma información de la variable respuesta (𝐸𝑅𝐹𝑚𝑎𝑥2) como se habia mencionado en

la seccion 6.2 del presente documento.

6.5.3. Random Forest

Con el objetivo de tener un punto de comparación con técnicas modernas de Machine

Learning, se propone el modelo de Random Forest. Para la selección del mejor modelo, se

busca aquellos parámetros de construcción de los árboles de tal manera que se obtenga el

menor error estimado de prueba. Para realizar la estimación del error de prueba se utiliza

el Out of Bag Error. En las Figuras 26, 27 y 28 se puede observar la evolución del Out of

Bag Error en función del número de predictores evaluados en cada división, del número de

mínimo de observaciones que debe tener los nodos terminales y del número de árboles

ajustados, respectivamente.

De la Figura 26, se puede determinar que el número óptimo de variables predictoras a

evaluar en cada una de las reglas de división, con el objetivo de minimizar el error de prueba

estimado, es 6. Sin embargo, el cambio del Out of Bag Error respecto a utilizar 5 es muy

Page 60: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

60

pequeño. Dado que entre más pequeño sea la cantidad de variables a evaluar, menos

correlacionados van a estar los árboles que se construyen y además, favorece la predicción

cuando existen variables predictoras correlacionas, es conveniente usar 5 como el número

de variables predictoras a evaluar en cada división.

Figura 26. Evolución del Out of Bag Error en función del número de predictores empleados.

Figura 27. Evolución del Out of Bag Error en función del número mínimo de observaciones en nodos

terminales.

Page 61: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

61

De la Figura 27 se puede determinar que el número óptimo de observaciones que deben

tener los nodos terminales, con el objetivo de minimizar el error de prueba estimado, es 1.

Adicionalmente, en la Figura 28 se puede observar que, a partir de la generación de 200

árboles, el cambio en el Out of Bag Error es mínimo. Por tal motivo, se selecciona este valor

como parámetro de construcción de los árboles.

Figura 28. Evolución del Out of Bag Error en función del número de árboles.

Al final, la selección del mejor modelo arroja como resultado utilizar el algoritmo de Random

Forest con 5 predictores evaluados en cada división, con 1 observación mínima que debe

tener los nodos terminales y ajustando 200 árboles. Con este modelo se obtiene un R2

ajustado de 0.8963. Adicionalmente, en la Figura 29 se encuentra la importancia de cada

una de las variables en el modelo propuesto. En esta figura, se reporta cuanto en promedio

disminuiría la precisión (MSE) en las predicciones de prueba cuando una variable se

excluye del modelo. De esta manera, se puede identificar que las variables más importantes

en el modelo son la profundidad del defecto más crítico (𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑) y la distancia mínima

que tiene el defecto más crítico con los defectos a su alrededor (𝑑𝑖𝑠𝑡𝐶𝑒𝑟𝑐𝑎𝑛𝑎) para la

predicción del ERF en una próxima inspección.

Page 62: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

62

Figura 29. Importancia de las variables en el mejor modelo de Random Forest construido.

6.6. Prueba de los modelos

Después de identificar el modelo más adecuado para cada uno de los algoritmos

propuestos, se valida cada uno de ellos con la base de datos de prueba. Los resultados

obtenidos se muestran en la siguiente tabla:

Tabla 6. Comparación de los resultados de predicción de los tres modelos propuestos.

Modelo R2

Ajustado MSE

Prueba

Regresión lineal

𝐸𝑅𝐹𝑚𝑎𝑥2𝑖 = 0.5174 + 0.0164 ∗ 𝑝𝑟𝑜𝑓𝑢𝑛𝑑𝑖𝑑𝑎𝑑𝑖 0.7283 0.008885

Regresión con componentes principales

(Utilizando 5 componentes principales) 0.7183 0.008453

Random Forest

(Evaluando 5 predictores en cada división, con 1 observación mínima en los nodos terminales y

ajustando 200 árboles)

0.8968 0.004869

A partir de los anteriores resultados, se puede observar que el modelo de Random Forest

es el que mejor resultados obtiene tanto en el MSE de entrenamiento como en el MSE de

prueba. Además, es el que mejor R2 Ajustado tiene entre todos los modelos.

Teniendo en cuenta que la prioridad es minimizar el MSE de prueba (estimado en el

entrenamiento), es adecuado escoger el modelo de Random Forest como método de

predicción del ERF en una próxima inspección de la tubería.

Page 63: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

63

6.7. Análisis de costos

Para justificar el uso del modelo propuesto, se realiza un análisis de costos en dos

escenarios diferentes. El primero donde no se cuenta con el modelo de predicción y el

segundo escenario donde sí se cuenta con el modelo y se toman las acciones pertinentes.

Para realizar esta comparación, se utiliza la base de datos de prueba de tal forma que el

análisis se base en datos imparciales respecto al modelo.

Adicionalmente, se utilizan los costos estimados por Zhang y Zhou [23], quienes reportan

unas aproximaciones a los costos asociados a: realizar una inspección en línea; realizar

una excavación asociada a una reparación de un defecto de corrosión y el uso de

recubrimientos y chaquetas/fundas para la reparación de los defectos. Además, realizan

una estimación de los costos asociados cuando se produce una falla (por ejemplo, pérdidas

de contención de la tubería). Concretamente, estos costos asociados a fallas se estiman

mediante unos costos directos, por ejemplo, de excavación y reemplazo de la sección

tubería, y unos costos indirectos que son muy complicados de especificar. Sin embargo,

presentan un punto de quiebre a partir del cual estos costos indirectos empiezan a tomar

valor. Para el presente análisis, se utiliza este punto de quiebre para estimar el costo total

asociado a una falla. Es importante decir que todos estos costos se estiman por junta, por

lo cual para el presente análisis se asume que es el mismo costo estimado para un

segmento. A continuación, se presentan los valores de cada uno de los costos en dólares

estadounidenses (USD), convertidos a la tasa actual, teniendo en cuenta que Zhang y Zhou

[23] los reportan en dólares canadienses (CAD):

Tabla 7. Costos estimados de reparación y falla de defectos de corrosión en tuberías [23].

Criterio Costo (USD/segmento)

Inspección en Línea (ILI) 53.2

Excavación por defecto de corrosión 15,200

Uso de recubrimientos 20,000

Uso de chaquetas/fundas 26,600

Costo directo por falla 98,800

Costo indirecto por falla >760,000

Page 64: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

64

6.7.1. Primer escenario: sin modelo de predicción

Para evaluar el primer escenario, se realiza una revisión de la base de datos de prueba

para identificar aquellos segmentos que en la primera corrida de ILI no eran críticos, es

decir, tenían un ERF menor a 0.9, pero en la segunda corrida de ILI, se convirtieron en

críticos. Específicamente, se identifican 41 segmentos en la base de datos de prueba que

cumplen esos criterios. Sin embargo, para hacer un análisis adecuado se retiran aquellos

segmentos en los que el modelo no fue capaz de predecir que serían críticos, ERF mayor

a 0.9. Es decir, se dejan solo aquellos segmentos que realmente se les pudo evitar su falla

al utilizar el modelo de predicción. Al final, se encontraron 34 segmentos que cumplen con

todos los criterios mencionados. Estos segmentos se asumen que, dada su criticidad,

tuvieron una falla en la integridad. Por estas fallas, se generaron 29,199,200 USD en costos

(directos + indirectos) por fallas de la integridad de la tubería que se pudieron evitar.

6.7.2. Segundo escenario: con modelo de predicción

Al utilizar el modelo de predicción de ERF, pueden suceder cuatro tipos de resultados. El

primero de ellos es que el modelo prediga que el segmento no va a ser crítico en una

próxima inspección y realmente no sea crítico. El segundo consiste en que el modelo

predice que el segmento si va a ser crítico y verdaderamente no lo es. El tercero, muy

importante, radica en que el modelo predice que no va a ser crítico y ciertamente si lo es.

Finalmente, el último tipo consiste en que el modelo predice que sí va a ser crítico y

realmente sí lo es. Al evaluar estas posibles opciones en los resultados de predicción del

modelo sobre la base de datos de prueba, se obtienen los siguientes resultados:

Tabla 8. Desempeño de predicción del modelo sobre los datos de prueba.

Predicción / Real No Crítico Crítico

No Crítico 45 7

Crítico 2 51

A partir de los resultados mostrados en la Tabla 8, se realiza el respectivo análisis de costos.

Respecto al costo que se incurre cuando el modelo predice un segmento como crítico y

verdaderamente lo es, se asume un costo estimado por reparación de 74,100 USD. Para

estimar este costo se asumen que la mitad de las reparaciones requieren de recubrimiento

y la otra mitad de chaquetas/fundas. Además, se le agrega el costo por excavación.

Page 65: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

65

Por un lado, el costo estimado en el que se incurre cuando el modelo predice un segmento

como no crítico en una próxima inspección y verdaderamente lo es, se toma como un valor

de 858,800 USD. Este se estima como la suma de costos directos e indirectos asociados a

la ocurrencia de una falla. Por otro lado, el costo estimado en el que se incurre cuando el

modelo predice un segmento como crítico en una próxima inspección y ciertamente no lo

es, se toma como un valor de 61,560 USD. Este se determina como el costo que requiere

la excavación y se le agrega el 20% de los costos de reparación con recubrimiento y con

chaquetas.

Finalmente, no existe un costo asociado cuando el modelo predice un segmento como no

crítico y realmente no lo es. Después de esto, todos los costos estimados se multiplican por

su respectivo número de ocurrencia de la Tabla 8 y se le agrega el costo de realizar una

inspección en línea (ILI) obteniendo un valor de 9,905,460 USD. Frente a este costo

obtenido, se puede observar que la diferencia entre los costos de ambos escenarios es de

19,293,740 USD. Cabe destacar que estos resultados, se obtienen a partir de evaluar los

casos de una forma pesimista, asumiendo consecuencias significativas. Es decir, que si

una falla ocurre se asume la totalidad de los costos indirectos que fueron estimados. Dado

lo anterior, se observa que desarrollar una herramienta que ayude en la toma de decisiones

de inspección, mantenimiento y reparación como lo es el modelo de predicción de ERF

propuesto, puede traer beneficios económicos significativos para la industria petrolera.

Page 66: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

66

7. CONCLUSIONES

El propósito de este proyecto fue proponer una metodología que permita la aplicación de

algoritmos de Machine Learning para la evaluación de la integridad de tuberías corroídas,

en una próxima inspección, mediante la predicción del Factor Estimado de Reparación.

Para esto, se definió una metodología de segmentación de la tubería, mediante la técnica

de Clustering jerárquico, que permite analizar los defectos de corrosión en inspecciones

realizadas en instantes de tiempo diferentes y que permite crear zonas vulnerables a este

problema. Esta metodología de segmentación tiene la ventaja de que permite tener en

cuenta comportamientos como la interacción de los defectos de corrosión que se

encuentran cercanos entre sí y, además, permite controlar las diferentes incertidumbres

asociadas al análisis de los defectos. Sin embargo, conlleva a que la caracterización de

todo un segmento de tubería esté marcada por variables pertenecientes al defecto más

crítico. Adicionalmente, se propusieron diferentes modelos de aprendizaje supervisado que

permitieran realizar la predicción del Factor Estimado de Reparación entre inspecciones.

Específicamente, se propusieron los modelos de regresión lineal, regresión con

componentes principales y Random Forest. Para cada uno de estos modelos, se propuso

un procedimiento detallado para la aplicación y evaluación de tal manera, que puedan ser

usados a partir de cualquier base de datos generada por una herramienta de inspección en

línea (ILI). En general, se demostró que estos modelos de Machine Learning tienen el

potencial de crear modelos de predicción precisos. Teniendo en cuenta que la prioridad es

maximizar la capacidad predictiva más allá de la interpretabilidad de los modelos, se escoge

el modelo de Random Forest, entre los propuestos, como el mejor método de predicción

del Factor Estimado de Reparación en una próxima inspección de la tubería.

Finalmente, se justificó el uso de la metodología mediante un análisis de costos para

determinar la importancia de la propuesta realizada. De esto se pudo concluir que utilizar

herramientas, como los modelos de predicción propuestos, como soporte para la toma de

decisiones de inspección, mantenimiento y reparación puede traer beneficios económicos

significativos para la industria petrolera. De ahí que la metodología propuesta a lo largo de

todo el proyecto tenga un valor agregado, adicionándole que hasta lo que se conoce, este

tipo de aplicación de algoritmos de Machine Learning no se había realizado. Sin embargo,

esta metodología se tiene que ir mejorando y perfeccionando con el tiempo y con la

adquisición de nuevos datos.

Page 67: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

67

8. TRABAJO A FUTURO

Dado que el contexto de aplicación del presente proyecto es tan amplio y tan complejo se

pueden proponer una gran cantidad de mejoras y de nuevas exploraciones. Por ejemplo,

para la segmentación de la tubería se podría tener en cuenta variables externas como el

tipo de suelo, cruces de vías, instalaciones, poblaciones cercanas o el historial de

mantenimiento. Otro ejemplo, tener en cuenta las distancias reales entre los defectos

mediante un posicionamiento georeferenciado. También se podría explorar la opción de

realizar la segmentación de la tubería dividida en dos partes. Una que agrupe los defectos

que estén ubicados solamente en la pared externa de la tubería y otra que agrupe los

defectos que estén ubicados solamente en la pared interna. Asimismo, sería interesante

probar el hecho de cambiar la metodología de segmentación por una metodología como la

de los autores Liu et. al. [48], presentada en la sección 4.7 de este documento, que consiste

en realizar un análisis defecto a defecto entre inspecciones. De esta se podría evaluar si

mejora o no la capacidad de predicción de los modelos.

Respecto a los modelos de predicción se propone como trabajo a futuro evaluar la opción

de predecir otra variable diferente al Factor Estimado de Reparación como, por ejemplo, la

presión de estallido. También sería interesante lograr una comparación de lo propuesto en

el presente proyecto con aproximaciones determinísticas o estocásticas que intenten

modelar el crecimiento de los defectos de corrosión. Adicionalmente, se podría trabajar en

la interpretrabilidad del modelo de Random Forest o inclusive se podría evaluar más

técnicas o algoritmos de Machine Learning que permitan mejorar aún más la capacidad de

predicción como, por ejemplo, Gradient Boosting o Extremely Randomized Trees.

Asimismo, se pueden evaluar otras variables predictoras que no fueron tenidas en cuenta

en el presente proyecto pero que pueden llegar a ser significativas en la predicción de la

variable respuesta como, por ejemplo, la clasificación de forma realizada por la herramienta

ILI y el espesor de la tubería (Tabla 1).

Todo lo mencionado anteriormente, se propone realmente con el objetivo principal de crear

modelos y desarrollar herramientas que permitan predecir con precisión el comportamiento

de los defectos de corrosión para que puedan usarse en sistemas reales.

Page 68: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

68

9. REFERENCIAS

[1] H. Wang, A. Yajima, R. Y. Liang y H. Castaneda, «A clustering approach for assessing

external corrosion in a buried pipeline based on hidden Markov random field model,»

Structural Safety, nº 56, pp. 18-29, 2015.

[2] J. A. Beavers y N. G. Thompson, «External Corrosion of Oil and Natural Gas

Pipelines,» ASM Handbook, vol. 13C, 2006.

[3] G. Pluvinage, O. Bouledroua, M. H. Meliani y R. Suleiman, «Corrosion defect analysis

using domain failure assessment diagram,» International Journal of Pressure Vessels

and Piping, nº 165, pp. 126-134, 2018.

[4] A. F. Pérez Suárez, S. Cabrales, R. Amaya Gomez y F. Muñoz, «Model for optimal

sectioning of hydrocarbon transportation pipelines by minimization of the expected

economic losses,» Journal of Loss Prevention in the Process Industries, nº 62, 2019.

[5] M. Xie y Z. Tian, «A review on pipeline integrity management utilizing in-line inspection

data,» Engineering Failure Analysis, vol. 92, pp. 222-239, 2018.

[6] R. Amaya Gomez, M. Sanchez Silva y F. Muñoz, «Integrity assessment of corroded

pipelines using dynamic segmentation and clustering,» Process Safety and

Environmental Protection, vol. 128, pp. 284-294, 2019.

[7] H. A. Kishawy y H. A. Gabbar, «Review of pipeline integrity management practices,»

International Journal of Pressure Vessels and Piping, nº 87, pp. 373-380, 2010.

[8] R. Amaya Gomez, M. Sanchez Silva, E. Bastidas Arteaga, F. Schoefs y F. Muñoz,

«Reliability assessments of corroded pipelines based on internal pressure – A review,»

Engineering Failure Analysis, nº 98, pp. 190-214, 2019.

[9] P. Hopkins, «Assessing the significance of corrosion in onshore oil and gas pipelines,»

de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 62-84.

[10] V. S. Sastri, «Corrosion processes and the use of corrosion inhibitors in managing

corrosion in underground pipelines,» de Underground Pipeline Corrosion, Woodhead

Publishing, 2014.

[11] U. Bhardwaj, A. P. Teixeira, C. Guedes Soares, M. S. Azad, W. Punurai y P.

Asavadorndeja, «Reliability assessment of thick high strength pipelines with corrosion

defects,» International Journal of Pressure Vessels and Piping, nº 177, 2019.

[12] S. A. Timashev y A. V. Bushinskaya, «PRACTICAL METHODOLOGY OF

PREDICTIVE MAINTENANCE FOR PIPELINES,» de Proceedings of the 8th

International Pipeline Conference , Calgary, 2010.

Page 69: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

69

[13] A. C. Benjamin, J. L. F. Freire, R. D. Vieira y D. J. Cunha, «Interaction of corrosion

defects in pipelines e Part 1: Fundamentals,» International Journal of Pressure Vessels

and Piping, nº 144, pp. 56-62, 2016.

[14] M. Askari, M. Aliofkhazraei y S. Afroukhteh, «A comprehensive review on internal

corrosion and cracking of oil and gas pipelines,» Journal of Natural Gas Science and

Engineering, nº 71, 2019.

[15] R. Norsworthy, «Understanding corrosion in underground pipelines: basic principles,»

de Underground Pipeline Corrosion, Woodhead Publishing, 2014.

[16] H. A. Kishawy y H. A. Gabbar, «Review of pipeline integrity management practices,»

International Journal of Pressure Vessels and Piping, vol. 87, pp. 373-380, 2010.

[17] B. Eiber, «Overview of Integrity Assessment Methods for Pipelines,» de Washington

Cities and Counties Pipeline Safety Consortium, 2003.

[18] C. S. Brossia, «The use of probes for detecting corrosion in underground pipelines,»

de Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 286-303.

[19] S. Brockhaus, M. Ginten, S. Klein, M. Teckert, O. Stawicki, D. Oevermann y S. Meyer,

«In-line inspection (ILI) methods for detecting corrosion in underground pipelines,» de

Underground Pipeline Corrosion, Woodhead Publishing, 2014, pp. 255-285.

[20] O. G. Palencia, A. P. Teixeira y C. Guedes Soares, «SAFETY OF PIPELINES

SUBJECTED TO DETERIORATION PROCESSES MODELLED THROUGH

DYNAMIC BAYESIAN NETWORKS,» de Proceedings of the ASME 2017 36th

International Conference on Ocean, Offshore and Arctic Engineering, Trondheim,

2017.

[21] American Society of Mechanical Engineers, Manual for Determining the Remaining

Strenght of Corroed Pipelines: ANSI-ASME B31G-1984: a Supplement to ANSI-ASME

B31 Code for Pressure Piping, ASME, 1985.

[22] S. Kariyawasam y W. Peterson, «Effective Improvements to Reliability Based

Corrosion Management,» de 8th International Pipeline Conference, Calgary, 2010.

[23] S. Zhang y W. Zhou, «Cost-based optimal maintenance decisions for corroding natural

gas pipelines based on stochastic degradation models,» Engineering Structures, nº

74, pp. 74-85, 2014.

[24] M. R. Dann y C. Dann, «Automated matching of pipeline corrosion features from in-

line inspection data,» Reliability Engineering and System Safety, vol. 162, pp. 40-50,

2017.

[25] M. Gentile , R. Vichi, R. Bruschi y F. Marchesani, «The Role of Material and Corrosion

Engineering in Managing the Service-Life Integrity of Flow and Export Lines,» de

Integrity of Pipelines Transporting Hydrocarbons, Dordrecht, Springer

Science+Business Media, 2011, pp. 127-155.

Page 70: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

70

[26] Y. Bai y Q. Bai, Subsea Pipeline Integrity and Risk Management, Waltham: Gulf

Professional Publishing , 2014.

[27] E. S. Rodriguez y J. W. Provan, «Part II: Development of a General Failure Control

System for Estimating the Reliability of Deteriorating Structures,» Corrosion, vol. 45,

nº 3, pp. 193-206, 1989.

[28] H. P. Hong, «Inspection and maintenance planning of pipeline under external corrosion

considering generation of new defects,» Structural Safety, nº 21, pp. 203-222, 1999.

[29] H. P. Hong, «Reliability based optimal inspection and maintenance for pipeline under

corrosion,» Civil Engineering Systems, vol. 14, pp. 313-334, 1997.

[30] T. B. Morrison y R. G. Worthingham, « Reliability of high pressure line pipe under

external corrosion,» ASME, OMAE, V-B, pp. 401-408, 1992.

[31] T. Cheng y M. D. Pandey, «An accurate analysis of maintenance cost of structures

experiencing stochastic degradation,» Structure and Infrastructure Engineering, vol. 8,

pp. 329-339, 2012.

[32] W. J. Gomes, A. T. Beck y T. Haukaas, «Optimal inspection planning for onshore

pipelines subject to external corrosion,» Reliability Engineering and System Safety, nº

118, pp. 18-27, 2013.

[33] R. Amaya Gomez, J. Riascos Ochoa, F. Muñoz, E. Bastidas Arteaga, F. Schoefs y M.

Sanchez Silva, «Modeling of pipeline corrosion degradation mechanism with a Lévy

Process based on ILI (In-Line) inspections,» International Journal of Pressure Vessels

and Piping, vol. 172, pp. 261-271, 2019.

[34] P. Tang, J. Yang, J. Zheng, L. Wong, S. He, J. Ye y G. Ou, «Failure analysis and

prediction of pipes due to the interaction between multiphase flow and structure,»

Engineering Failure Analysis, vol. 16, nº 5, pp. 1749-1756, 2009.

[35] G. A. Zhang, L. Zeng, H. Huang y X. P. Guo, «A study of flow accelerated corrosion at

elbow of carbon steel pipeline by array electrode and computational fluid dynamics

simulation,» Corrosion Science, vol. 77, pp. 334-341, 2013.

[36] R. Amaya Gomez, M. Sanchez Silva y F. Muñoz, «Pattern recognition techniques

implementation on data from In-Line Inspection (ILI),» Journal of Loss Prevention in

the Process Industries, vol. 44, pp. 735-747, 2016.

[37] M. D. Pandey y D. Lu, «Estimation of parameters of degradation growth rate

distribution from noisy measurement data,» Structural Safety, vol. 43, pp. 60-69, 2013.

[38] F. A. Vargas Bazán y A. T. Beck, «Stochastic process corrosion growth models for

pipeline reliability,» Corrosion Science, vol. 74, pp. 50-58, 2013.

Page 71: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

71

[39] S. X. Li, S. R. Yu, H. L. Zeng, J. H. Li y R. Liang, «Predicting corrosion remaining life

of underground pipelines with a mechanically-based probabilistic model,» Journal of

Petroleum Science and Engineering, vol. 65, nº 3-4, pp. 162-166, 2009.

[40] F. Caleyo, J. C. Velázquez, A. Valor y J. M. Hallen, «Probability distribution of pitting

corrosion depth and rate in underground pipelines: A Monte Carlo study,» Corrosion

Science, vol. 51, nº 9, pp. 1925-1934, 2009.

[41] NORSOK, CO2 Corrosion Rate Calculation Model, Oslo, 1998.

[42] C. de Waard y U. Lotz, «Prediction of CO2 Corrosion of Carbon Steel,» de NACE

International, Houston, United States, 1993.

[43] NACE International, «RP0502-2002 Pipeline External Corrosion Direct Assessment

Methodology,» de Standard Recommended Practice, Houston, USA, 2002.

[44] S. Timashev y A. Bushinskaya, Diagnostics and Reliability of Pipeline Systems,

Springer International Publishing, 2016.

[45] J. R. Campos, M. Vieira y E. Costa, «Exploratory Study of Machine Learning

Techniques for Supporting Failure Prediction,» de 2018 14th European Dependable

Computing Conference (EDCC), Lasi, 2018.

[46] S. Zajam, T. Joshi y B. Bhattacharya, «Application of wavelet analysis and machine

learning on vibration data from gas pipelines for structural health monitoring,» Procedia

Structural Integrity, vol. 14, pp. 712-719, 2019.

[47] B. T. Bastian, J. N, S. K. Ranjith y C. V. Jiji, «Visual inspection and characterization of

external corrosion in pipelines using deep neural network,» NDT and E International,

vol. 107, 2019.

[48] H. Liu, Z. Liu, B. Taylor y H. Dong, «Matching pipeline In-line inspection data for

corrosion characterization,» NDT and E International, vol. 101, pp. 44-52, 2019.

[49] POF, Pipeline Operators Forum, Specifications and requirements for intelligent pig

inspection of pipelines, 2009.

[50] O. Bouledroua, D. Zelmati y M. Hassani, «Inspections, statistical and reliability

assessment study of corroded pipeline,» Engineering Failure Analysis, vol. 100, pp. 1-

10, 2019.

[51] M. R. Dann y M. A. Maes, «Stochastic corrosion growth modeling for pipelines using

mass inspection data,» Reliability Engineering and System Safety, vol. 180, pp. 245-

254, 2018.

[52] G. James, D. Witten, T. Hastie y R. Tibshirani, An Introduction to Statistical Learning

with Applications in R, New York: Springer Science+Business Media, 2013.

Page 72: METODOLOGÍA PARA LA EVALUACIÓN DE LA INTEGRIDAD DE ...

72

[53] Y. Sahraoui y A. Chateauneuf, «The effects of spatial variability of the aggressiveness

of soil on system reliability of corroding underground pipelines,» International Journal

of Pressure Vessels and Piping, vol. 146, pp. 188-197, 2016.

[54] W. K. Muhlbauer, Pipeline Risk Management Manual : Ideas, Techniques, and

Resources, Amsterdam: Gulf Professional Publishing, 2004.

[55] N. V. Chawla, K. W. Bowyer, L. O. Hall y W. P. Kegelmeyer, «SMOTE: Synthetic

Minority Over-sampling Technique,» Journal of Artificial Intelligence Research, vol. 16,

pp. 321-357, 2002.

[56] G. V. Chillingar, R. Mourhatch y G. D. Al-Qahtani, The fundamentals of corrosion and

scaling for petroleum and environmental engineers, Houston: Gulf Publishing

Company, 2008.

[57] J. L. Bogdanoff y F. Kozin, Probabilistic models of cumulative damage, New York: John

Wiley and Sons, 1985.

[58] S. Hasan, F. Khan y S. Kenny, «Probability assessment of burst limit state due to

internal corrosion,» International Journal of Pressure Vessels and Piping, vol. 89, pp.

48-58, 2012.

[59] A. P. Teixeira, C. Guedes Soares, T. A. Netto y S. F. Estefen, «Reliability of pipelines

with corrosion defects,» International Journal of Pressure Vessels and Piping, vol. 85,

nº 4, pp. 228-237, 2008.

[60] A. Amirat, A. Mohamed Chateauneuf y K. Chaoui, «Reliability assessment of

underground pipelines under the combined effect of active corrosion and residual

stress,» International Journal of Pressure Vessels and Piping , vol. 83, nº 2, p. 2006.

[61] G. Bolzon, T. Boukharouba, G. Gabetta, M. Elboujdaini y M. Mellas, Integrity of

Pipelines Transporting Hydrocarbons, Dordrecht: Springer Science+Business Media,

2011.