saltar al contenido
Fact Crashing™, Fact Crashing, Action Data, ¿Qué son Action Data?, Datos verbales, Evidencia basada en datos, Descubrimiento, metadatos, evidencia física, evidencia demostrativa, evidencia documental y evidencia testimonial, información almacenada electrónicamente, datos estructurados y datos no estructurados. , Información de identificación personal, iDiscovery

Esta es una introducción de varias partes a Fact Crashing™: La aceleración de la resolución de disputas a través de la priorización de evidencia basada en datos (datos de ACCIÓN).

Hay 9 Principios de Choque de hechos™. A partir de la Parte III de la serie, he discutido:

Principio 1: Los datos son evidencia y son detectables

Principio 2: los datos deben abordarse temprano

Continuemos.

Para esta entrega, responderé a la pregunta: ¿Qué son los datos de ACCIÓN?

Tradicionalmente, en el proceso de descubrimiento, las partes se enfrentan a una amplia variedad de pruebas, pero podría decirse que solo importan unas pocas categorías: pruebas físicas, pruebas demostrativas, pruebas documentales y pruebas testimoniales.

Dentro de este paradigma, la información almacenada electrónicamente (ESI) se considera prueba documental. Dentro del mundo de ESI, hay dos categorías de datos: datos estructurados y datos no estructurados. La mayoría de nosotros estamos más familiarizados con los datos no estructurados. Se trata de datos de forma libre que tienen un contenido altamente maleable, como correos electrónicos, documentos de MS Word, hojas de cálculo de MS Excel, archivos de MS PowerPoint, archivos de audio, fotos y películas. Cualquier cosa en la que el contenido no siga un diseño, formato o fórmula en particular. De ahí el término "no estructurado". Lo contrario de no estructurado es, datos de campo o datos que están estructurados. Típicamente consideradas como bases de datos, también pueden ser páginas de hojas de cálculo, archivos de carga o archivos de registro. Los datos estructurados también pueden hacer referencia a elementos con metadatos, incluidos correos electrónicos, documentos de Microsoft Office y entradas del sistema operativo.

Descubrí que gran parte de los datos estructurados con los que tratamos son de seguimiento, rastreo y transaccionales. Estos son los datos que registran su compra en Amazon™: qué compró cuando lo compró, cuántas unidades, información de pago e información de envío. Todo esto son datos estructurados (en campos). Cuando recibe el producto y publica una reseña, puede escribir lo que quiera. Por lo general, no está limitado por el contenido, solo por la longitud. Su revisión son datos no estructurados.

También resulta que los científicos de datos consideran todos los datos estructurados. De hecho, se pueden usar tres ejes de estructura para describir cualquier dato:

  • ¿Qué tan estructurado está el contenido?
  • ¿Qué tan estructurado está el almacenamiento?
  • ¿Qué tan estructurada es la recuperación?

Todos nuestros sistemas de datos se pueden medir a lo largo de estos tres ejes. Entonces, no hay datos no estructurados; solo hay datos menos estructurados. Esto siempre me recuerda a la película "The Matrix" cuando el niño le dice a Neo: "La verdad es que no hay una cuchara". Por esta analogía, podríamos considerar el correo electrónico como "datos semiestructurados" porque combina datos de campo y datos de formato libre. Del mismo modo, para mensajes de texto, mensajería instantánea, imágenes, archivos de audio, etc. Todos los datos tienden a tener algún grado de datos consistentes, altamente definidos y altamente estructurados que controlan varios aspectos del seguimiento de la creación, almacenamiento, uso, recuperación e incluso datos. disposición.

Entonces, usar términos como datos estructurados y datos no estructurados cuando todo datos tiene varios grados de estructura puede ser un nombre inapropiado.

Algunos otros descriptores pueden ser útiles:

Humano contra Instrumental

Subjetivo contra Objetivo

Ingresó contra Grabado

Manual contra automatizado

 Vago contra Preciso

Cosa análoga contra Cuántico

Variable contra Reparado

Forma libre contra definido

Contenido contra Contexto

Palabras contra Números

Ideas contra Métrica

Abstracto contra Hormigón

Lingüístico contra Matemático

Otras características también son esenciales para reconocer. El principal de ellos es la curva de costos de los datos estructurados frente a los datos no estructurados. Esto merece su propio capítulo, pero baste decir que las curvas son muy diferentes por ahora. Los datos no estructurados tienen una curva de costo lineal. Cuantos más datos tengas, más cuesta. Incluso con tecnología avanzada, podemos cambiar la pendiente de la línea, pero sigue siendo una línea.

Los datos estructurados, por otro lado, tienen una curva que refleja economías de escala aceleradas, casi acercándose a los costos fijos. Esta es una inversión inicial con costos marginales mínimos o nulos para registros adicionales por fuente de datos. Además, hay un valor compuesto para cada fuente de datos adicional, incluso cuando el costo incremental es relativamente fijo. Cada nueva fuente de datos representa costos lineales pero valor exponencial.

Por todas estas razones, sugiero el paradigma de:

ACCIÓN contra VERBAL

Los datos de ACCIÓN se centran en la transacción, la actividad, los metadatos y los datos del sistema asociados con esa actividad. Estos datos son ambientales, contextuales, transaccionales, instrumentales, operativos y navegables. También podría ser considerado: Atribuible, Codificado, Contado, Enterado, Objetivo y Necesario. En otras palabras, esto no es lo que alguien dijo que hizo (ese sería el contenido de su mensaje, correo de voz, foto). En cambio, es lo que realmente hicieron.

¿Qué es lo contrario de los datos de ACCIÓN? Serían datos VERBALES:

A diferencia de los datos de ACCIÓN, los datos VERBALES son variables, emocionales, reflexivos, BLOB, artísticos y lingüísticos. Los descriptores opcionales son Variado, Emotivo, Relatable, Básico, Procesable (Articulado y Ambiguo, también) e Idioma. Es útil pensar en el mundo de los datos en dos grupos: datos de ACCIÓN y datos VERBALES, especialmente cuando reconocemos que muchos archivos de datos contienen elementos de ambos. Fact Crashing™ se centra en los datos de ACCIÓN. Y, cuando los datos VERBALES están disponibles, buscamos formas de convertirlos en datos de ACCIÓN.

¿Cómo convertir los datos VERBALES en datos de ACCIÓN?

Agregando metadatos. Esto se hace extrayendo metadatos de los datos VERBAL o creando metadatos del contenido VERBAL. Extraemos metadatos cuando extraemos datos de los encabezados de correo electrónico y luego usamos esos campos para filtrar esos correos electrónicos. También lo hacemos cuando dibujamos propiedades de archivo de documentos de MS Office y luego usamos esos campos para filtrar esos archivos. Creamos metadatos cuando analizamos el contenido de archivos y campos de formato libre para extraer información de ellos. ¿Contienen información de identificación personal (PII)? ¿Hacen referencia a los problemas A, B o C? ¿Se relacionan con los conceptos 1, 2 o 3? ¿Se pueden categorizar como factura, contrato, entrada de calendario, SPAM? ¿El contenido es responsivo? ¿Es privilegiado? Cuando identificamos y luego registramos estas características, estamos creando metadatos.

De hecho, cada vez que analizamos datos no estructurados, nuestras computadoras en realidad se basan en características estructuradas, incluso cuando esas características son transitorias o están detrás de escena. Por ejemplo: cuando le gusta una canción en particular en Pandora®, ese sistema puede recomendarle canciones similares. ¿Como hace esto? Pandora no escucha la música, sino que se basa en metadatos pregrabados. En Pandora, cada canción está clasificada por Ph.D. musicólogos utilizando 400 características de campo diferentes que se encuentran en el Proyecto Genoma Musical. Estos cubren las cualidades de melodía, ritmo, armonía, forma, composición y letra.

Por Julia Layton en Cómo funcionan las cosas:

“Pandora se basa en un Genoma Musical que consta de 400 atributos musicales que cubren las cualidades de melodía, armonía, ritmo, forma, composición y letra. Es un proyecto que comenzó en enero de 2000 y llevó cinco años a 30 expertos en teoría musical para completarlo. The Genome se basa en un intrincado análisis realizado por humanos reales (alrededor de 20 a 30 minutos por canción de cuatro minutos) de la música de 10,000 artistas de los últimos 100 años. El análisis de música nueva continúa todos los días desde el lanzamiento en línea de Pandora en agosto de 2005. Desde mayo de 2006, la biblioteca de música de Genome contiene 400.000 canciones analizadas de 20.000 artistas contemporáneos. Todavía no encontrarás música latina o clásica: Pandora está en el proceso de desarrollar un genoma de música latina especializado y todavía está pensando profundamente en cómo abordar el mundo de la composición clásica”.

Pandora y Music Genome Project han traducido algo inherentemente VERBAL en algo que ahora es ACCIÓN. Los datos de ACCIÓN se pueden medir, comparar y clasificar. Los datos VERBALES, en su formato original, solo pueden ser leídos por Humanos. Esto es costoso y requiere mucho tiempo. En los primeros días del descubrimiento asistido por computadora, cuando trabajábamos principalmente con documentos en papel y los escaneábamos para crear repositorios de imágenes TIFF, enviábamos colecciones extensas de documentos a equipos de revisión de menor costo. Su único trabajo era "codificar" los documentos. Esta codificación bibliográfica llenó campos como Autor, Materia, Fecha, Categoría, etc. Estos campos, a su vez, se convirtieron en la base de la recuperación. Los datos VERBALES (las imágenes escaneadas) se aumentaron con datos de ACCIÓN.

Pero, ¿no podemos simplemente tratar con el texto de forma libre? Sí, pero hay limitaciones.

En el trabajo seminal de recuperación de información de Blair y Maron (1985), los abogados estaban usando el Sistema de ESCALERAS de IBM. Este fue el primer sistema documentado que permitió la búsqueda booleana (Y, O, NO, etc.) y la búsqueda por proximidad (adyacente a, mismo párrafo, etc.). Desde entonces, hemos mejorado constantemente la búsqueda de texto completo con funciones avanzadas adicionales, procesamiento de lenguaje natural, traductores de idiomas y técnicas avanzadas de recuperación de información para agrupamiento, máquinas de vectores espaciales, búsqueda de conceptos, etc.

Blair y Maron criticaron enérgicamente el sistema de recuperación de texto completo por considerarlo ineficaz para identificar los documentos correctos. Desde entonces, hemos madurado muchas tecnologías para ayudar con el manejo de datos de formato libre. Estos generalmente se agrupan bajo alguna forma de inteligencia artificial. Son mucho mejores pero todavía limitados.

¿Sería útil saber si sus correos electrónicos contienen información de identificación personal (PII)? Luego puede usar un algoritmo para buscar, identificar y luego registrar ese aspecto. al hacerlo, extraería algunos datos de ACCIÓN de sus datos VERBALES. ¿Sería útil analizar un gran grupo de comunicaciones en busca de sentimiento? Si es así, puede usar un algoritmo de análisis de sentimientos para analizar, asignar y registrar ese aspecto. Acaba de extraer algunos datos de ACCIÓN de sus datos VERBALES.

Entonces sí, podemos manejar datos VERBALES. Pero requiere mucha mano de obra, es costoso, subjetivo y puede tener grados muy variados de precisión y recuperación.

Por todas estas razones, es apropiado priorizar otras fuentes antes que los datos VERBALES. Es pertinente priorizar los datos de ACCIÓN y usarlos para aumentar los datos VERBALES. Reconocer esto es la esencia de Fact Crashing™.

En las próximas entregas, veremos cómo identificar, calificar y priorizar los datos de ACCIÓN. Una vez que se ajuste a esto, así como Neo vio Matrix como bits y bytes, puede comenzar a ver datos de ACCIÓN en todas partes.

Continúe con la Parte V de nuestra serie Fact Crashing™ >>


iDiscovery Solutions es una firma de consultoría estratégica, tecnología y servicios expertos que ofrece soluciones personalizadas de eDiscovery, desde análisis forense digital hasta testimonios de expertos para bufetes de abogados y corporaciones en los Estados Unidos y Europa.

es_ESES