martes, 10 de diciembre de 2019

Técnicas de recuperación y almacenamiento de la información

TÉCNICAS DE RECUPERACIÓN Y ALMACENAMIENTO DE LA INFORMACIÓN.



A todos nos ha pasado alguna vez como mínimo, si no más, de alguna foto, vídeo, archivo... que queramos volver a ver, reproducir o simplemente disfrutar de ello, y no hay manera de que aparezca.
Para ello, pues existen diversas formas o técnicas de búsqueda para estos elementos desaparecidos.




https://www.bigpubli.com/wp-content/uploads/2016/12/red-de-busqueda.jpg






Retroalimentación por relevancia: Consiste en mantener mantener el mayor número de documentos estableciendo distintas estrategias de búsqueda. Lo que viene siendo en refinar la búsqueda del/los elementos, añadiendo así algún filtro en la búsqueda o algún parámetro adicional más especifico.

De esta forma, añadiendo parámetros o filtros más específicos para la búsqueda, se dan dos ocasiones de almacenamiento y búsqueda:

·Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiada específica.

·Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes en la búsqueda. Este caso se suele dar cuando la estrategia de búsqueda es demasiado genérica.

Lógica difusa: Consultar con frases sencillas, de forma que al realizar la búsqueda, elimina artículos, puntuación, palabras comunes, etc., dejando así solo las palabras relevantes.

Estos dos métodos eran bastante simples además de que a cualquier usuario se le podría haber ocurrido intentar, por lo que pasamos a uno un pelín más complicado.

Cluster: Esta técnica es un modelo que identifica las frecuencias de los términos de búsqueda en la información recuperados. Se dan unos valores que actúan como agentes para organizar la información por orden de importancia, mediante algoritmos, por lo que la técnica del clustering también sirve para ordenar información. (Lo de los algoritmos lo vemos luego). Una muestra de como funciona la técnica del clustering:



Esto empieza con la llamada hipótesis cluster, la cuál dictamina qué documentos relacionados mediante esta técnica tienden a ser más relevantes para las mismas búsquedas.
En un fichero en el cuál se han realizado estas técnicas, los documentos que pertenecen a un mismo cluster se almacenan en unos "localizadores adyacentes" y de esta manera un único acceso permite la recuperación de todos los documentos de un mismo cluster. Por tanto en la recuperación de los parámetros de la búsqueda no se comparan con todos los documentos, sino que se comparan con el representante de cada una de las clases de la base de datos.

Sin embargo, como buena técnica, requiere obviamente de un buen algoritmo, de entre los cuales hablaremos del Algoritmo K-Means (K-medias en español).






El algoritmo k-means, es un método de agrupamiento, que tiene como objetivo, la separación de un conjunto de "n" observaciones en "m" grupos donde cada observación pertenece al grupo cuyo valor medio es más cercan.
El algoritmo estándar de este utiliza una técnica de refinamiento iterativo. También es conocido como el algoritmo de Lloyd, mayormente en la comunidad informática.
(Antes de nada, como vamos a ver, el concepto centroide se refiere a un punto el cuá expresa el centro de una figura geométrica).
Con un conjunto de "centroides" el algoritmo realiza dos pasos:
Paso de asignación: Asigna a cada observación al grupo con la media más cercana.


Paso de actualización: Calcula los nuevos centroides como el centroide de las observaciones del grupo.


Finalmente, el algoritmo se considera que ha acabado una vez las asignaciones de los centroides ya no cambian.

Claro, este algoritmo tiene unas especificas especificaciones valga la rebundancia:
Se suele usar para grandes conjuntos de datos, por lo que ha sido ampliamente usado en áreas como segmentación de mercados, geoestadística o astronomía entre otros.

Como especificaciones más concretas, encontramos:
-Código fuente escrito en C++, Python with scipy
-Software de forma libre: Apache Mahout, ELKI, SciPy o CMU's GraphLab Clustering Library
-Algunas variaciones como Fuzzy C-Means Clustering, Algoritmo esperanza-maximización... 

Bibliografía:










No hay comentarios:

Publicar un comentario