Cómo importar datos CSV en Apache Solr: Guía paso a paso
Recientemente, te mostré el proceso de implementación de la plataforma de búsqueda de nivel empresarial, Apache Solr. Con esta herramienta, puedes tomar grandes cantidades de datos y ejecutar consultas de búsqueda potentes con resaltado de resultados, indexación en tiempo real, clustering dinámico y más.
Qué necesitarás
Para seguir esta guía, necesitarás una instancia en funcionamiento de Apache Solr (con las credenciales de usuario de Solr) y un archivo de datos CSV. Crearé un archivo CSV de ejemplo que puedes utilizar como plantilla.
Cómo crear un archivo CSV para importar
Lo primero que debes hacer es iniciar sesión en el servidor que aloja Apache Solr, ya sea a través de SSH o una sesión local. Una vez que hayas iniciado sesión, crea el nuevo archivo con el siguiente comando:
nano ~/solrdata.csv
Puedes nombrar este archivo como desees y guardarlo en cualquier directorio. Crea una fila superior que incluya los nombres de cada columna: Voy a demostrar con un archivo CSV que define países. La línea superior definirá varios elementos (como código de país, región y subregión) y se verá así:
nombre,alpha-2,alpha-3,código de país,iso_3166-2,región,subregión,región intermedia,código de región,código de subregión,código de región intermedia
El resto del archivo contendrá entradas como estas:
Afganistán,AF,AFG,004,ISO 3166-2:AF,Asia,Asia meridional,"",142,034,""
Islas Åland,AX,ALA,248,ISO 3166-2:AX,Europe,Europe del norte,"",150,154,""
Albania,AL,ALB,008,ISO 3166-2:AL,Europe,Europe del sur,"",150,039,""
Argelia,DZ,DZA,012,ISO 3166-2:DZ,Africa,Africa del norte,"",002,015,""
Samoa Americana,AS,ASM,016,ISO 3166-2:AS,Oceania,Polinesia,"",009,061,""
Andorra,AD,AND,020,ISO 3166-2:AD,Europe,Europe del sur,"",150,039,""
Angola,AO,AGO,024,ISO 3166-2:AO,Africa,África subsahariana,África central,002,202,017
Puedes descargar el archivo country.csv de ejemplo completo con el siguiente comando:
wget https://cdn.wsform.com/wp-content/uploads/2018/09/country.csv
Guarda ese archivo en el disco local de la máquina que aloja Apache Solr.
Cómo crear una nueva colección
Ahora crearemos una nueva colección para almacenar nuestros datos sobre países. La llamaremos "country_data" y la crearemos con el siguiente comando:
Cómo gestionar eficazmente grandes volúmenes de correo electrónicosu - solr -c "/opt/solr/bin/solr create -c country_data -n data_driven_schema_configs"
Se te pedirá la contraseña del usuario Solr. Una vez que te autentiques correctamente, se creará la colección y podrás continuar.
Cómo importar los datos
Cambia al directorio que contiene Solr con el siguiente comando:
cd /opt/solr
Luego, podemos importar los datos con el siguiente comando:
./bin/post -c country_data /ruta/a/country.csv
Donde /ruta/a
es la ruta exacta al directorio que contiene el archivo country.csv descargado anteriormente.
Deberías ver una salida similar a esta:
Posting files to [base] url http://localhost:8983/solr/country_data/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file country.csv (text/csv) to [base]
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/country_data/update...
Time spent: 0:00:02.674
Cómo ver los nuevos datos
Inicia sesión en la interfaz web de Apache Solr dirigiendo un navegador a http://SERVIDOR:8983
(donde SERVIDOR
es la dirección IP del servidor de alojamiento). Selecciona "country_data" del menú desplegable "newdata" en la navegación izquierda. En la ventana resultante (Figura A), haz clic en "Query".
Figura A
En la ventana resultante, haz clic en "Execute Query" sin cambiar nada y se mostrará el documento importado completo (Figura B).
Figura B
WordPerfect Office 2000: La solución perfecta para compartir documentos en diferentes plataformasSupongamos que deseas buscar información sobre Irlanda. Escribe "Irlanda" en la sección "q" (bajo "common") y haz clic en "Execute Query". El resultado solo mostrará la entrada para, acertaste, Irlanda (Figura C).
Figura C
Una forma aún más fácil de importar datos CSV
Incluso hay una forma más fácil de importar datos CSV en Apache Solr.
Supongamos que has creado una nueva colección llamada "datacollection" y deseas importar el archivo country.csv desde la interfaz web. Inicia sesión en Apache Solr, selecciona "datacollection" del menú desplegable y luego haz clic en "Documents" en la navegación izquierda. En la ventana resultante, selecciona "CSV" en el menú desplegable "Document Type" y luego copia/pega todo el contenido del archivo country.csv en la sección "Documents" (Figura D).
Figura D
Haz clic en "Submit Document" y eventualmente verás (en el panel derecho) la siguiente salida:
Cómo contar elementos en una lista de Excel utilizando la función SubtotalesStatus: success
Response:
{
"responseHeader": {
"status": 0,
"QTime": 3533
}
}
Ahora deberías poder consultar tus datos importados de la misma manera que hiciste anteriormente.
Y eso es todo lo que necesitas saber para importar datos en formato CSV en Apache Solr. Esta es una herramienta muy poderosa que facilita la búsqueda en grandes colecciones de datos. Si tu negocio depende de los datos, esta podría ser una de las muchas herramientas que necesitas.
Cómo forzar que tus archivos favoritos aparezcan en la parte superior del árbol de directoriosEn Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Software, allí encontraras muchos artículos similares a Cómo importar datos CSV en Apache Solr: Guía paso a paso , tenemos lo ultimo en tecnología 2023.
Artículos Relacionados