博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
solr6.6 导入 pdf/doc/txt/json/csv/xml文件
阅读量:6223 次
发布时间:2019-06-21

本文共 2399 字,大约阅读时间需要 7 分钟。

    文本主要介绍通过solr界面dataimport工具导入文件,包括pdf、doc、txt 、json、csv、xml等文件,看索引结果有什么不同。其实关键是managed-schema、solrconfig.xml和data-config.xml(需要创建)这三个配置文件。

    

  1、创建core

    启动solr,创建mycore

    solr start

    solr create -c mycore

    

 

  2、修改配置

   2.1、创建data-config.xml文件

    找到刚才创建的mycore文件夹,solr-6.6.0\server\solr\mycore,在下面的conf文件夹下建立data-config.xml文件,具体参见文件夹下solr-6.6.0\example\example-DIH\solr\tika\conf\tika-data-config.xml的内容:

    

 

    修改如下:

 

    

    fileName :(必选)使用正则表达式匹配文件

    baseDir : (必选) 文件目录

     recursive : 是否递归的获取文件,默认false

    rootEntity :在这里必须是false(除非你只想索引文件名)。在默认情况下,document元素下就是根实体了,如果没有根实体的话,直接在实体下面的实体将会被看做跟实体。

        对于根实体对应的数据库中返回的数据的每一行,solr都将生成一个document

     dataSource :如果你是用solr1.3,那就必须设为"null",因为它没使用任何dataSourde。不需要在solr1.4中指定它,它只是意味着我们不创建一个dataSource实例。在大多数情况下,

        只有一个DataSource(JdbcDataSource),当使用FileListEntityProcessor 的时候DataSource不是必须的

    processor:只有当datasource不是RDBMS时才是必须的

    onError :默认是"abort","skip"表示跳过当前文档,"continue"表示对错误视而不见

 

  2.2、修改solrconfig.xml文件

    增加如下内容:

    

data-config.xml

    

 

  2.3、修改managed-schema

    配置中文词库,具体参见:,增加如下内容:

    

 

    增加以下三列,因为id列默认已经有了,不用创建,注意title和text两个字段的类型用了上面的text_mmseg4j_complex

 

 

   3、建立依赖的jar包

    在mycore下面建立lib文件夹, 然后往lib目录copy一些 DIH依赖的jar包,这些包要么在solr-6.6.0\contrib\extraction\lib下面,要么在solr-6.6.0\dist下面,

    样做的好处是每个core依赖的jar包都存放在各自core的子目录下分类存放,更方便管理,全部扔WEB-INF\lib下杂乱无章不好管理。如图:

    

 

    再修改solrconfig.xml文件

    增加

    

 

   4、准备导入的pdf文件

    在solr-6.6.0\bin的同级文件夹solr-6.6.0\ImportData下面有要导入的文件:

    

 

  5、导入pdf

    重启solr,打开浏览器,进入 solr导入界面导入pdf数据

    

    

 

 

 

  6、查询数据

    

 

    从索引结果可以看出,每种不同的文件,所有文件的主要内容都集中到text这一个字段中。索引这种索引方式适合doc,pdf,txt,html等这种非结构化文档,而对json、csv和json这种结构化文档就不合适了。

    但是这种方式在索引docx格式的word文档发生问题,抽取不到数据,这个还不知道什么原因

    

 

 

 

    

  

    

 

    

    

转载地址:http://pqrja.baihongyu.com/

你可能感兴趣的文章
vs plug
查看>>
Jquery的冒泡事件的阻止与允许
查看>>
实践是检验真理的唯一标准 - 脱壳篇02
查看>>
8.JSP与JavaBean
查看>>
strace命令详解
查看>>
javaweb 路径问题
查看>>
xgboost算法教程(两种使用方法)
查看>>
在Android Studio上测试运行,Unity发布成Android包过程中所遇到的问题及解决方案...
查看>>
设置UIImage的渲染模式:UIImage.renderingMode
查看>>
ajax最常见的几种面试题
查看>>
横向文本框 index获取索引 和 eq 实现
查看>>
学习 WINDOWS8 的开发 Windows Metro Style Apps !
查看>>
linux中添加环境变量(python为例)
查看>>
会话断开数据保存情况
查看>>
Linux-JDK+Tomcat的安装笔记
查看>>
吴忠军百度百科
查看>>
ActiveRecord::ConnectionAdapters::SchemaStatements | 有关 Column 的常见方法笔记
查看>>
搭建ssm框架经验
查看>>
编程之美 第1章 游戏之乐——游戏中碰到的题目(四)
查看>>
对话框DLL封装
查看>>