基于 magi_dataset 构建 ElasticSearch 搜索
date
slug
status
summary
type
tags
magi_dataset
是我为了近期的一个小项目写的数据集工具。通过这个工具,你可以快速访问从 GitHub 和 HackerNews 抓取的开源软件语料。通过这个工具,可以快速建立GitHub的语义搜索和传统检索服务,也可以基于Metarank做二者的混合搜索。本文简单介绍如何在Amazon EC2上配置Elasticsearch,然后基于
magi_dataset
向Elasticsearch导入数据。安装Elasticsearch 8.6.2
首先创建一台 EC2 Instance,系统选用 Amazon Linux。运行下列命令:
完成后理论上会自动执行安全配置,并且输出配置结果。这时记得把终端输出拷贝保存一下。然后配置
systemd
:安装完成以后可以测试一下:
在要求
Enter host password for user 'elastic'
时输入刚才复制的密码。看到如下输出表示一切正常:接下来修改 Elasticsearch 的配置。在
sudo nano /etc/elasticsearch/elasticsearch.yml
中,修改注意这里的
$EC2_IP_PRIV_ADDR
是机器的内网IP地址。然后重启服务最后我们保存
http_ca.crt
证书到本地的机器上,方便以后连接使用。首先把这个文件的所有权转换到普通用户上:然后在本地机器上运行
即可拷贝证书至本地。其中
$EC2_IP_ADDR
是这台 EC2 机器的公网 IP 地址。使用 Python 接口建立 Index
Python Elasticsearch Client 文档:
Magi Dataset 文档:
尝试手动向这个 Elasticsearch 实例添加
magi_dataset
中的数据。首先安装依赖:建立连接:
运行后显示:
下面来尝试批量上传数据。
构建一个简单的搜索: