基于 magi_dataset 构建 ElasticSearch 搜索
date
slug
status
summary
type
tags
notion image
magi_dataset 是我为了近期的一个小项目写的数据集工具。通过这个工具,你可以快速访问从 GitHub 和 HackerNews 抓取的开源软件语料。通过这个工具,可以快速建立GitHub的语义搜索和传统检索服务,也可以基于Metarank做二者的混合搜索。
本文简单介绍如何在Amazon EC2上配置Elasticsearch,然后基于 magi_dataset向Elasticsearch导入数据。

安装Elasticsearch 8.6.2

首先创建一台 EC2 Instance,系统选用 Amazon Linux。运行下列命令:
完成后理论上会自动执行安全配置,并且输出配置结果。这时记得把终端输出拷贝保存一下。然后配置 systemd
安装完成以后可以测试一下:
在要求 Enter host password for user 'elastic' 时输入刚才复制的密码。看到如下输出表示一切正常:
接下来修改 Elasticsearch 的配置。在sudo nano /etc/elasticsearch/elasticsearch.yml中,修改
注意这里的$EC2_IP_PRIV_ADDR是机器的内网IP地址。然后重启服务
最后我们保存 http_ca.crt 证书到本地的机器上,方便以后连接使用。首先把这个文件的所有权转换到普通用户上:
然后在本地机器上运行
即可拷贝证书至本地。其中 $EC2_IP_ADDR 是这台 EC2 机器的公网 IP 地址。

使用 Python 接口建立 Index

Python Elasticsearch Client 文档:
Magi Dataset 文档:
尝试手动向这个 Elasticsearch 实例添加 magi_dataset 中的数据。首先安装依赖:
建立连接:
运行后显示:
下面来尝试批量上传数据。
构建一个简单的搜索:
 

© Enoch2090 2018-2025