标签: NLP

Ray: A Distributed System for AI

随着机器学习算法和技术的进步,越来越多的机器学习应用需要多台机器并行性执行。但是,在集群上进行机器学习的基础设施仍然是不够成熟的。虽然确实存在针对特定用例(例如,参数服务器或超参数搜索)和AI之外的高质量分布式系统的良好解决方案(例如,Hadoop或Spark),但是开发算法的从业者通常从头开始构建他们自己的系统基础结构。

基于全文检索引擎的语义向量编码和相似度检索

我们都知道Lucene只能解决文本层面的检索与相似度计算(TFIDF,BM25),无法解决语义层面的检索。尤其在当前机器学习如此火热的情况下,我们已经有很多方式对一个文本转为向量进行语义表征,所以在很多场景下我们会遇到向量检索的问题。

编辑距离

当我们在电商网站上搜索一个关键词想买一个东西的,例如:“appe”这个词,但是这个词对于电商网站来说,并没有相应的商品,但是如果直接返回空的列表页的话,用户体验还是相当差的,所以通常电商网站上会给出:

  • 你是不是想搜索“apple”
  • 直接返回apple对应的结果

这其实就是拼写纠错。