如何安装 Spark NLP

有关如何使 Spark NLP 在本地计算机上运行的分步教程 — Apache Spark 是一个用于快速和通用数据处理的开源框架。它提供了一个统一的引擎,可以以快速和分布式的方式运行复杂的分析,包括机器学习。 Spark NLP 是一个 Apache Spark 模块,它为 Spark 应用程序提供高级自然语言处理 (NLP) 功能。它…

Environment Setup

如何安装 Spark NLP

有关如何使 Spark NLP 在本地计算机上运行的分步教程

如何安装 Spark NLP

Apache Spark 是一个用于快速和通用数据处理的开源框架。它提供了一个统一的引擎,可以以快速和分布式的方式运行复杂的分析,包括机器学习。

Spark NLP 是一个 Apache Spark 模块,它为 Spark 应用程序提供高级自然语言处理 (NLP) 功能。它可用于构建复杂的文本处理管道,包括标记化、句子拆分、词性标注、解析和命名实体识别。

尽管描述如何安装 Spark NLP 的文档非常清楚,但有时您在安装时可能会卡住。出于这个原因,在本文中,我将尝试描述使 Spark NLP 在您的计算机上运行的分步过程。

要安装 Spark NLP,您应该安装以下工具:

  • Python
  • Java
  • Scala
  • Apache Spark
  • PySpark
  • Spark NLP.

1 Python

您已经按照技术要求部分中描述的过程安装了 Python。因此,我们可以从第二步 Java 开始安装软件。

2 Java

Spark NLP 构建在 Apache Spark 之上,可以安装在任何支持 Java 8 的操作系统上。通过在终端中运行以下命令来检查您是否拥有 Java 8:

java –version

如果已经安装了 Java,您应该会看到以下输出:

openjdk version “1.8.0_322”
OpenJDK Runtime Environment (build 1.8.0_322-bre_2022_02_28_15_01-b00)
OpenJDK 64-Bit Server VM (build 25.322-b00, mixed mode)

如果未安装 Java 8,您可以从此链接下载 Java 8 并按照向导进行操作。[0]

在 Ubuntu 中,您可以通过包管理器安装 openjdk-8:

sudo apt-get install openjdk-8-jre

在 Mac OS 中,您可以通过 brew 安装 openjdk-8:

brew install openjdk@8

如果您安装了其他版本的 Java,您可以下载 Java 8,如前所述,然后将 JAVA_HOME 环境变量设置为 Java 8 目录的路径。

3 Scala

Apache Spark 需要 scala 2.12 或 2.13 才能正常工作。您可以按照此处描述的过程安装 scala 2.12.15。[0][1]

安装后,您可以通过运行以下命令来验证 scala 是否正常工作:

scala -version

4 Apache Spark

您可以从其官方网站下载 Apache Spark,可在此处获得。 Apache Spark 有很多版本。就个人而言,我已经安装了 3.1.2 版,可以在此处获得。[0][1]

您下载该软件包,然后您可以将其解压缩,并将其放在文件系统中您想要的任何位置。然后,您需要将 spark 目录中包含的 bin 目录的路径添加到 PATH 环境变量中。在 Unix 中,您可以导出 PATH 变量:

export PATH=$PATH:/path/to/spark/bin

然后,将 SPARK_HOME 环境变量与 spark 目录的路径一起导出。在 Unix 中,您可以按如下方式导出 SPARK_HOME 变量:

export SPARK_HOME=”/path/to/spark”

要检查 Apache Spark 是否安装正确,可以运行以下命令:

spark-shell

外壳应该打开:

Welcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ `/ __/ ‘_//___/ .__/\_,_/_/ /_/\_\ version 3.1.2/_/Using Scala version 2.12.15 (OpenJDK 64-Bit Server VM, Java 1.8.0_322)Type in expressions to have them evaluated.Type :help for more information.scala>

要退出 shell,可以使用 Ctrl+C。

5 PySpark 和 Spark NLP

PySpark 和 Spark NLP 是两个 Python 库,可以通过 pip 安装:

pip install pyspark
pip install spark-nlp

现在 Spark NLP 应该已在您的计算机上准备就绪!

Summary

恭喜!您刚刚在计算机上安装了 Spark NLP!您已经安装了 Java、Scala、Apache Spark、Spark NLP 和 PySpark!

现在是玩 Spark NLP 的时候了。网上有很多教程。我建议您从以下笔记本开始:

  • 如何使用 Spark NLP 预训练管道[0]
  • 深入了解 Spark NLP。[0]

您还可以查看本教程,该教程解释了如何将 Spark NLP 与 Comet 集成,Comet 是一个用于监控机器学习实验的平台[0]

如果你已经读了这么多,对我来说今天已经很多了。谢谢!您可以在此链接上阅读我的热门文章。[0]

Related Articles

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2022年6月14日 上午11:12
下一篇 2022年6月14日 上午11:18

相关推荐