Questions tagged «hadoop»


1
导入后但在hive导入之前的Sqoop JDBC连接超时
我们正在使用Sqoop v1.4.4 14/05/27 13:49:14 INFO sqoop.Sqoop: Running Sqoop version: 1.4.4-cdh5.0.0 Sqoop 1.4.4-cdh5.0.0 git commit id 8e266e052e423af592871e2dfe09d54c03f6a0e8 当我从Oracle导入一个表需要超过1小时的时间来提取时,我在Sqoop尝试将数据从临时HDFS位置导入Hive时会收到以下错误消息: 14/05/27 13:05:51 INFO mapreduce.ImportJobBase: Transferred 47.2606 GB in 6,389.4644 seconds (6.7206 MB/sec) 14/05/27 13:05:51 INFO mapreduce.ImportJobBase: Retrieved 98235461 records. 14/05/27 13:05:51 DEBUG util.ClassLoaderStack: Restoring classloader: sun.misc.Launcher$AppClassLoader@566d0085 14/05/27 13:05:51 DEBUG hive.HiveImport: Hive.inputTable: WAREHOUSE.MY_BIG_TABLE 14/05/27 …
1 hadoop  sqoop 

1
如何删除linux中的大量文件/文件夹
我们使用hadoop将一个表拆分成较小的文件以供给mahout,但在此过程中,我们创建了大量的_temporary日志。 我们有一个用于hadoop卷的NFS挂载,所以我们可以使用所有linux命令来删除文件夹文件,但我们无法将它们删除,这是我到目前为止所尝试的: hadoop fs -rmr /.../_temporary : hangs for hours and does nothing 在NFS安装上: rmr -rf /.../_temporary :hangs for hours and does nothing find . -name '*.*' -type f -delete : same as above 文件夹看起来像这样(_temporary中的38个文件夹): drwxr-xr-x 319324 user user 319322 Oct 24 12:12 _attempt_201310221525_0404_r_000000_0 这些内容实际上是文件夹,而不是文件。这些319322文件夹中的每一个都只有一个文件。不知道为什么以这种方式进行记录。
1 linux  nfs  hadoop 

1
YARN 3和Spark:分配GPU
我找不到有效的Spark选项来要求执行者使用GPU。 我正在尝试设置HADOOP集群,以便通过Spark在可用的GPU上运行机器学习算法。 到目前为止,我正在尝试使用最小的群集(1个资源管理器和2个节点管理器(每个具有8cores,32Gb RAM,1个Nvidia GPU))进行设置,每个人都运行Ubuntu 18.04。 资源发现按预期工作(我看到了16个内核,56Gb内存和2个yarn.io/gpu) 该文档提供了一种使用“ --conf spark.yarn.executor.resource.yarn.io/gpu=1”的方法,但这对我不起作用(无论在spark-submit命令参数中还是在$ SPARK_CONF / metrics.properties)。 由于YARN 3是第一个提供GPU隔离的应用程序,因此我尝试避免回滚到较旧(/有更多文献记载)的版本。 我猜这可以通过SparkContext在代码中设置,并且很高兴知道如何做,但是由于我比ML工程师更喜欢管理,我宁愿一劳永逸地将它设置在conf文件中。无论如何在这一点上,任何解决方案将不胜感激。 是否有人愿意提供良好的语法来分配启用了资源隔离的GPU? 爱你们,凯文 (HortonWorks HDP上的纱线3.1.1 / 3.2.0)
1 gpu  cluster  hadoop 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.