# 1. 查看表的存储目录(先执行show create table your_table;找到LOCATION) hdfs dfs -ls /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06 # 2. 【新增】备份原目录小文件(防止误删,关键!) hdfs dfs -mkdir -p /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak hdfs dfs -cp /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak/ # 3. 将小文件合并为一个大文件到本地 hdfs dfs -getmerge /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* /tmp/merged_file.txt # 4. 按128MB拆分本地合并文件(生成merged_file_000、merged_file_001...,数字后缀更易读) split -b 128M -d -a 3 /tmp/merged_file.txt /tmp/merged_file_ # 5. 删除原目录的小文件 hdfs dfs -rm /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* # 6. 批量上传拆分后的128MB文件到原目录 for file in /tmp/merged_file_*; do hdfs dfs -put $file /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/ done # 7. 刷新Hive元数据 hive -e "MSCK REPAIR TABLE your_db.your_table;" # 8. 【新增】验证数据完整性(对比合并前后行数,可选但推荐) echo "原数据行数:$(hdfs dfs -cat /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06_bak/* | wc -l)" echo "新数据行数:$(hdfs dfs -cat /user/hive/warehouse/your_db.db/your_table/pt=2026-01-06/* | wc -l)" # 9. 【可选】清理本地临时文件(释放磁盘空间) rm -rf /tmp/merged_file.txt /tmp/merged_file_*小文件自动化处理流程
张小明
前端开发工程师
什么是MD-CLI
文章目录CLI和MD-CLI是什么为什么要有MD-CLIMD-CLI和传统CLI相比有什么优势MD-CLI和YANG是如何对应的MD-CLI(Model-Driven Command Line Interface)是基于YANG模型生成的既有机机交互又有人机交互能力的命令行工具。相比传统CLI,具有配置逻辑…
和谐哈希(Harmonious Hashing)学习算法详解
和谐哈希(Harmonious Hashing,简称HamH)是一种高效的无监督哈希学习方法,通过结合主成分分析(PCA)和正交旋转优化,在低维空间中生成均衡的二进制码。这种方法确保各比特位携带独立且平衡的信息,避免传统PCA哈希中可能出现的比特冗余或方差不均问题,非常适合高维数据的…
口碑好的无轨平车哪家好
口碑好的无轨平车哪家好在工业领域,无轨平车作为一种重要的物料运输设备,其质量和口碑备受关注。那么,口碑好的无轨平车哪家好呢?杭州龙立智能科技值得重点关注。卓越的技术实力杭州龙立智能科技在无轨平车的研发上投入了大量精力…
线性判别分析(LDA)
原文:towardsdatascience.com/linear-discriminant-analysis-lda-598d8e90f8b9?sourcecollection_archive---------3-----------------------#2024-10-12 发现 LDA 如何帮助识别关键数据特征 https://medium.com/ingo.nowitzky?sourcepost_page---byline--598d8e…
优质正版素材平台实战指南:四大资源库深度解析
在数字创作领域,优质素材是作品成功的基石,而正版授权则是专业创作的底线。面对市场上众多的素材平台,如何根据项目需求精准选择?本文将深入解析四个具有代表性的正版素材平台——国内领先的制片帮与国际知名的Shutterstock、Pond…
RAG技术2025年演进:从检索增强生成到上下文引擎,程序员必学大模型关键技术
文章回顾2025年RAG技术的发展历程,分析其面临的争议与挑战,探讨RAG与长上下文技术的比较、优化路径(如TreeRAG、GraphRAG)以及从知识库向数据底座的演进。RAG技术正从"检索增强生成"升维为以"智能检索"为核心能力的"上下文引擎…