NLP：房地产出租房源的文本摘要与关键词提取—

原文：towardsdatascience.com/nlp-text-summarization-and-keyword-extraction-on-property-rental-listings-part-1-f1b760cc7bbb?source=collection_archive---------1-----------------------#2024-07-08

在出租房源数据上实施 NLP 技术的实际应用，例如文本摘要、NER、主题建模和文本分类

https://medium.com/@kristiyanto_?source=post_page---byline--f1b760cc7bbb--------------------------------https://towardsdatascience.com/?source=post_page---byline--f1b760cc7bbb-------------------------------- Daniel Kristiyanto

·发表于Towards Data Science ·阅读时间 10 分钟·2024 年 7 月 8 日

–

介绍

自然语言处理（NLP）可以显著提升出租房源描述的分析和可用性。在本次实践中，我们将探索 NLP 技术的实际应用，例如文本摘要、命名实体识别（NER）和主题建模，以提取洞察并丰富东京 Airbnb 房源数据的描述。使用公开的可用数据和像 spaCy 与 SciKit-Learn 这样的工具，您可以跟随教程，复制结果，或将这些技术应用于自己的文本数据，只需进行最小的调整。代码库可在GitHub上获取，您可以进行分叉并进行实验。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/264198623a04de117747b2f69f02975b.png

本文展示了使用多种 NLP 技术，从房产出租描述数据（左）中提取信息，并将其转化为更具信息量的描述（右）。文中的所有图片均由作者制作。代码和 Jupyter 笔记本可在GitHub上找到，数据可以在insideairbnb.com上获取，并遵循创意共享署名协议。

第一部分（本文）涵盖基础内容：目标、数据及其准备工作，以及用于提取关键词和文本摘要的各种技术，如命名实体识别（NER）、TF-IDF / 句子评分、以及谷歌的 T5（文本到文本的转换器）。我们还将涉及如何利用这些见解来提升用户体验 — 包括服务建议。

第二部分（即将发布）涵盖主题建模和文本预测：第二部分将展示如何在无标签数据上执行主题建模。即将发布的文章将讨论诸如聚类等技术，帮助揭示隐藏的主题，并构建一个预测模型，以根据房源类别和主题对租赁房源进行分类。

目标

任务很简单：

给定的示例输入：租赁描述

生成输出：

关键词：“商业街”、”商店”、或 “靠近车站”
关键词有助于可视化数据、揭示主题、识别相似性，并改善前端的搜索功能。有关如何使用这些关键词的建议，请参见本文底部。
摘要：一到两句话，约 80 个字符。
摘要提供简洁的信息，通过快速传达列表中的最重要方面，提升用户体验。
主题/话题：“优越的交通连接”、”适合家庭入住”
对共享相同主题的房源进行分类可以作为推荐系统，帮助用户找到符合他们偏好的房源。与单个关键词不同，这些主题可以涵盖多个关键词（如厨房、桌子、单人床、长期出租 => “数字游牧者友好”）。我们将在第二部分（即将发布的文章）深入讨论这个问题。

章节：

数据与准备
获取数据、清理数据、定制词形还原
文本摘要
TFIDF/句子评分、深度学习、LLM（T5）、评估
使用 NER 提取关键词
正则表达式、匹配器、深度学习
服务建议

1. 数据与准备

我们的数据集由来自insideairbnb.com的租赁房源描述组成，遵循创意共享署名 4.0 国际许可证。我们专注于物业所有者撰写的文本。数据包含近 15,000 个租赁描述，主要为英文。用日文书写的记录（令人惊讶的是，只有少数几条！）在数据清理过程中已被移除，数据清理还包括去除重复记录和刮取器留下的 HTML 残余。由于大量数据去重，可能是由于网络抓取工具的副产品，或者可能是更复杂的问题（例如，房东发布了多个相同的房源），数据清理使得原始数据量减少了约一半。

1a. spaCy 流水线

一旦数据清洗完成，我们就可以开始构建 spaCy 管道。我们可以从一个空白模板开始，或者使用像 en_core_web_sm 这样的预训练模型来处理英文文档。这个模型包含一个强大的管道，包含：

分词（Tokenization）：将文本拆分为单词、标点符号等。
词性标注（Part-of-Speech Tagging）：将单词标记为名词、动词等。
依存句法分析（Dependency Parsing）：识别单词之间的关系。
句子分割器（Sentencizer）：将文档拆分为句子。
词形还原（Lemmatization）：将词汇简化为其基本形式（例如，seeing、see、saw、seen）。
属性规则（Attribute Ruler）：添加、删除或更改标记的属性。
命名实体识别（NER）：识别命名实体的类别（人名、地名等）。

1b. 自定义词形还原

即使是像 en_core_web_sm 这样的经过严格测试的管道，通常也需要进行调整以涵盖特定的用例。例如，租赁行业中常用的缩写（例如，br 代表卧室，apt 代表公寓，st 代表街道）可以通过自定义词形还原引入到管道中。为了评估这一点，我们可以比较在有和没有自定义词形还原的管道中，token.lemma_的数量。如果需要，还可以使用其他更强大的预制管道，如 en_core_web_md（中型）或 en_core_web_lg（大型）。

在生产级项目中，需要更全面的列表，可能还需要更严格的数据清洗。例如，表情符号和类似表情符号的符号经常出现在受文化影响的写作中，如日本用户的写作中。这些符号可能会引入噪音，需要特定的处理，如删除或转换。其他数据预处理，如更强大的句子边界检测器，也可能是必要的，以处理缺少空格的句子，例如*“这是一个句子。这也是。还有这个。还有这个。但是，不，这个 Next.js 是一个有效的术语，而不是两个句子！”*

2. 文本摘要

在东京选择租赁选项可能让人不知所措。每个房源都声称是理想的家。然而，数据显示，房产描述常常不尽如人意——它们可能过于冗长，令人沮丧地简短，或者被不相关的细节弄得杂乱无章；这就是为什么文本摘要技术非常有用的原因。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a24a755fb9b1d8b693867f92b9a33236.png

句子评分，以选择最具信息量的句子作为摘要（右图），来自描述（左图）。

3. 使用命名实体识别（NER）进行关键词提取

尽管摘要很有帮助，但关键词有不同的用途。关键词捕捉了潜在租客可能关注的最关键方面。为了提取关键词，我们可以使用 NLP 技术，例如命名实体识别（NER）。这个过程不仅仅是识别频繁出现的词汇。通过考虑诸如词语共现和与租赁列表领域相关性等因素，我们可以提取出关键信息。这些信息可以是单个词，例如‘豪华的’（形容词）、‘银座’（地点），或者像‘安静的环境’（名词短语）或‘靠近新宿’（接近性）这样的短语。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e5d3925865319e0c06d69ec78b94d253.png

评估 NER：SpaCy 内置的命名实体识别（NER）表现良好，但某些实体类型可能需要额外的训练数据以达到最佳准确度。（NER 代表命名实体识别，GPE：地理政治实体）

3a. 难度：简单 — 正则表达式

字符串操作中的“find”函数，加上正则表达式，可以完成关键词查找的工作。然而，这种方法需要一个详尽的单词和模式列表，而这在某些情况下并不实际。如果有一个详尽的关键词列表可供查找（例如，金融相关项目中的股票交易所缩写），正则表达式可能是最简单的方式。

3b. 水平：中级 — 匹配器

虽然正则表达式可以用于简单的关键词提取，但由于需要大量的规则列表，覆盖所有情况变得非常困难。幸运的是，大多数自然语言处理（NLP）工具都具备开箱即用的命名实体识别（NER）功能。例如，Natural Language Toolkit（NLTK）有命名实体分块器，而 spaCy 则有匹配器（Matcher）。

匹配器允许你根据语言特征，如词性标签或特定关键词，定义模式。这些模式可以与租赁描述进行匹配，从而识别相关的关键词和短语。这种方法能够捕捉单个词（如东京）和有意义的短语（如美丽的房子），这些更能代表房产的卖点。

noun_phrases_patterns=[[{'POS':'NUM'},{'POS':'NOUN'}],#example: 2 bedrooms[{'POS':'ADJ','OP':'*'},{'POS':'NOUN'}],#example: beautiful house[{'POS':'NOUN','OP':'+'}],#example: house]# Geo-political entitygpe_patterns=[[{'ENT_TYPE':'GPE'}],#example: Tokyo]# Proximityproximity_patterns=[# example: near airport[{'POS':'ADJ'},{'POS':'ADP'},{'POS':'NOUN','ENT_TYPE':'FAC','OP':'?'}],# example: near to Narita[{'POS':'ADJ'},{'POS':'ADP'},{'POS':'PROPN','ENT_TYPE':'FAC','OP':'?'}]]