提取文字的函数公式
那天,我在图书馆角落里翻阅一本关于编程的旧书,突然一个念头闪过:提取文字的函数,那得是个多简单又强大的工具啊。我随手翻开一页,上面写着:
function extractText(Content) { const parser = new DOMParser(); const doc = parser.parseFromString(Content, "text/"); const textNodes = doc.body.childNodes; let text = ''; textNodes.forEach(node => { if (node.nodeType === Node.TEXT_NODE) { text += node.nodeValue; } }); return text; }
等等,还有个事,我突然想到,这个函数在2012年杭州的一个项目里救了我一命。那时候,我们有个紧急需求,要从成千上万页的网页内容中提取关键信息。那段时间,我几乎每天都要工作到深夜,代码调试得我头昏脑胀。但就是这个函数,让我在短短几行代码里,就完成了任务。我记得那天,我站在办公室的窗边,看着窗外的夜景,心里想:原来,技术也能带来如此大的便利。
那,提取文字的函数,是不是也能应用到生活的其他方面呢?比如,从繁杂的邮件中快速找到重要信息?或者,从海量的数据中挖掘出有价值的内容?等等,还有个事,我突然想到,如果这个函数能加上一些智能分析,那岂不是更强大了?比如,自动识别并提取关键词、摘要,甚至情感分析?那,未来的世界,会是怎样的呢?
function extractText(Content) { const parser = new DOMParser(); const doc = parser.parseFromString(Content, "text/"); const textNodes = doc.body.childNodes; let text = ''; textNodes.forEach(node => { if (node.nodeType === Node.TEXT_NODE) { text += node.nodeValue; } }); return text; }
等等,还有个事,我突然想到,这个函数在2012年杭州的一个项目里救了我一命。那时候,我们有个紧急需求,要从成千上万页的网页内容中提取关键信息。那段时间,我几乎每天都要工作到深夜,代码调试得我头昏脑胀。但就是这个函数,让我在短短几行代码里,就完成了任务。我记得那天,我站在办公室的窗边,看着窗外的夜景,心里想:原来,技术也能带来如此大的便利。
那,提取文字的函数,是不是也能应用到生活的其他方面呢?比如,从繁杂的邮件中快速找到重要信息?或者,从海量的数据中挖掘出有价值的内容?等等,还有个事,我突然想到,如果这个函数能加上一些智能分析,那岂不是更强大了?比如,自动识别并提取关键词、摘要,甚至情感分析?那,未来的世界,会是怎样的呢?
说起提取文字的函数公式,这事儿得从2005年那次培训说起了。那时候我还年轻,刚进公司那会儿,公司组织了一个内部培训,教的就是这个提取文字的小技巧。
当时我听老师讲,主要用到的就是VBA(Visual Basic for Applications)语言。这个公式啊,得这样写:
vba =mid(源文本, 起始位置, 长度)
这公式里面,“源文本”就是你想要提取的原始文本,“起始位置”是你想从哪个位置开始提取,“长度”是你想提取的字符数。
举个例子,假设你有一个文本:“2023年4月,我在上海参加了行业大会”,你想提取出“2023年4月”,那公式就得写成这样:
vba =mid("2023年4月,我在上海参加了行业大会", 1, 9)
这里的1就是从文本的第一个字符开始提取,9是因为“2023年4月”一共是9个字符。
说实话,当时我也没想明白这个公式怎么来的,但是用起来还挺方便的。后来啊,随着工作的发展,我又学会了使用正则表达式来提取文本,这个就更加灵活了。不过,那都是后话了。
当时我听老师讲,主要用到的就是VBA(Visual Basic for Applications)语言。这个公式啊,得这样写:
vba =mid(源文本, 起始位置, 长度)
这公式里面,“源文本”就是你想要提取的原始文本,“起始位置”是你想从哪个位置开始提取,“长度”是你想提取的字符数。
举个例子,假设你有一个文本:“2023年4月,我在上海参加了行业大会”,你想提取出“2023年4月”,那公式就得写成这样:
vba =mid("2023年4月,我在上海参加了行业大会", 1, 9)
这里的1就是从文本的第一个字符开始提取,9是因为“2023年4月”一共是9个字符。
说实话,当时我也没想明白这个公式怎么来的,但是用起来还挺方便的。后来啊,随着工作的发展,我又学会了使用正则表达式来提取文本,这个就更加灵活了。不过,那都是后话了。