javascript实现页面内关键词高亮显示代码_javascript技巧_脚本之家

2019-12-01 12:47栏目:竞技宝竞猜
TAG:

复制代码 代码如下:

这是跟着《python网络数据采集》这本书做的一个小练习。书里爬的是维基,我自己写的是百度百科。

在javascript中,要判断字符串是中文是很简单的。比如:

关键字高亮显示

爬取百科页面用了BeautifulSoup,注意的是百度百科的文本内容全都放在<div class="para">中。

复制代码 代码如下:

百度是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的

由于百度百科URL中链接中含有中文字符,而python3中urllib.parse中quote()函数可以处理中文字符,因此创建了一个函数用于处理爬虫起始时的中文字符。

var str = "php编程";
if (/^[u4e00-u9fa5]+$/.test(str)) {
alert("该字符串全部是中文");
} else {
alert("该字符串不全部是中文");
}

信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执着追求。

def quote(item):
    if item is None or item.strip() is None:
        return None
    if isinstance(item,bytes):
        item = item.decode('utf-8')
    return urllib.parse.quote(item)

想当然的,在php中来判断字符串是否为中文,就会沿袭这个思路:

完整代码如下:

复制代码 代码如下:

import urllib.request
import urllib,re
from bs4 import BeautifulSoup

#处理URL中文部分
def quote(item):
    if item is None or item.strip() is None:
        return None
    if isinstance(item,bytes):
        item = item.decode('utf-8')
    return urllib.parse.quote(item)

#用beautifulsoup获取需要的html页面,tag指的是bs4里的参数tag,key_dict是bs4里过滤tag的dict参数
def gettext(url,tag,key_dict):
    html = urllib.request.urlopen(url)
    if html is None:
        return None
    try:
        bsObj = BeautifulSoup(html.read(),'lxml')
        text = bsObj.findAll(tag,key_dict)
    except Exception as e:
        pass
    return text

#将content和url写入到txt文件中
def write_txt(url,content):
    url = 'https://baike.baidu.com'+url
    #采取追加的方式将数据写入文件
    file_write = open(r'.baidubaike.txt','a')
    try:
        file_write.write('n'+url+','+content)
        file_write.flush()
    except Exception as e:
        pass
    finally:
        file_write.close()

#从获得的页面中解析出新的url以及词条名称
def geturl(match_string,url,tag,key_dict):
    listofitem = []
    content = []
    text = gettext(url,tag,key_dict)
    if text is None:
        return None
    for t in text:
        t = str(t)
        result = match_string.match(t)
        if result is not None:
            listofitem.append(result.group(1))
            #替换爬取的内容中存在的html标签
            c = str(result.group(2)).replace('<b>','')
            content.append(c)
            #一边爬取数据一边将数据存储到txt文件中
            write_txt(result.group(1),c)
    if len(listofitem) == 0:
        return None
    return (listofitem,content)

if __name__ == '__main__':
    #get_items用于存储已经爬取过的页面URL
    get_items = []
    url = 'https://baike.baidu.com'
    item = quote('美术')
    item_match = re.compile(r'<div.*?class="para.*?".*?>.*?<a.*?href="(.*?)".*?>(.*?)</a>')
    tag = 'div'
    key_dict = {'class':'para'}
    (items,content) = geturl(item_match,url+'/item/%s'%item,tag,key_dict)
    if(items,content) is not None:
        while(True):
            newurl = url + items[0]
            (i,c) = geturl(item_match,newurl,tag,key_dict)
            if (i,c) is not None:
                items.extend(i)
                content.extend(c)
                get_items.append(newurl)
                items.remove(items[0])
                #解析5张页面
                if len(get_items) == 5:
                    break

<?php
$str = "php编程";
if (preg_match("/^[u4e00-u9fa5]+$/",$str)) {
print("该字符串全部是中文");
} else {
print("该字符串不全部是中文");
}
?>

版权声明:本文由龙竞技官网发布于竞技宝竞猜,转载请注明出处:javascript实现页面内关键词高亮显示代码_javascript技巧_脚本之家