当前位置:
首页
博客
博客详情

Viterbi算法实战案例（天气变化、词性预测）

奋斗吧

奋斗吧

擅长邻域：未填写

标签： Viterbi算法实战案例（天气变化、词性预测）博客 51CTO博客

2023-05-05 18:24:08 359浏览

Viterbi算法实战案例（天气变化、词性预测），Viterbi算法实战案例（天气预测、词性预测）人类活动与天气的预测单词词性的预测Viterbi算法图解笔记人类活动与天气的预测案例Viterbi.java的代码：packagecom.hankcs.book.ch01;/***维特比算法*@authorhankcs*/publicclassViterbi{/**...

Viterbi算法实战案例（天气预测、词性预测）

前置知识：

时间复杂度、递归算法、动态规划算法
贝叶斯公式、条件概率、联合概率
NLP自然语言处理

本文讲解内容：

天气变化的案例（代码）：给定三个矩阵参数π、A、B。π是第一天为晴天、雨天的概率；A是晴天、雨天相互转换的状态矩阵，B是晴天雨天状态与活动（散步、购物、打扫卫生）的转移概率矩阵。如果某人三天的活动分别是散步、购物、打扫卫生，问：这三天的天气怎么样？（下雨还是晴天））
单词词性的预测案例（代码）：使用维特比算法预测词性。
Viterbi算法图解笔记

天气变化的案例的笔记如下：

Viterbi算法实战案例（天气变化、词性预测）_System

Viterbi算法实战案例（天气变化、词性预测）_词性_02

Viterbi算法实战案例（天气变化、词性预测）_词性_03

天气变化的案例

Viterbi.java的代码：

package com.hankcs.book.ch01;

/**
 * 维特比算法
 * @author hankcs
 */
public class Viterbi
{
    /**
     * 求解HMM模型
     * @param obs 观测序列
     * @param states 隐状态
     * @param start_p 初始概率（隐状态）
     * @param trans_p 转移概率（隐状态）
     * @param emit_p 发射概率 （隐状态表现为显状态的概率）
     * @return 最可能的序列
     */
    public static int[] compute(int[] obs, int[] states, double[] start_p, double[][] trans_p, double[][] emit_p)
    {
        double[][] V = new double[obs.length][states.length];
        int[][] path = new int[states.length][obs.length];

        for (int y : states)
        {
            V[0][y] = start_p[y] * emit_p[y][obs[0]];
            path[y][0] = y;
        }

        for (int t = 1; t < obs.length; ++t)
        {
            int[][] newpath = new int[states.length][obs.length];

            for (int y : states)
            {
                double prob = -1;
                int state;
                for (int y0 : states)
                {
                    double nprob = V[t - 1][y0] * trans_p[y0][y] * emit_p[y][obs[t]];
                    if (nprob > prob)
                    {
                        prob = nprob;
                        state = y0;
                        // 记录最大概率
                        V[t][y] = prob;
                        // 记录路径
                        System.arraycopy(path[state], 0, newpath[y], 0, t);
                        newpath[y][t] = y;
                    }
                }
            }

            path = newpath;
        }

        double prob = -1;
        int state = 0;
        for (int y : states)
        {
            if (V[obs.length - 1][y] > prob)
            {
                prob = V[obs.length - 1][y];
                state = y;
            }
        }

        return path[state];
    }
}

WeatherExample.java的代码：

package com.hankcs.book.ch01;
import static com.hankcs.book.ch01.WeatherExample.Weather.*;
import static com.hankcs.book.ch01.WeatherExample.Activity.*;
public class WeatherExample
{
    enum Weather
    {
        Rainy,
        Sunny,
    }
    enum Activity
    {
        walk,
        shop,
        clean,
    }
    static int[] states = new int[]{Rainy.ordinal(), Sunny.ordinal()};
    static int[] observations = new int[]{walk.ordinal(), shop.ordinal(), clean.ordinal(), shop.ordinal(), walk.ordinal()};
    static double[] start_probability = new double[]{0.6, 0.4};
    static double[][] transititon_probability = new double[][]{
            {0.7, 0.3},
            {0.4, 0.6},
    };
    static double[][] emission_probability = new double[][]{
            {0.1, 0.4, 0.5},
            {0.6, 0.3, 0.1},
    };

    public static void main(String[] args)
    {
        int[] result = Viterbi.compute(observations, states, start_probability, transititon_probability, emission_probability);
        for (int r : result)
        {
            System.out.print(Weather.values()[r] + " ");
        }
        System.out.println();
    }
}

运行结果如下：

Sunny Rainy Rainy Rainy Sunny

词性预测案例

#!/usr/bin/env python
# coding: utf-8

# In[1]:


tag2id, id2tag = {}, {}  # maps tag to id . tag2id: {"VB": 0, "NNP":1,..} , id2tag: {0: "VB", 1: "NNP"....}
word2id, id2word = {}, {} # maps word to id

for line in open('traindata.txt'):
    items = line.split('/')
    word, tag = items[0], items[1].rstrip()  # 抽取每一行里的单词和词性
    
    if word not in word2id:
        word2id[word] = len(word2id)
        id2word[len(id2word)] = word
    if tag not in tag2id:
        tag2id[tag] = len(tag2id)
        id2tag[len(id2tag)] = tag

M = len(word2id)  # M: 词典的大小、# of words in dictionary
N = len(tag2id)   # N: 词性的种类个数  # of tags in tag set


# In[2]:


# 构建 pi, A, B
import numpy as np
pi = np.zeros(N)   # 每个词性出现在句子中第一个位置的概率,  N: # of tags  pi[i]: tag i出现在句子中第一个位置的概率
A = np.zeros((N, M)) # A[i][j]: 给定tag i, 出现单词j的概率。 N: # of tags M: # of words in dictionary
B = np.zeros((N,N))  # B[i][j]: 之前的状态是i, 之后转换成转态j的概率 N: # of tags


# In[3]:


prev_tag = ""
for line in open('traindata.txt'):
    items = line.split('/')
    wordId, tagId = word2id[items[0]], tag2id[items[1].rstrip()]
    if prev_tag == "":  # 这意味着是句子的开始
        pi[tagId] += 1
        A[tagId][wordId] += 1
    else:  # 如果不是句子的开头
        A[tagId][wordId] += 1
        B[tag2id[prev_tag]][tagId] += 1
    
    if items[0] == ".":
        prev_tag = ""
    else:
        prev_tag = items[1].rstrip()

# normalize
pi = pi/sum(pi)
for i in range(N):
    A[i] /= sum(A[i])
    B[i] /= sum(B[i])

#  到此为止计算完了模型的所有的参数： pi, A, B


# In[4]:


def log(v):
    if v == 0:
        return np.log(v+0.000001)
    return np.log(v)


# In[5]:


def viterbi(x, pi, A, B):
    """
    x: user input string/sentence: x: "I like playing soccer"
    pi: initial probability of tags
    A: 给定tag, 每个单词出现的概率
    B: tag之间的转移概率
    """
    x = [word2id[word] for word in x.split(" ")]  # x: [4521, 412, 542 ..]
    T = len(x)
    
    dp = np.zeros((T,N))  # dp[i][j]: w1...wi, 假设wi的tag是第j个tag
    ptr = np.array([[0 for x in range(N)] for y in range(T)] ) # T*N
    # TODO: ptr = np.zeros((T,N), dtype=int)
    
    for j in range(N): # basecase for DP算法
        dp[0][j] = log(pi[j]) + log(A[j][x[0]])
    
    for i in range(1,T): # 每个单词
        for j in range(N):  # 每个词性
            # TODO: 以下几行代码可以写成一行（vectorize的操作， 会使得效率变高）
            dp[i][j] = -9999999
            for k in range(N): # 从每一个k可以到达j
                score = dp[i-1][k] + log(B[k][j]) + log(A[j][x[i]])
                if score > dp[i][j]:
                    dp[i][j] = score
                    ptr[i][j] = k
    
    # decoding: 把最好的tag sequence 打印出来
    best_seq = [0]*T  # best_seq = [1,5,2,23,4,...]  
    # step1: 找出对应于最后一个单词的词性
    best_seq[T-1] = np.argmax(dp[T-1])
    
    # step2: 通过从后到前的循环来依次求出每个单词的词性
    for i in range(T-2, -1, -1): # T-2, T-1,... 1, 0
        best_seq[i] = ptr[i+1][best_seq[i+1]]
        
    # 到目前为止, best_seq存放了对应于x的 词性序列
    for i in range(len(best_seq)):
        print (id2tag[best_seq[i]])
    


# In[6]:


x = "Social Security number , passport number and details about the services provided for the payment"
viterbi(x, pi, A, B)

词性预测的结果如下：

NNP
NNP
NN
,
NN
NN
CC
NNS
IN
DT
NNS
VBN
IN
DT
NN

Viterbi算法词性预测图解笔记

Viterbi算法实战案例（天气变化、词性预测）_词性_04

Viterbi算法实战案例（天气变化、词性预测）_词性_05

Viterbi算法实战案例（天气变化、词性预测）_维特比算法_06

Viterbi算法实战案例（天气变化、词性预测）_词性_07

好博客就要一起分享哦！分享海报

此处可发布评论

评论（0）展开评论

暂无评论，快来写一下吧

展开评论

您可能感兴趣的博客

个性化心理健康监测与干预系统

【简介】个性化心理健康监测与干预系统

java基于ssm空气质量检测系统源码网站空气质量监测源码

【简介】 Java基于ssm的空气质量检测系统，检测设备检测一定范围内的企业空气指数，如果有污染则地图显示红色标记。

java基于ssm空<font color='red'>气</font>质量检<font color='red'>测</font>系统源码网站空<font color='red'>气</font>质量监<font color='red'>测</font>源码

java基于ssm空气质量检测系统源码

【简介】使用java，ssm框架来实现某个地区的空气质量数据监测。可以设置监测范围大小，监测空气是否有污染，如果再该范围内的企业产生污染数据，系统上的概况图需要将企业显示为红色预警信息，如果没有污染企业是蓝

基于springboot+vue的个性化购物平台

【简介】个性化购物平台

诗词文化传播平台

【简介】诗词文化传播平台

基于SpringBoot2+Vue2的诗词文化传播平台

【简介】本系统是一个诗词文化传播平台，旨在提供一个集诗词浏览、诗人介绍、用户互动（评论、收藏）和内容管理于一体的在线平台，致力于弘扬中华优秀传统文化。

基于SpringBoot2+Vue2的诗<font color='red'>词</font>文<font color='red'>化</font>传播平台

用Java实现计算器

【简介】 Java实现简单的计算器

Java学生档案开题报告

【简介】学生档案管理系统的设计与实现开题报告

使用浏览量的协调过滤推荐算法

【简介】使用浏览量的协调过滤推荐算法

单商家酒店预订系统毕业论文

【简介】随着21世纪互联网技术的飞速发展，计算机技术已渗透到人们生活的方方面面。在酒店行业中，传统的人工管理模式已无法满足现代化管理的需求，亟需通过信息化手段提升运营效率。因此酒店管理系统应运而生，旨在通过

vue之vuex的简单使用简化写法

【简介】 vue之vuex的简单使用简化写法

vue和springboot使用websocket实现聊天

【简介】用2张表实现vue和springboot使用websocket实现聊天，可以是好朋友聊，也可以是固定客服人员聊天

Java大学生档案系统高校学生档案系统

【简介】 Java基于springboot开发的学生档案系统，包含了权限管理，学生档案，学生成绩录入，教师管理等。

Java大学生档<font color='red'>案</font>系统高校学生档<font color='red'>案</font>系统

反向代理服务器nginx-Nginx负载均衡算法

【简介】 Nginx负载均衡算法研究分析

实验室预约管理系统论文

【简介】量人力、物力和时间的浪费，因而设计一种适合当前教学要求的实验室预约管理系统已经成为一种必然

8.变量

【简介】 java变量

33.可视化统计功能-柱状图为例

【简介】可视化统计功能-柱状图为例，用的echarts实现的。后端需要用到分组查询-group by

13.赋值运算符

【简介】赋值运算符

Java基于协同过滤算法开发的springboot+vue服装商城

【简介】用户可以浏览商品和特价商品，加入购物车，直接下单支付，在我的个人中心里可以管理自己的订单，收货地址，编辑资料等。管理员可以发布商品，上下架商品，处理订单。首页可根据用户喜好进行个性化商品推荐（协同过

Java基于协同过滤<font color='red'>算</font><font color='red'>法</font>开发的springboot+vue服装商城

第六章 MyBatis-Plus+Vue+Element前后端分离实战

【简介】 MyBatis-Plus+Vue+Element前后端分离实战

15.逻辑运算符

【简介】逻辑运算符

奋斗吧

奋斗吧 主页关注

337万+ 人气	865 博客	0 专栏
问答	1 粉丝	0 关注

写博客博客管理

他感兴趣的技术

Java HTML PHP python JavaScript Android MySQL C Linux 微信其他

最热博客更多

1、Windows怎么激活？Windows激活密钥分享 5858

2、黑客入侵的常法 5546

3、类ChatGPT项目的部署与微调(上)：从LLaMA到Alpaca、Vicuna、BELLE 2932

4、黑马Mysql从入门到高级 2916

5、分享200+个关于AI的网站 2568

6、掌握Conda环境迁移的几种方式，从此不在重复配环境 2525

7、八股文总结 2144

8、小迪笔记 2132

9、Spring Boot 最核心的27个注解，你了解多少？ 2053

10、Yolov8详解与实战 1902

客服QQ 1913284695