Welcome to Scribd!

Skip carousel

Text Categorization Evaluation Methods

Uploaded by

Sahar Salah

0% found this document useful (0 votes)

15 views8 pages

text mining

Original Title

Text Cat Eval Part1

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

text mining

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

15 views8 pages

Text Categorization Evaluation Methods

Uploaded by

Sahar Salah

text mining

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 8

Search inside document

Text Categorization: Evaluation (Part 1)

ChengXiang Cheng Zhai

Department of Computer Science
University of Illinois at Urbana-Champaign

Overview
What is text categorization?
Why text categorization?
How to do text categorization?
Generative probabilistic models
Discriminative approaches

How to evaluate categorization results?

General Evaluation Methodology

Have humans to create a test collection where every document is
tagged with the desired categories (ground truth)
Generate categorization results using a system on the test collection
Compare the system categorization decisions with the human-made
categorization decisions and quantify their similarity (or equivalently
difference)
The higher the similarity is, the better the results are
Similarity can be measured from different perspectives to understand
the quality of results in detail (e.g., which category performs better?)
In general, different categorization mistakes may have a different cost
that inevitably depends on specific applications, but it is okay not to
consider such a cost variation for relative comparison of methods
3

Classification Accuracy (Percentage of Correct Decisions)

d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

n(+)
n(+)
n(+)

+/- human answer

(+= correct; - =incorrect)
y/n system result
(y=yes; n=no)

Classification Accuracy =

Total number of correct decisions

Total number of decisions made

count ( y( )) count ( n( ))
kN

Problems with Classification Accuracy

Some decision errors are more serious than others
It may be more important to get the decisions right on some
documents than others
It may be more important to get the decisions right on some
categories than others
E.g., spam filtering: missing a legitimate email costs more than letting
a spam go

Problem with imbalanced test set

Skewed test set: 98% in category 1; 2% in category 2
Strong baseline: put all instances in category 1 98% accuracy!
5

Per-Document Evaluation
c1

d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

Human (+)

n(+)
n(+)
n(+)

System (y)

System (n)

True Positives

False Negatives

TP
Human (-)

False Positives

FN
True Negatives

How good are the decisions on di?

When the system says yes,
how many are correct?

TP
Precision
TP FP
Recall

TP
TP FN

Does the doc have all the categories

it should have?
6

Per-Category Evaluation
c1

d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

Human (+)

n(+)
n(+)
n(- )

System (y)

System (n)

True Positives

False Negatives

TP
Human (-)

False Positives

FN
True Negatives

How good are the decisions on ci?

When the system says yes,
how many are correct?

TP
Precision
TP FP
Recall

TP
TP FN

Has the category been assigned to

all the docs of this category? 7

Combine Precision and Recall: F-Measure

R
2 PR
F1
PR
2
2 1

1
2 1

Why not 0.5P+0.5R?

( 2 1) P * R

1
2P R
P
P: precision
R: recall
: parameter (often set to 1)

What is R if the system says y for all category-doc pairs?

Writing The Results Section For A Research Paper
Document7 pages
Writing The Results Section For A Research Paper
Israel Pope
No ratings yet
Business Statistics I Essentials
From Everand
Business Statistics I Essentials
Louise Clark
Rating: 5 out of 5 stars
5/5 (5)
Hypothesis Testing: An Intuitive Guide for Making Data Driven Decisions
From Everand
Hypothesis Testing: An Intuitive Guide for Making Data Driven Decisions
Jim Frost
No ratings yet
Handbook of Methodological Approaches To Community-Based Research - Qualitative, Quantitative, and Mixed Methods PDF
Document409 pages
Handbook of Methodological Approaches To Community-Based Research - Qualitative, Quantitative, and Mixed Methods PDF
Riris Diana Rachmayanti
100% (3)
Methodology of Seismic Refraction
$Methodology of Seismic Refraction$
Document8 pages
Methodology of Seismic Refraction
elnaqa176
0% (1)
Data Science Interview Questions Explained
Document55 pages
Data Science Interview Questions Explained
Arunachalam Narayanan
100% (2)
Evaluating Employee Performance PDF
Document2 pages
Evaluating Employee Performance PDF
Jonathan
0% (1)
Elements in Human New Perspectives
Document32 pages
Elements in Human New Perspectives
Sahar Salah
No ratings yet
ISTQB TestAnalyst
Document2 pages
ISTQB TestAnalyst
Reshma Rangan
No ratings yet
Nature of Probability and Statistics
Document16 pages
Nature of Probability and Statistics
Cynthia Plaza
100% (1)
Tata Motors
Document29 pages
Tata Motors
goelabhishek90
100% (2)
Chapter2 Methods of Research Module
Document35 pages
Chapter2 Methods of Research Module
Steffany Roque
100% (1)
Spss Sampling
Document26 pages
Spss Sampling
api-339611548
100% (5)
Datascience Interview
Document31 pages
Datascience Interview
Senthil Kumar
100% (1)
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ Môn Công Nghệ Tri Thức
Document9 pages
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Khoa Học Tự Nhiên Khoa Công Nghệ Thông Tin Bộ Môn Công Nghệ Tri Thức
Trần Đình Khang
No ratings yet
Comparating Classifiers
Document11 pages
Comparating Classifiers
Batista Carvalho
No ratings yet
Social Sentiment FINALFMT
Document7 pages
Social Sentiment FINALFMT
Eric Forst
No ratings yet
ds module 4
Document73 pages
ds module 4
Prathik Srinivas
No ratings yet
Missing Values Lead To The Difficulty of Extracting Useful Information From The Data Set
Document10 pages
Missing Values Lead To The Difficulty of Extracting Useful Information From The Data Set
Mohanad Eid
No ratings yet
Sentiment Analysis Approach Combining Rule-Based, Supervised and Machine Learning
Document21 pages
Sentiment Analysis Approach Combining Rule-Based, Supervised and Machine Learning
Nara Anindya
No ratings yet
Thesis With Chi-Square Test
Document7 pages
Thesis With Chi-Square Test
WhatIsTheBestPaperWritingServiceCanada
100% (2)
Thesis With T-Test
Document4 pages
Thesis With T-Test
jillbellmilwaukee
100% (1)
CS001-B03 - Exploratory Data Analysis 20
Document7 pages
CS001-B03 - Exploratory Data Analysis 20
Viswa Spiritual
No ratings yet
Comparison of Decision Tree Classifiers for Automatic Diagnosis of Speech Recognition Errors
Document13 pages
Comparison of Decision Tree Classifiers for Automatic Diagnosis of Speech Recognition Errors
Vijay Mani
No ratings yet
Sentiment Analysis: A Combined Approach: Cite This Paper
Document22 pages
Sentiment Analysis: A Combined Approach: Cite This Paper
fitoj aka
No ratings yet
Persiapan Menuju Analisis Multivariat
Document40 pages
Persiapan Menuju Analisis Multivariat
Destiya Rospiani
No ratings yet
Data Analysis and Research Methodology
Document23 pages
Data Analysis and Research Methodology
SOURASHTRA
No ratings yet
IJRR0058
Document7 pages
IJRR0058
kambangamercy22
No ratings yet
Predictive Accuracy: A Misleading Performance Measure For Highly Imbalanced Data
Document12 pages
Predictive Accuracy: A Misleading Performance Measure For Highly Imbalanced Data
pepta
No ratings yet
Revising The Paper, Selecting The Samples, Planning The Procedure
Document26 pages
Revising The Paper, Selecting The Samples, Planning The Procedure
John Lexter Rosales
No ratings yet
Data Preparation Techniques and Preliminary Analysis
Document9 pages
Data Preparation Techniques and Preliminary Analysis
Gopaul Usha
No ratings yet
Data Processing and Statistical Treatment
Document5 pages
Data Processing and Statistical Treatment
Cake Man
No ratings yet
Revising The Paper, Selecting The Samples, Planning The Procedure
Document26 pages
Revising The Paper, Selecting The Samples, Planning The Procedure
AzeLucero
No ratings yet
Clustering and Classification: - Task
Document16 pages
Clustering and Classification: - Task
asra18786
No ratings yet
(Yen2009) Cluster-Based Under-Sampling Approaches For Imbalanced Data Distributions
Document10 pages
(Yen2009) Cluster-Based Under-Sampling Approaches For Imbalanced Data Distributions
Reyhan Fadhil
No ratings yet
Inferential 1 Student
Document93 pages
Inferential 1 Student
Abegail Gan
No ratings yet
Applied Business Analytics Using R & PYTHON: 3 Credits, 24 Sessions, 30 Hours
Document42 pages
Applied Business Analytics Using R & PYTHON: 3 Credits, 24 Sessions, 30 Hours
Rahul B 2B.ComSec 2
No ratings yet
Data Mining Models and Evaluation Techniques
Document59 pages
Data Mining Models and Evaluation Techniques
spsberry8
No ratings yet
Thesis Chi Square
Document5 pages
Thesis Chi Square
cynthiasmithmanchester
100% (2)
Item Response Theory PDF
Document31 pages
Item Response Theory PDF
Syahida Iryani
100% (1)
Supervised and Unsupervised Learning: Ciro Donalek Ay/Bi 199 - April 2011
Document69 pages
Supervised and Unsupervised Learning: Ciro Donalek Ay/Bi 199 - April 2011
Emmanuel Harris
No ratings yet
Data Science Interview Questions Solved
Document54 pages
Data Science Interview Questions Solved
aalto falto
No ratings yet
Group Project:: Breast Cancer Classification
Document16 pages
Group Project:: Breast Cancer Classification
Đức Anh Leo
No ratings yet
DataScience Interview Questions
Document66 pages
DataScience Interview Questions
ravi Kiran
No ratings yet
Data Science Interview Questions: Answer Here
Document54 pages
Data Science Interview Questions: Answer Here
neeraj12121
No ratings yet
AHP Method for Supplier Selection
Document11 pages
AHP Method for Supplier Selection
Pareza Alam
No ratings yet
Tutorial 3
Document30 pages
Tutorial 3
Prathamesh
No ratings yet
Research Paper With Chi Square Test
Document9 pages
Research Paper With Chi Square Test
shjpotpif
100% (1)
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Data Mining
Document50 pages
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Data Mining
Mostafa Heidary
No ratings yet
Course Introduction Inferential Statistics Prof. Sandy A. Lerio
Document46 pages
Course Introduction Inferential Statistics Prof. Sandy A. Lerio
KnotsNautischeMeilenproStunde
No ratings yet
Module 4
Document17 pages
Module 4
Syrine Quintero
No ratings yet
PTDLKT
Document11 pages
PTDLKT
Nguyễn Lê Phương Uyên
No ratings yet
Module 4 1
Document17 pages
Module 4 1
Claryx Vhea
No ratings yet
Parametric and Non-Parametric Tests
Document2 pages
Parametric and Non-Parametric Tests
M S Sridhar
100% (1)
Reaserch Methodology.
Document16 pages
Reaserch Methodology.
tgolakiya
No ratings yet
Analysis of Data: Chapter-5
Document17 pages
Analysis of Data: Chapter-5
Punit Gupta
No ratings yet
Paper 8898
Document5 pages
Paper 8898
IJARSCT Journal
No ratings yet
An Animated Guide: Matching Test and Control Subjects: Russell Lavery, Independent Consultant
Document21 pages
An Animated Guide: Matching Test and Control Subjects: Russell Lavery, Independent Consultant
lion king
No ratings yet
Research Paper Using Discriminant Analysis
Document6 pages
Research Paper Using Discriminant Analysis
onuxadaod
100% (1)
Computational Journalism at Columbia, Fall 2013: Lecture 1, Basics
Document56 pages
Computational Journalism at Columbia, Fall 2013: Lecture 1, Basics
Jonathan Stray
No ratings yet
Analysis of Data and Interpretetion of The Results of Statistical Computations
Document62 pages
Analysis of Data and Interpretetion of The Results of Statistical Computations
EL FRANCE MACATE
No ratings yet
Classification Problem: Solving
Document28 pages
Classification Problem: Solving
Janesh Atrey
No ratings yet
Evaluating Predictive Models
Document6 pages
Evaluating Predictive Models
Ma. Jessabel Azurin
No ratings yet
Fall2009 MidtermSTA630-1 Solved
Document12 pages
Fall2009 MidtermSTA630-1 Solved
Khuram Shahzad
No ratings yet
Be A 65 Ads Exp 3
Document6 pages
Be A 65 Ads Exp 3
Ritika dwivedi
No ratings yet
4869 Kline Chapter 5 Classical Test Theory
Document16 pages
4869 Kline Chapter 5 Classical Test Theory
MoreNa
No ratings yet
CCPS521 WIN2023 Week05 - Classification
Document47 pages
CCPS521 WIN2023 Week05 - Classification
Charles Kingston
No ratings yet
Data Scaling and Normalization
From Everand
Data Scaling and Normalization
Chuck Sherman
No ratings yet
How Can This Is A Statement 1
Document1 page
How Can This Is A Statement 1
Sahar Salah
No ratings yet
dr-KhalidKerawani-التواصل الفوري المتزامن وغير المتزامن PDF
Document34 pages
dr-KhalidKerawani-التواصل الفوري المتزامن وغير المتزامن PDF
Sahar Salah
100% (1)
22 File
Document1 page
22 File
Sahar Salah
No ratings yet
IYour File
Document1 page
IYour File
Sahar Salah
No ratings yet
3 Fil
Document1 page
3 Fil
Sahar Salah
No ratings yet
Your File
Document1 page
Your File
Sahar Salah
No ratings yet
File Desti
Document1 page
File Desti
Sahar Salah
No ratings yet
4 Wwqqvvxxaaaqqq
Document1 page
4 Wwqqvvxxaaaqqq
Sahar Salah
No ratings yet
332 Fil
Document1 page
332 Fil
Sahar Salah
No ratings yet
12 File
Document1 page
12 File
Sahar Salah
No ratings yet
Book
Document1 page
Book
Sahar Salah
No ratings yet
Her File
Document1 page
Her File
Sahar Salah
No ratings yet
Myfile
Document1 page
Myfile
Sahar Salah
No ratings yet
Your File
Document1 page
Your File
Sahar Salah
No ratings yet
Gettingstarted Director
Document84 pages
Gettingstarted Director
mohammed.saboor
100% (2)
Lesson1 PDF
Document2 pages
Lesson1 PDF
Sahar Salah
No ratings yet
Tycoon Controller 304 PDF
Document4 pages
Tycoon Controller 304 PDF
Sahar Salah
No ratings yet
Children's Drawings
Document11 pages
Children's Drawings
Sahar Salah
No ratings yet
Method Summary For The Sprite Channel Object
Document2 pages
Method Summary For The Sprite Channel Object
Sahar Salah
No ratings yet
Director Tutorial
Document20 pages
Director Tutorial
Sahar Salah
No ratings yet
TM 29 Text Cat Methods
Document6 pages
TM 29 Text Cat Methods
Sahar Salah
No ratings yet
Flowchart Symbols Code101x
Document1 page
Flowchart Symbols Code101x
Sahar Salah
No ratings yet
Insurance Type and Bowel Prep Quality
Document1 page
Insurance Type and Bowel Prep Quality
Sahar Salah
No ratings yet
Week2Code TCC PDF
Document3 pages
Week2Code TCC PDF
Sahar Salah
No ratings yet
Open Data
Document30 pages
Open Data
Sahar Salah
No ratings yet
Complex Course Generation Adapted To Pedagogical Scenarios
Document15 pages
Complex Course Generation Adapted To Pedagogical Scenarios
Sahar Salah
No ratings yet
Framework For Object-Oriented Embedded
Document22 pages
Framework For Object-Oriented Embedded
Sahar Salah
No ratings yet
Nandini Raizada: Unit-I: Introduction To Forensic Science
Document2 pages
Nandini Raizada: Unit-I: Introduction To Forensic Science
AmanKumar
No ratings yet
General Assesment: Learning Objectives
Document7 pages
General Assesment: Learning Objectives
Dwi
No ratings yet
Likert Scale in Social Sciences Research
Document13 pages
Likert Scale in Social Sciences Research
Benidiktus Tanujaya
No ratings yet
Chapter Four: Survey Research
Document43 pages
Chapter Four: Survey Research
Yab Tad
No ratings yet
List PJK3 (English)
Document11 pages
List PJK3 (English)
brigitha filia
No ratings yet
EMEA - AnnexIV - Procedure For Conducting GCP Inspections Requested by The EMEA
Document6 pages
EMEA - AnnexIV - Procedure For Conducting GCP Inspections Requested by The EMEA
ellynesetiawan
No ratings yet
As 3706.1-2003 Geotextiles - Methods of Test General Requirements Sampling Conditioning Basic Physical Proper
Document2 pages
As 3706.1-2003 Geotextiles - Methods of Test General Requirements Sampling Conditioning Basic Physical Proper
SAI Global - APAC
No ratings yet
Geography Grade 9 - Lesson Note
Document3 pages
Geography Grade 9 - Lesson Note
micahx
No ratings yet
Marriage: After Every Wedding Comes A Marriage
Document2 pages
Marriage: After Every Wedding Comes A Marriage
ricklet
No ratings yet
Dissertation Discussion Chapter Example
Document8 pages
Dissertation Discussion Chapter Example
CustomPapersWritingMilwaukee
100% (1)
C 8
Document45 pages
C 8
rgerwwaa
0% (1)
Data Collection and Processing Methods
Document115 pages
Data Collection and Processing Methods
uthira
No ratings yet
Research Methodology and IPR
Document2 pages
Research Methodology and IPR
Haran Hari
No ratings yet
CRISC Review QAE 2015 Correction Page 65 XPR Eng 0615
Document1 page
CRISC Review QAE 2015 Correction Page 65 XPR Eng 0615
Sakil Mahmud
No ratings yet
Crisis Management Ebook 81419 PDF
Document16 pages
Crisis Management Ebook 81419 PDF
John Aguilar
No ratings yet
Decision-Making Style, Driving Style, and Self-Reported Involvement in Road Traffic Accidents
Document18 pages
Decision-Making Style, Driving Style, and Self-Reported Involvement in Road Traffic Accidents
Olivia-Rahela Pașniciuc
No ratings yet
Versión 18 / Ene 2023
Document7 pages
Versión 18 / Ene 2023
Gloria J González
No ratings yet
7 95 Janetzki Rev
Document42 pages
7 95 Janetzki Rev
Wendy Montiel
No ratings yet
Journal of Mathematical Analysis and Applications
Document15 pages
Journal of Mathematical Analysis and Applications
Anam
No ratings yet
BB 1 - 03 DMAIC Roadmap
Document31 pages
BB 1 - 03 DMAIC Roadmap
Shri Kumaran
No ratings yet
Pump Performance Lab Report
Document8 pages
Pump Performance Lab Report
Edgar Dizal
0% (1)
Data Mining and Classification
Document50 pages
Data Mining and Classification
komal kashyap
No ratings yet
Quiz 1 Diss
Document3 pages
Quiz 1 Diss
Jhed
No ratings yet