Welcome to Scribd!

Skip carousel

Text Categorization Evaluation Metrics

Uploaded by

Sahar Salah

0% found this document useful (0 votes)

7 views7 pages

Text Mining

Original Title

Text Cat Eval Part2

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Text Mining

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

7 views7 pages

Text Categorization Evaluation Metrics

Uploaded by

Sahar Salah

Text Mining

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 7

Search inside document

Text Categorization: Evaluation (Part 2)

ChengXiang Cheng Zhai

Department of Computer Science
University of Illinois at Urbana-Champaign

(Macro) Average Over All the Categories

d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

ck
n(+)
n(+)
n(+)

Aggregate

Precision

Overall Precision

Recall

Overall Recall

Overall F score

F-Measure

(Macro) Average Over All the Documents

d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

ck
n(+)
n(+)
n(+)

Precision Recall

F-Measure

Aggregate
Overall Precision Overall Recall
Overall F score
3

Micro-Averaging of Precision and Recall

c1
d1
d2
d3

y(+) y(-) n(+)

y(-) n(+) y(+)
n(+) n(+) y(+)

ck
n(+)
n(+)
n(+)

First pool all decisions,

then compute precision and recall

TP
Precision
TP FP

System (y)

System (n)

Human (+)

True Positives ( TP)

False Negatives (FN)

Human (-)

False Positives(FP)

True Negatives(TN)

TP
Recall
TP FN
4

Sometimes Ranking Is More Appropriate

The categorization results are often passed to a human for
further editing (e.g., correcting system mistakes on news categories)
prioritizing a task (e.g., routing an email to the right person for
processing)

In such cases, we can evaluate the results as a ranked list if the

system can give scores for the decisions
E.g., discovery of spam emails ( rank emails for the spam category)
Often more appropriate to frame the problem as a ranking problem
instead of a categorization problem (e.g., ranking documents in a
search engine)
5

Summary of Categorization Evaluation

Evaluation is always very important, so get it right!
Measures must reflect the intended use of the results for a
particular application (e.g., spam filtering vs. news
categorization)
Consider: How will the results be further processed (by a user)?
Ideally associate a different cost with each different decision error

Commonly used measures for relative comparison of different

methods:
Accuracy, precision, recall, F score
Variations: per-document, per-category, micro vs. macro averaging

Sometimes ranking may be more appropriate

Suggested Reading
Manning, Chris D., Prabhakar Raghavan, and Hinrich
Schtze. Introduction to Information Retrieval.
Cambridge: Cambridge University Press, 2007.
(Chapters 13-15)
Yang, Yiming. 1999. An Evaluation of Statistical
Approaches to Text Categorization. Inf. Retr. 1, 1-2
(May 1999), 69-90. DOI=10.1023/A:1009982220290
7

Text Categorization Evaluation Methods
Document8 pages
Text Categorization Evaluation Methods
Sahar Salah
No ratings yet
Learning To Rank - A Complete Guide To Ranking Using Machine Learning - by Francesco Casalegno - Feb, 2022 - Towards Data Science
Document10 pages
Learning To Rank - A Complete Guide To Ranking Using Machine Learning - by Francesco Casalegno - Feb, 2022 - Towards Data Science
Anton Ermak
No ratings yet
Data Processing and Statistical Treatment
Document5 pages
Data Processing and Statistical Treatment
Cake Man
No ratings yet
Comparating Classifiers
Document11 pages
Comparating Classifiers
Batista Carvalho
No ratings yet
Applied Business Analytics Using R & PYTHON: 3 Credits, 24 Sessions, 30 Hours
Document42 pages
Applied Business Analytics Using R & PYTHON: 3 Credits, 24 Sessions, 30 Hours
Rahul B 2B.ComSec 2
No ratings yet
BRM Research Focus
Document4 pages
BRM Research Focus
Ashik Hashim
No ratings yet
IR Chapt 5
Document55 pages
IR Chapt 5
Magarsa Bedasa
No ratings yet
Text Classification
Document32 pages
Text Classification
SamNeil70
No ratings yet
Simple Data Science (R)
From Everand
Simple Data Science (R)
Narayana Nemani
Rating: 5 out of 5 stars
5/5 (1)
Sentiment Analysis Approach Combining Rule-Based, Supervised and Machine Learning
Document21 pages
Sentiment Analysis Approach Combining Rule-Based, Supervised and Machine Learning
Nara Anindya
No ratings yet
Processing of Data, MBA-II Sem
Document3 pages
Processing of Data, MBA-II Sem
Darshan Nallode
No ratings yet
How To Write Data Analysis For Thesis
Document5 pages
How To Write Data Analysis For Thesis
lisajonesshreveport
100% (2)
Ijarcce 140
Document4 pages
Ijarcce 140
Agusti Frananda Alfonsus Naibaho
No ratings yet
Sentiment Analysis: A Combined Approach: Cite This Paper
Document22 pages
Sentiment Analysis: A Combined Approach: Cite This Paper
fitoj aka
No ratings yet
Statistics and Probability For Data Scinece Notes
Document41 pages
Statistics and Probability For Data Scinece Notes
URK20DA1007 RYAN POWELL
No ratings yet
A Study of Classification Algorithms Using Rapidminer
Document12 pages
A Study of Classification Algorithms Using Rapidminer
Agusti Frananda Alfonsus Naibaho
No ratings yet
Ljmba Sem-I Subject - Business Statistics Text Book: Business Statistics by Ken Black (5 Edition)
Document29 pages
Ljmba Sem-I Subject - Business Statistics Text Book: Business Statistics by Ken Black (5 Edition)
anon_892666860
No ratings yet
Data Mining: Clustering
Document46 pages
Data Mining: Clustering
shwetadhatterwal
No ratings yet
Accepted Manuscript: Cognitive Systems Research
Document9 pages
Accepted Manuscript: Cognitive Systems Research
Imran Hasanuddin
No ratings yet
JA Ramya
Document13 pages
JA Ramya
Agusti Frananda Alfonsus Naibaho
No ratings yet
Tugas 13 - Kelompok 9 - Chapter 16
Document16 pages
Tugas 13 - Kelompok 9 - Chapter 16
Mochammad Arief
No ratings yet
Clustering Algorithm
Document144 pages
Clustering Algorithm
Sohail Ahmad
No ratings yet
Unit-32 Tabulation and Graphic Presentation - Case Studies PDF
Document10 pages
Unit-32 Tabulation and Graphic Presentation - Case Studies PDF
dhivya
No ratings yet
IR - Chapter 5
Document28 pages
IR - Chapter 5
Magarsa Bedasa
No ratings yet
3b Features PDF
Document40 pages
3b Features PDF
jithu
No ratings yet
Lecture 05: Relational Database Design by ER-& EER-to - Relational Mapping
Document64 pages
Lecture 05: Relational Database Design by ER-& EER-to - Relational Mapping
Sandeep Kumar Sai
No ratings yet
Cheat Sheet
Document1 page
Cheat Sheet
lucas
No ratings yet
Exploratory and Multivariate Data Analysis
From Everand
Exploratory and Multivariate Data Analysis
Michel Jambu
No ratings yet
QRM 00 Introduction
Document15 pages
QRM 00 Introduction
Sudhanshu Trivedi
No ratings yet
Booklet MTech CSE1 2nd Sem 2010 11
Document38 pages
Booklet MTech CSE1 2nd Sem 2010 11
ayyapa145
No ratings yet
Chapter 5.0 - Data Processing
Document19 pages
Chapter 5.0 - Data Processing
Stivanos Habtamu
No ratings yet
Datawarehousing and Data Mining
Document119 pages
Datawarehousing and Data Mining
lakshmiraghujashu
No ratings yet
Unit - 4 - Auto 2018
Document12 pages
Unit - 4 - Auto 2018
sharath
No ratings yet
A Systematic Literature Review On Fault Prediction Performance in Software Engineering PDF
Document4 pages
A Systematic Literature Review On Fault Prediction Performance in Software Engineering PDF
ea4gaa0g
No ratings yet
ML Self
Document64 pages
ML Self
Anjali Choudhary
No ratings yet
Pr. Lesson 13
Document8 pages
Pr. Lesson 13
Jama Bustamante
No ratings yet
Sri Vidya College of Engineering and Technology Course Material on Operations Research Concepts
Document42 pages
Sri Vidya College of Engineering and Technology Course Material on Operations Research Concepts
Zamruth Fathima
No ratings yet
1CHP Gen N 210 Mid-Term Sol
Document5 pages
1CHP Gen N 210 Mid-Term Sol
geo_bi
No ratings yet
Sentiment Analysis: Srishti Chaubey
Document40 pages
Sentiment Analysis: Srishti Chaubey
DeepanshGoyal
No ratings yet
Assignment No. 2: Assignment Submission Guidelines: Assignment Formatting Instructions
Document9 pages
Assignment No. 2: Assignment Submission Guidelines: Assignment Formatting Instructions
shuchim
No ratings yet
Classification Algorithm in Data Mining: An
Document6 pages
Classification Algorithm in Data Mining: An
Mosaddek Hossain
No ratings yet
Introduction To Machine Learning
Document45 pages
Introduction To Machine Learning
Charlie
No ratings yet
Assignment 1
Document3 pages
Assignment 1
Kaviyarasii
No ratings yet
Business Statistics I BBA 1303: Muktasha Deena Chowdhury Assistant Professor, Statistics, AUB
Document54 pages
Business Statistics I BBA 1303: Muktasha Deena Chowdhury Assistant Professor, Statistics, AUB
Khairul Hasan
100% (1)
Techniques of Text Classification
Document28 pages
Techniques of Text Classification
Houda Kamouss
No ratings yet
ds module 4
Document73 pages
ds module 4
Prathik Srinivas
No ratings yet
Exploratory Data Analysis
Document203 pages
Exploratory Data Analysis
Sneha mini
No ratings yet
Chapter2-BI
Document77 pages
Chapter2-BI
THAO NGUYEN PHUONG
No ratings yet
Java Course Notes CS3114 - 09212011
Document344 pages
Java Course Notes CS3114 - 09212011
Manuel Sosaeta
No ratings yet
TECH 4070-Ch02
Document33 pages
TECH 4070-Ch02
沈悦双
No ratings yet
Performance Analysis of Decision Tree Classifiers
Document9 pages
Performance Analysis of Decision Tree Classifiers
EighthSenseGroup
No ratings yet
COMP 527 - 2019 - CA1 Re-Sit Assignment Data Classification Implementing K-NN Classifier
Document3 pages
COMP 527 - 2019 - CA1 Re-Sit Assignment Data Classification Implementing K-NN Classifier
Muhammad Fajar Ikhsan Ja'far
No ratings yet
Human Aided Text Summarizer "SAAR" Using Reinforcement Learning
Document31 pages
Human Aided Text Summarizer "SAAR" Using Reinforcement Learning
Chandra Prakash Meena
100% (1)
ISIM
Document14 pages
ISIM
Fibonnaci Backtrack
No ratings yet
Persiapan Menuju Analisis Multivariat
Document40 pages
Persiapan Menuju Analisis Multivariat
Destiya Rospiani
No ratings yet
Data Analysis Techniques
Document33 pages
Data Analysis Techniques
bhaviktrivedi3
No ratings yet
TCP1101 Assignment PDF
Document16 pages
TCP1101 Assignment PDF
Blackk Worldz
No ratings yet
Grade 8 Science Summative Exam Blueprint
Document36 pages
Grade 8 Science Summative Exam Blueprint
Angelo Sinfuego
No ratings yet
Assignment Database
Document23 pages
Assignment Database
Nguyễn Mạnh
No ratings yet
CS3943-9223 Assignment1
Document2 pages
CS3943-9223 Assignment1
Deepak Kadimela
No ratings yet
How Can This Is A Statement 1
Document1 page
How Can This Is A Statement 1
Sahar Salah
No ratings yet
dr-KhalidKerawani-التواصل الفوري المتزامن وغير المتزامن PDF
Document34 pages
dr-KhalidKerawani-التواصل الفوري المتزامن وغير المتزامن PDF
Sahar Salah
100% (1)
3 Fil
Document1 page
3 Fil
Sahar Salah
No ratings yet
File Desti
Document1 page
File Desti
Sahar Salah
No ratings yet
Your File
Document1 page
Your File
Sahar Salah
No ratings yet
Her File
Document1 page
Her File
Sahar Salah
No ratings yet
Book
Document1 page
Book
Sahar Salah
No ratings yet
4 Wwqqvvxxaaaqqq
Document1 page
4 Wwqqvvxxaaaqqq
Sahar Salah
No ratings yet
332 Fil
Document1 page
332 Fil
Sahar Salah
No ratings yet
12 File
Document1 page
12 File
Sahar Salah
No ratings yet
Myfile
Document1 page
Myfile
Sahar Salah
No ratings yet
Children's Drawings
Document11 pages
Children's Drawings
Sahar Salah
No ratings yet
22 File
Document1 page
22 File
Sahar Salah
No ratings yet
Your File
Document1 page
Your File
Sahar Salah
No ratings yet
IYour File
Document1 page
IYour File
Sahar Salah
No ratings yet
Gettingstarted Director
Document84 pages
Gettingstarted Director
mohammed.saboor
100% (2)
Method Summary For The Sprite Channel Object
Document2 pages
Method Summary For The Sprite Channel Object
Sahar Salah
No ratings yet
Lesson1 PDF
Document2 pages
Lesson1 PDF
Sahar Salah
No ratings yet
Tycoon Controller 304 PDF
Document4 pages
Tycoon Controller 304 PDF
Sahar Salah
No ratings yet
Week2Code TCC PDF
Document3 pages
Week2Code TCC PDF
Sahar Salah
No ratings yet
Flowchart Symbols Code101x
Document1 page
Flowchart Symbols Code101x
Sahar Salah
No ratings yet
Director Tutorial
Document20 pages
Director Tutorial
Sahar Salah
No ratings yet
TM 29 Text Cat Methods
Document6 pages
TM 29 Text Cat Methods
Sahar Salah
No ratings yet
Framework For Object-Oriented Embedded
Document22 pages
Framework For Object-Oriented Embedded
Sahar Salah
No ratings yet
Complex Course Generation Adapted To Pedagogical Scenarios
Document15 pages
Complex Course Generation Adapted To Pedagogical Scenarios
Sahar Salah
No ratings yet
Open Data
Document30 pages
Open Data
Sahar Salah
No ratings yet
Insurance Type and Bowel Prep Quality
Document1 page
Insurance Type and Bowel Prep Quality
Sahar Salah
No ratings yet
Elements in Human New Perspectives
Document32 pages
Elements in Human New Perspectives
Sahar Salah
No ratings yet